Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se...

33
Inferenza statistica

Transcript of Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se...

Page 1: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

Inferenza statistica

Page 2: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Si tratta di un complesso di tecniche, basate sulla teoria della probabilità, che consentono di verificare se sia o no possibile trasferire i risultati ottenuti per un campione ad una popolazione più estesa. E’ un processo induttivo che, pur non potendo contare su tutti i dati necessari per descrivere un collettivo statistico, cerca di stimare con una certa probabilità di errore, se essi siano o meno attendibili. L’induzione, dunque, contrariamente alla deduzione, si fonda su basi incerte ma tenta di colmare le lacune di informazione che si hanno ogni qualvolta non si può osservare tutta la popolazione, ma solo una parte di essa. Distinguiamo il termine parametro dal termine statistica: il parametro è un valore caratteristico della popolazione, mentre la statistica è funzione delle osservazioni di un campione. Quindi la media può essere sia parametro che statistica.

Page 3: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità e dunque si possa considerare come una variabile aleatoria, si definisce funzione di ripartizione di X la relazione F(x)=Prob {X ≤ x} con x∈R Tale funzione è non decrescente, cioè per x<x1 , F(x)≤F(x1) è continua a destra, cioè F(x)=F(x1) se x e x1 sono infinitamente vicini è tale che lim

𝑥→−∞𝐹(𝑥) = 0 e lim

𝑥→+∞𝐹(𝑥) = 1

Consideriamo ora la media artimetica. Distinguiamo la media aritmetica della popolazione μ, che abbiamo detto possiamo chiamare parametro, da quella calcolata nel campione 𝑥 , che è la nostra statistica a cui è associata una distribuzione di probabilità. Questa statistica a sua volta ha una media ed una varianza

Media: 𝐸 𝑥 = 𝜇 e varianza: 𝑉𝑎𝑟 𝑥 =𝜎2

𝑛 oppure 𝑉𝑎𝑟 𝑥 =

𝜎2

𝑛

𝑁−𝑛

𝑁−1

Page 4: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Esempio: Torniamo all’esempio già visto per verificare che se potessimo calcolare la media di ogni possibile campione estraibile da un universo, otterremmo una serie di medie campionarie, che a loro volta hanno media pari al parametro della popolazione. Supponiamo di avere un universo di 4 unità su cui si è rilevata la seguente misura in cm: a=10, b=12, c=15, d=16. Avevamo calcolato che la media è pari a (10+12+15+16)/4=53/4=13,25. I campioni di una unità hanno medie pari a 10, 12, 15, 16 I campioni di due unità hanno medie pari a : 11, 12.5, 13, 13.5, 14, 15.5 I campioni di tre unità hanno medie pari a: 12.3, 12.7, 13.7, 14.3, E’ facile verificare che la media delle medie nei tre casi (campioni di 1 o 2 o 3 unità), è sempre pari a 13.25, che è la media dell’universo. Questo fatto ci dice anche che la media aritmetica è uno stimatore non distorto (vedremo meglio più avanti questo concetto)

Page 5: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Esempio: Per l’esempio della pagina precedente, calcoliamo la varianza della stima della media campionaria. Consideriamo tutte le medie calcolate ed effettuiamo il calcolo della varianza, cominciando per comodità dalla varianza della popolazione e poi calcolando quella per campioni di 2 e di 3 unità: σ2= [(10-13.25)2+(12-13.25)2+(15-13.25)2+(16-13.25)2]/4=5.7 Var2(𝑥 ) = [(11-13.25)2+(12.5-13.25)2+(13-13.25)2+(13.5-13.25)2+(14-13.25)2+(15.5-13.25)2]/6=1.9 Var3(𝑥 ) = [(12.3-13.25)2+(12.7-13.25)2+(13.7-13.25)2+(14.3-13.25)2]/4=0.6

Un altro modo per calcolare questa varianza è la formula 𝑉𝑎𝑟 𝑥 =𝜎2

𝑛

𝑁−𝑛

𝑁−1

Dal momento che σ2 è noto ed è pari a 5.7, la stessa varianza calcolata per i campioni di 1 unità, otteniamo:

Var2(𝑥 )= 5,7∗(4−2)

2∗(4−1)=

5,7

4= 1,9 Var3(𝑥 )=

5,7∗(4−3)

3∗(4−1)=

5,7

9= 1,6

Si comprende che quando N è grande e n piccolo l’ultima parte nella formula può essere trascurata

Page 6: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Il teorema del limite centrale La variabile aleatoria della media campionaria può essere associata ad una distribuzione di probabilità nota, grazie ad un teorema molto importante, che però vale solo per n grande (si intende almeno pari a 30) e se i campioni sono indipendenti. Il teorema dice che: la media campionaria al crescere di n tende a distribuirsi come una normale di media μ e varianza σ2/n Ne deriva che, se passiamo alla variabile standardizzata della media campionaria essa

si distribuisce come una normale standardizzata z = 𝑥 −𝜇𝜎

𝑛

~N(0,1)

Dunque la media è normale se il carattere su cui è calcolata è normale, e anche quando non lo è, per n sufficientemente grande.

Page 7: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Esempio: Facciamo ancora una volta riferimento agli alunni nel Lazio nel 1999 secondo i dati INRAN. Avevamo calcolato per il peso, sia la media che la varianza μ=33.1 kg e σ2=52.42, da cui σ=7.24 Supponiamo di estrarre dal collettivo dei 6080 ragazzi 100 campioni di 30 unità. Vogliamo calcolare quanti di questi campioni possiamo attenderci abbiano una media compresa nell’intervallo di peso 32|-|34 kg. Per prima cosa passiamo ai valori standardizzati, per cui calcoliamo lo scarto quadratico medio della media

campionaria che è pari a 𝜎𝑥 =𝜎2

𝑛

𝑁−𝑛

𝑁−1≈

𝜎2

𝑛=

𝜎

𝑛 Cioè 𝜎𝑥 =7.24/5.47=1.32

Allora ho z1=(32−33,1)

1,32=

−1,1

1,32= −1,83 e z2=

(34−33,1)

1,32=

0,9

1,32=0,68

Per il teorema del limite centrale p(32≤ 𝑥 ≤34)=p(z2)-p(z1)=p(0.68)-p(-0.83)=0.75-0.20=0.55 Per 100 campioni, ciascuno con probabilità 0.55 di centrare l’intervallo, mi aspetto 55 campioni la cui media sia interna all’intervallo scelto. NOTA: p(Z) è stato calcolato con il foglio di calcolo con la funzione DISTRIB.NORM.ST(Z)

Page 8: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica I principali problemi dell’inferenza statistica consistono nella stima dei parametri di una popolazione e nella verifica delle ipotesi statistiche.

Per stimare un parametro 𝜃 della popolazione si deve trovare una funzione dei dati osservati il cui valore possa essere ritenuto una stima attendibile del parametro della popolazione

𝜃 = t(x1, x2, …, xn) La funzione t si cerca per analogia con l’espressione matematica della forma caratteristica del parametro. Ad esempio la media, come abbiamo visto, può essere stimata con la media calcolata nel campione, la varianza, con la varianza calcolata nel campione (anche se bisogna dividerla per la radice di n)

Page 9: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Proprietà degli stimatori Gli stimatori possono avere delle proprietà molto importanti. CORRETTEZZA: Uno stimatore si dice corretto o non distorto, se il suo valore medio

nello spazio campionario è uguale al valore del parametro nella popolazione EFFICIENZA: Uno stimatore si dice efficiente se la sua varianza, a parità di altre

condizioni, è minore della varianza ottenibile con altri stimatori CONSISTENZA: Uno stimatore si dice consistente se al crescere di n i valori stimati

tendono, con probabilità tendente ad 1, al valore del parametro della popolazione SUFFICIENZA: Uno stimatore si dice sufficiente se contiene tutte le informazioni sul

parametro.

Page 10: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Proprietà degli stimatori Le prime due proprietà sono più intuitive, le altre due lo sono meno, anche se entrambe consentono di identificare gli stimatori migliori. Tuttavia possiamo affermare che se uno stimatore gode della proprietà della consistenza allora la sua varianza diminuirà fino ad annullarsi al crescere di n. Infine la proprietà di sufficienza di uno stimatore è molto importante perché da un lato si considerano stimatori che non trascurano nessuna informazione campionaria rilevante dall’altro non includono informazioni ridondanti per la stima del parametro. Per la media aritmetica, il miglior stimatore è proprio la media aritmetica delle osservazioni, perché è uno stimatore che gode delle proprietà suddette.

Page 11: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Proprietà degli stimatori Abbiamo già verificato la correttezza della media in quanto abbiamo visto che facendo la media delle medie campionarie, si ottiene proprio il valore del parametro media della popolazione. Se però usiamo un altro tipo di centro per stimare la media, ad esempio il valore centrale tra il minimo e il massimo, otteniamo uno stimatore peggiore. Esempio: riprendiamo un esempio precedente per verificare quest’ultima affermazione. Per le unità a=10, b=12, c=15, d=16, consideriamo i campioni di tre unità e stimiamo la media della popolazione, che era di 13.25, con la semisomma degli estremi nei campioni che indichiamo con s. a b c → s=12.5 a b d → s=13 a c d → s=13 b c d → s=14 La media di questi valori è (12.5+13+13+14)/4=13.125 leggermente inferiore alla media della popolazione quindi fornisce più di frequente una sottostima della media, anziché una stima esatta.

Page 12: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Proprietà degli stimatori Mentre la media artimetica è uno stimatore corretto, la varianza non lo è perché

risulta 𝐸 𝑠 2 = 𝜎2 𝑛−1

𝑛

Cioè la media delle varianze campionarie, indicate con S2, è uguale alla varianza della popolazione a meno di un fattore di correzione che dipende dalla numerosità campionaria. Quindi la varianza campionaria è uno stimatore distorto della varianza della popolazione, a meno che non si parli di grandi campioni per cui il fattore di correzione diventa trascurabile. Pertanto, per stimare la varianza nella popolazione si usa uno stimatore corretto:

𝑠 2 = (𝑥𝑖−𝑥 )

2𝑛𝑖=1

𝑛−1 dove 𝐸 𝑠 2 = 𝜎2

Page 13: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Intervallo di confidenza Abbiamo già visto in un esempio che, conoscendo la distribuzione di probabilità di un parametro, possiamo calcolare la probabilità dei campioni che hanno una stima del parametro che cade in un certo intervallo. Questo fatto può essere enunciato in un modo inverso: possiamo trovare un intervallo intorno al vero valore del parametro tale che la sua ampiezza è in grado di contenere una gran parte delle stime campionarie con una certa probabilità P. In altri termini, accettando un certo rischio di errore, possiamo determinare un intervallo entro cui dovrebbe trovarsi il valore vero del parametro da stimare. La quantità α=1-P è questo rischio di errore. Il valore 1-α viene detto livello di confidenza:

Pr{𝜃 - δ < 𝜃 < 𝜃 + δ } =1-α

Page 14: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Intervallo di confidenza

Ciò vuol dire che 1-α è la probabilità che l’intervallo ({𝜃 - δ , 𝜃 + δ) contenga il valore incognito 𝜃 della popolazione e tale intervallo varia col variare del campione. Questo esprime la fiducia che possiamo avere nella stima di 𝜃 Di conseguenza, possiamo dire che il valore 𝜃 può essere, con una certa probabilità 1-α uno dei valori compresi nell’intervallo di confidenza. Al crescere di n e al diminuire della varianza del fenomeno oggetto dello studio, tale intervallo si riduce, aumentando la precisione delle stime ottenute, a parità del livello di fiducia. La probabilità dell’intervallo di confidenza può essere nota solo per parametri a cui è associabile una distribuzione di probabilità nota. Il teorema del limite centrale ci dice che per la media possiamo sempre usare la distribuzione normale.

Page 15: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Intervallo di confidenza per la media Per la media μ, dunque, potendo usare la normale come distribuzione di probabilità,

l’intervallo di confidenza è: 𝑥 − 𝑧𝛼𝜎

𝑛≤ 𝜇 ≤ 𝑥 + 𝑧𝛼

𝜎

𝑛

oppure, standardizzando, −𝑧𝛼 ≤𝑥 −𝜇𝜎

𝑛

≤ 𝑧𝛼

dove 𝑧𝛼 è il valore della curva normale che racchiude a destra α/2 % dei casi, σ è lo scostamento quadratico medio della popolazione n è la numerosità campionaria. Esempio: determiniamo l’intervallo di confidenza per μ sapendo che lo scarto quadratico medio della popolazione è σ =6, che la numerosità campionaria è n=100 e che nel campione si è calcolata una media di 𝑥 =170 cm. Dalla formula, per un livello di fiducia del 95% (𝑧𝛼 =1.96), otteniamo 0.95 =P{170-1,96*6/10 ≤ μ ≤ 170+1,96*6/10} = P{170-1,176 ≤ μ ≤ 170+1,176}=P{168,8 ≤ μ ≤ 171,2}

Page 16: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Intervallo di confidenza per la media Abbiamo però detto che spesso lo scarto quadratico medio della popolazione non è noto e allora si può utilizzare una stima di esso calcolata con i dati del campione. Si sceglie però lo stimatore corretto, in quanto, come abbiamo detto, lo scarto quadratico medio semplice non gode della proprietà della correttezza. In questo caso la distribuzione di probabilità che dobbiamo considerare non è più la normale, bensì la t di Student con n-1 gradi di libertà

𝑡 =𝑥 − 𝜇

𝑠 𝑛

~𝑡(𝑛−1)

Anche la t di Student è una distribuzione di probabilità continua e definita su tutto l’asse reale. La sua forma varia in base al parametro ‘gradi di libertà’, ma per n grande (circa > 100) può essere approssimata con la normale.

Page 17: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Intervallo di confidenza per la media L’intervallo di confidenza per la media quando la varianza non è nota diventa:

𝑥 − 𝑡𝑛−1,

𝛼2

𝑠

𝑛≤ 𝜇 ≤ 𝑥 + 𝑡

(𝑛−1,𝛼2)

𝑠

𝑛

Anche per t esistono delle tavole di riferimento che aiutano ad effettuare i calcoli. Esempio: determiniamo lo stesso intervallo di confidenza precedente, sapendo però che 𝑠 =6,9, la numerosità campionaria è sempre 100 e la media campionaria è 170 cm. Dalla formula, per un livello di fiducia del 95% (t99,0.05=1,98), otteniamo 0.95 =P{170-1.98*6,9/10 ≤ μ ≤ 170+1.98*6,9/10} =P{168,6 ≤ μ ≤ 171,4}

Anche in questo caso esistono funzioni automatiche sui fogli di calcolo (INV.T)

Page 18: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Verifica delle ipotesi La teoria della verifica delle ipotesi consente di stabilire se una certa assunzione, basata su un risultato campionario, può essere accettata o no. E questo si fa attraverso l’uso di test che sono vere e proprie regole che consentono di accettare o rifiutare una certa ipotesi perché poco probabile. Esempio: supponiamo di aver acquistato delle pile che ci vengono garantite per durare più di 2000 ore ciascuna. Per decidere se ciò è vero, facciamo un campione di pile e le mettiamo in funzione per 2000 ore. Dai risultati che rileviamo su questo campione decidiamo se tutte le pile sono veramente durevoli quanto ci hanno garantito o no attraverso un test di ipotesi.

L’ipotesi formulata e che si vuole sottoporre al test, si chiama ipotesi nulla e si indica con H0, l’ipotesi alternativa ad essa si indica con H1. Quindi, se si considera lo spazio dei parametri Ω e lo si divide in 2 sottoinsiemi disgiunti ω1 e ω2, si avrà che il parametro incognito θ può appartenere o a ω1 o a ω2

Page 19: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Verifica delle ipotesi In termini simbolici, abbiamo due ipotesi

H0: θ ∈ ω1 e H1: θ ∈ ω2

dove con il simbolo ∈ si intende l’appartenenza di θ ad uno dei due sottoinsiemi Occorre stabilire quale statistica si vuole prendere per stimare θ per poi decidere se è più probabile che valga l’ipotesi nulla o l’ipotesi alternativa. Nello spazio Ω in cui è definito θ individuiamo una regione R che chiamiamo regione di rifiuto e una regione A, di accettazione ad essa complementare. Se la statistica cadrà in essa rifiuteremo l’ipotesi nulla, se cadrà fuori, la accetteremo. Così si possono commettere due tipi di errore: a) errore di I tipo o di prima specie: rifiuto l’ipotesi nulla quando è vera b) errore di II tipo o di seconda specie: accetto l’ipotesi nulla quando è falsa

Page 20: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Verifica delle ipotesi

Page 21: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Verifica delle ipotesi A questi errori sono sempre associate delle probabilità a) Probabilità di commettere un errore di prima specie: α = P{s∈R|θ=θ0} cioè è la probabilità che la statistica test cada nella regione di rifiuto quando l’ipotesi nulla è vera e quindi è l’errore di prima specie. b) Probabilità di commettere un errore di seconda specie: β = P{s∈A|θ=θ1} cioè è la probabilità che la statistica test cada nella regione di accettazione quando l’ipotesi nulla è falsa e quindi è l’errore di seconda specie α è detto livello di significatività e corrisponde alla dimensione della regione di rifiuto R. Il valore 1-β=P{s∈R|θ=θ1} è detto potenza del test e dobbiamo scegliere R in modo che sia massimo.

Page 22: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Verifica delle ipotesi La potenza del test indica la probabilità di rifiutare l’ipotesi nulla quando è vera l’ipotesi alternativa. Più è alta questa probabilità, più il test ha la capacità di farci fare la scelta giusta. Ho le seguenti possibilità

Campione

Realtà

x ∈ regione di accettazione Accetto H0

x ∉ regione di accettazione

Rifiuto H0

H0 è vera Decisione giusta P=1-α

Errore di prima specie

P=α

H0 è falsa Errore di seconda specie

P=β

Decisione giusta P=1-β

Page 23: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test normale Se ho un carattere normale o un campione sufficientemente grande su cui, ad esempio, stimo una media che per grandi campioni è normale, e se la varianza della popolazione

è nota, posso usare la statistica test 𝑧 =𝑥 𝑛−𝜇0

𝜎

𝑛

che mi consente di dire che, la mia ipotesi sul valore della media della popolazione è validata o no dal campione. Ipotesi nulla H0: μ=μ0

Ipotesi alternativa H1: μ≠μ0 (ma si poteva scegliere μ≤μ0 o μ≥μ0) Si calcola z nel campione e si sceglie α. Per α=0.05 accetto H0 se z<1.64

Page 24: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test normale Esempio: Consideriamo una popolazione normale con σ=2 ed estraiamo un campione di ampiezza

10. Supponiamo di voler testare l’ipotesi che la media della popolazione sia μ=20.

Dunque l’ipotesi nulla è H0: μ=20

l’ipotesi alternativa è H1: μ≠20

a) calcolare la regione di rifiuto all’1%, al 5%, al 10%;

b) supponendo che la media campionaria sia x=18,58 prendere una decisione ai tre livelli di significatività di cui

sopra

Accetterò l’ipotesi nulla se P(z)<α e, come sappiamo, per α=0.01 z=2.58, α=0.05 z=1.96, α=0.1 z=1.64. Calcolo

dunque z nel campione: z =18,58−20

2/ 10=

1,42

2/3,16=

1,42

0,63= 2,25

Quindi, per una regione di rifiuto all’1% (la prob. che H0 sia vera deve essere del 99%) accetto l’ipotesi nulla, per

ampiezze della regione di rifiuto maggiori la rifiuto (la prob. che H0 sia vera deve essere del 95% o del 90%).

Page 25: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test t di student Se non conosco la varianza della popolazione posso fare ricorso alla sua stima corretta. In questo caso la statistica test si distribuisce come una t di Student. Per grandi campioni posso sempre fare ricorso alla normale.

𝑡 =𝑥 − 𝜇0

𝑠 𝑛

Ipotesi nulla H0: μ=μ0

Ipotesi alternativa H1: μ≠μ0

Si calcola t nel campione e si sceglie α. t dipende anche dai gradi di libertà (n-1) Nella tavola la riga con n= ∞ è proprio uguale al valore della normale

Page 26: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test t di student Esempio: Il contenuto nominale delle lattine di bibite è 330ml. Scegliamo un campione di 20 lattine in

cui riscontriamo un contenuto medio di 328ml con deviazione standard 3.2ml. Assumiamo che la distribuzione

del contenuto sia normale. Stabilire al livello di significatività del 5% se si tratta di frode.

Dunque l’ipotesi nulla è H0: μ=330

l’ipotesi alternativa è H1: μ≠330

Non conoscendo la varianza della popolazione, abbiamo una statistica test di tipo t di Student.

𝑡 =328 − 330

3,2/4,47=

2

0,72= 2,8

tn-1,5%=t19,0.05=2.093

Quindi, poiché t>t19,0.05 in quanto 2.8>2.093 concludo che devo rifiutare l’ipotesi nulla e quindi si tratta di frode.

Page 27: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test t di student per il confronto fra due medie Si può pensare anche di testare se due campioni indipendenti stimano la stessa media. In questo caso, se non conosco la varianza della popolazione, faccio ancora ricorso alla t di Student e stimo la varianza come s=(Dev(x1) + Dev(x2))/(n1+n1-2) ipotizzando che le due popolazioni abbiano la stessa varianza

In questo caso la statistica test è 𝑡 =𝑥 1−𝑥 2

𝑠 1

𝑛1+

1

𝑛2

~𝑡𝑛1+𝑛2−2,𝛼 con n1+n1-2 gdl

H0: μ=0 Ipotesi Nulla

H1: μ≠0 Ipotesi alternativa

Cioè si testa se la differenza è nulla o no con una t con n1+n1-2 gradi di libertà ad un livello α di significatività.

Page 28: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test t di student per il confronto fra due medie Esempio: In un esperimento, su due gruppi, ciascuno di 10 animali dello stesso tipo, è stato misurato il peso, ma

ad un gruppo è stato somministrato un ormone per la crescita. Valutiamo al livello di significatività α pari al 5%

se il trattamento determina un incremento di peso. La differenza tra i due pesi medi è risultata di X1-X2=0.54 kg.

Lo scarto quadratico medio complessivo è stato calcolato ed è risultato pari a 0.48

Dunque l’ipotesi nulla è H0: D=0 Cioè la differenza dei pesi è nulla

l’ipotesi alternativa è H1: D≠0

Calcolo la statistica test: 𝑡 =0,54

0,48∗0,45=

0,54

0,216= 2,5

t18,0.05=2.101 quindi rifiuto l’ipotesi nulla che la differenza di peso è nulla e che l’ormone della crescita somministrato non ha avuto effetto significativo.

Page 29: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test t di student In R abbiamo la funzione t.test effettua il test t di Student ad un campione, a due campioni e per dati appaiati. La sintassi completa di questa funzione è: t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) dove: x e y sono vettori numerici di dati; alternative specifica l’ipotesi alternativa, a seconda che si tratti di una verifica di ipotesi bilaterale o unilaterale; mu un numero che indica il valore reale della media (o la differenza tra le medie se si sta effettuando un test a due campioni); paired una variabile logica che indica se si vuole effettuare un test t per dati appaiati; var.equal una variabile logica che indica se porre le varianze dei due campioni uguali fra loro; conf.level livello di confidenza.

Page 30: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test t di student Esempio. Un gruppo di 22 volontari presso un centro di ricerca medica viene esposto a vari tipi di virus influenzali e tenuto sotto controllo medico. Ad un campione casuale di 10 volontari viene somministrato un grammo di vitamina C quattro volte al giorno. Agli altri 12 volontari viene somministrato un placebo non distinguibile dal farmaco. I volontari vengono poi visitati spesso da un medico che non conosce la divisione in gruppi e non appena uno di essi viene trovato guarito si registra la durata della malattia. Alla fine dell’esperimento si possiedono i seguenti dati:

Placebo: 6.5, 6.0, 8.5, 7.0, 6.5, 8.0, 7.5, 6.5, 7.5, 6.0, 8.5, 7.0 Vitamina C 5.5, 6.0, 7.0, 6.0, 7.5, 6.0, 7.5, 5.5, 7.0, 6.5

Si inseriscono i vettori in R: vitamina_C <- c(5.5, 6.0, 7.0, 6.0, 7.5, 6.0, 7.5, 5.5,7.0, 6.5) placebo <- c(6.5, 6.0, 8.5, 7.0, 6.5, 8.0, 7.5, 6.5, 7.5, 6.0, 8.5, 7.0) Si può concludere che l’assunzione di 4 grammi di vitamina C al giorno abbia accorciato il decorso medio della malattia? A che livello di significatività?

Eseguiamo il test: 𝐻0: 𝜇𝑣𝑖𝑡𝑎𝑚𝑖𝑛𝑎 𝐶 ≥ 𝜇𝑝𝑙𝑎𝑐𝑒𝑏𝑜𝐻1: 𝜇𝑣𝑖𝑡𝑎𝑚𝑖𝑛𝑎 𝐶 < 𝜇𝑝𝑙𝑎𝑐𝑒𝑏𝑜

supponendo che le varianze della durata della malattia nei due

casi siano uguali.

Page 31: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test t di student L’ipotesi nulla viene accettata solo per livelli di significatività α< 0.036 = p-value; l’ipotesi nulla viene dunque rifiutata ad un livello di significatività del 5% quindi, a questo livello di significatività, i dati raccolti evidenziano un accorciamento del decorso dell’influenza somministrando vitamina C.

Page 32: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test 𝝌𝟐 - test non parametrici Conosciamo già la forma di questo indice, perché lo abbiamo studiato come indice di connessione fra due caratteri in una distribuzione doppia. Ora vogliamo usarlo per verificare l’ipotesi di indipendenza tra due distribuzioni

χ2 = 𝑛 𝑛2

ℎ𝑖

𝑛ℎ.𝑛.𝑖− 1~𝑖ℎ χ2(ℎ−1)(𝑖−1) I gradi di libertà sono dunque (h-1)(i-1)

Questo test può essere eseguito su qualunque distribuzione doppia, anche quando i caratteri non sono quantitativi (da qui la definizione di non parametrico). In questo caso l’ipotesi nulla rappresenta la dipendenza tra le distribuzioni.

Page 33: Inferenza statistica - Dipartimento di Scienze Sociali ed ... · L [inferenza nella statistia Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità

L’inferenza nella statistica Test 𝝌𝟐 - test non parametrici Esempio: Si supponga di aver rilevato, su un campione di 36 giovani, la pressione arteriosa e la pratica sportiva.

Calcoliamo la statistica test

χ2 = 𝑛72

21 ∗ 16+

92

15 ∗ 16+

142

21 ∗ 20+

62

15 ∗ 20− 1 = 36 ∗ 0,15 + 0,34 + 0,47 + 0,12 − 1 = 2,88

Dalla tavola del χ2 per 1=(2-1)(2-1) gdl e un livello

di significatività del 5% otteniamo il valore 3,84

Dunque accettiamo l’ipotesi nulla: nel campione

considerato, tra ipertensione e pratica dello sport

c’è dipendenza

Ipertensione si

Ipertensione no

Totale

Sport si 7 9 16

Sport no 14 6 20

Totale 21 15 36