FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 ·...

55
1 FONDAMENTI DI INFERENZA 1 Metodi Statistici e Probabilistici per l’Ingegneria FONDAMENTI DI INFERENZA Corso di Laurea in Ingegneria Civile Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain E-mail: [email protected] Home page: www.gest.unipd.it/~livio/Corso_Civile.html FONDAMENTI DI INFERENZA 2 SOMMARIO Distribuzioni campionarie Teorema del limite centrale Stima e intervalli di confidenza Verifica di ipotesi Errore di primo e di secondo tipo Verifica di ipotesi ad un campione Verifica di ipotesi a due campioni Verifica di ipotesi a più campioni (ANOVA) Test Chi-quadrato

Transcript of FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 ·...

Page 1: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

1

FONDAMENTI DI INFERENZA 1

Metodi Statistici e Probabilistici per l’Ingegneria

FONDAMENTI DI INFERENZA

Corso di Laurea in Ingegneria Civile

Facoltà di Ingegneria, Università di Padova

Docente: Dott. L. Corain

E-mail: [email protected] Home page: www.gest.unipd.it/~livio/Corso_Civile.html

FONDAMENTI DI INFERENZA 2

SOMMARIO

� Distribuzioni campionarie

� Teorema del limite centrale

� Stima e intervalli di confidenza

� Verifica di ipotesi

� Errore di primo e di secondo tipo

� Verifica di ipotesi ad un campione

� Verifica di ipotesi a due campioni

� Verifica di ipotesi a più campioni (ANOVA)

� Test Chi-quadrato

Page 2: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

2

FONDAMENTI DI INFERENZA 3

DISTRIBUZIONI CAMPIONARIE

� L’interesse dell’inferenza statistica è di trarre conclusionisulla popolazione e su alcuni suoi parametri e non sulsolo campione.

� A questo scopo si utilizzano delle statistiche , ovverodelle funzioni calcolate sulla base di un campione alloscopo o di stimare (stima ) o prendere delle decisioni(verifica di ipotesi ) sui valori dei corrispondentiparametri dell’intera popolazione.

� La media campionaria è l’esempio di una statisticautilizzata per stimare la media di una variabile diinteresse (ad es. la prevalenza di un patogeno) riferitaall’intera popolazione (un dato processo alimentare).

� La proporzione campionaria è una statistica utilizzataper stimare la proporzione di unità (ad es. confezioni diprodotto) in una popolazione (processo alimentare) chehanno una certa caratteristica (sono contaminate).

FONDAMENTI DI INFERENZA 4

DISTRIBUZIONI CAMPIONARIE

� Supponendo ipoteticamente di procedere all’estrazionedi tutti i possibili campioni, la distribuzione di tutti irisultati ottenuti si dice distribuzione campionaria .

� La distribuzione della media campionaria è perciò ladistribuzione di tutte le possibili medie cheosserveremmo se procedessimo all’estrazione di tutti ipossibile campioni di una certa ampiezza.

� Nella pratica invece, da una popolazione viene estratto acaso un solo campione, di ampiezza prestabilita a partiredal quale si può calcolare il valore osservato dellastatistica campionaria.

� La media campionaria è non distorta per la media dellapopolazione, cioè la media di tutte le possibili mediecampionarie (calcolate a partire campioni di ugualeampiezza n) fornisce la vera media della popolazione.

Page 3: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

3

FONDAMENTI DI INFERENZA 5

DISTRIBUZIONI CAMPIONARIE

Mentre le osservazioni nella popolazione assumono anchevalori estremamente piccoli o estremamente grandi, lamedia campionaria è caratterizzata da una minorevariabilità rispetto ai dati originali. Le medie campionariesaranno quindi caratterizzate, in generale, da valori menodispersi rispetto a quelli che si osservano nellapopolazione. Lo scarto quadratico medio della mediacampionaria, detto errore standard della media ,quantifica la variazione della media campionaria dacampione a campione:

L’errore standard della media

L’errore standard della media campionaria è uguale alloscarto quadratico medio della popolazione diviso √n.

/X nσ σ=

FONDAMENTI DI INFERENZA 6

DISTRIBUZIONI CAMPIONARIE

Introdotta l’idea di distribuzionecampionaria e definito l’errorestandard della media, bisognastabilire quale sia la distribuzionedella media campionaria. Se uncampione è estratto da unapopolazione normale con mediaµ e scarto quadratico medio σ, lamedia campionaria ha distribu-zione normale indipendentemen-te dall’ampiezza campionaria n,ed è caratterizzata da valore atteso µ = µ e scarto quadraticomedio pari all’errore standard σ . In figura sono riportate ledistribuzioni delle medie campionarie di 500 campioni diampiezza 1,2,4,8,16 e 32 estratti da una popolazione normale.

X

X

Page 4: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

4

FONDAMENTI DI INFERENZA 7

TEOREMA DEL LIMITE CENTRALE

Sinora abbiamo analizzato la distribuzione della mediacampionaria nel caso di una popolazione normale. Tuttavia,si presenteranno spesso casi in cui la distribuzione dellapopolazione può non essere normale. In questi casi è utileriferirsi ad un importante teorema della statistica, il teoremadel limite centrale, che consente di dire qualcosa sulladistribuzione della media campionaria, anche nel caso in cuiuna popolazione non abbia distribuzione normale.

Teorema del limite centraleQuando l’ampiezza del campione casuale diventasufficientemente grande, la distribuzione della mediacampionaria può essere approssimata dalla distribuzionenormale. E questo indipendentemente dalla forma delladistribuzione dei singoli valori della popolazione.

FONDAMENTI DI INFERENZA 8

Si tratta, allora, di stabilire cosa si intende per“sufficientemente grande”, problema ampiamente affrontatodagli statistici. Come regola di carattere generale, moltisono concordi nell’affermare che quando il campioneraggiunge un’ampiezza pari almeno a 30, la distribuzionedella media campionaria può ritenersi approssimativamentenormale. Tuttavia, il teorema del limite centrale può essereapplicato anche con campioni di ampiezza inferiore se si sache la distribuzione della popolazione ha alcunecaratteristiche che la avvicinano di per se stessa allanormale (ad esempio, quando è simmetrica).Il teorema del limite centrale svolge un ruolo cruciale inambito inferenziale, in quanto consente di fare inferenzasulla media della popolazione senza dover conoscere laforma specifica della distribuzione della popolazione.

TEOREMA DEL LIMITE CENTRALE

Page 5: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

5

FONDAMENTI DI INFERENZA 9

TEOREMA DEL LIMITE CENTRALE

Ciascuna delle distribuzionicampionarie riportate è ottenutaestraendo 500 campioni diversidalle rispettive popolazioni.Sono state considerate diverseampiezze campionarie (n = 2, 5,30). Nella seconda colonna èriportata la distribuzione dellamedia campionaria nel caso diuna popolazione la cuidistribuzione (uniforme orettangolare) è simmetrica enella terza si considera unapopolazione con distribuzioneobliqua a destra (esponenziale).

FONDAMENTI DI INFERENZA 10

TEOREMA DEL LIMITE CENTRALE

Sulla base dei risultati ottenuti per le distribuzioni note (lanormale, l’uniforme l’esponenziale) possiamo trarre alcuneconclusioni in merito al teorema del limite centrale:� Per la maggior parte delle popolazioni,

indipendentemente dalla forma della loro distribuzione, ladistribuzione della media campionaria èapprossimativamente normale, purché si considerinocampioni di almeno 30 osservazioni.

� Se la distribuzione della popolazione è abbastanzasimmetrica, la distribuzione della media campionaria èapprossimativamente una normale, purché si considerinocampioni di almeno 5 osservazioni.

� Se la popolazione ha una distribuzione normale, la mediacampionaria è distribuita secondo la legge normale,indipendentemente dall’ampiezza del campione.

Page 6: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

6

FONDAMENTI DI INFERENZA 11

STIMA E INTERVALLI DI CONFIDENZA

� L’inferenza statistica è il processo attraverso il quale irisultati campionari vengono utilizzati per trarreconclusioni sulle caratteristiche (parametri e forma delladistribuzione) di una popolazione.

� Tale processo consente di stimare caratteristiche nonnote della popolazione come i parametri (ad es. la mediaper le var. numeriche o la proporzione per le var.categoriali) che caratterizzano la distribuzione dellavariabile di interesse.

� Ci sono due approcci fondamentali di stima: le stimepuntuali e le stime per intervalli (intervalli diconfidenza).

� Uno stimatore puntuale è una statistica (cioè unafunzione dei dati campionari) che viene definita alloscopo di fornire una sintesi su un parametro di interesse.

FONDAMENTI DI INFERENZA 12

STIMA E INTERVALLI DI CONFIDENZA

� La stima puntuale è lo specifico valore assunto da unastatistica, calcolata in corrispondenza dei dati campionarie che viene utilizzata per stimare il vero valore non notodi un parametro di una popolazione.

� Uno stimatore per intervallo è un intervallo costruitoattorno allo stimatore puntuale, in modo tale che sia notae fissata la probabilità che il parametro appartengaall’intervallo stesso.

� Tale probabilità è detta livello di confidenza ed è ingenerale indicato con (1−α)% dove α è la probabilità cheil parametro si trovi al di fuori dell’intervallo di confidenza.

� Quindi la confidenza è il grado di fiducia che l’intervallopossa contenere effettivamente il parametro di interesse.

Page 7: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

7

FONDAMENTI DI INFERENZA 13

STIMA E INTERVALLI DI CONFIDENZA

Esempio: si consideri un processo industriale diriempimento di scatole di cereali e sia assuma che il pesoX delle scatole sia X~N(µ;152). Dato un campione casualedi n=25 scatole con peso medio 362.3 grammi si vuolecostruire un intervallo di confidenza al 95% per µ.

Per la proprietà della distribuzione normale e della mediacampionaria risulta che

quindi un intervallo di confidenza all’(1−α)% per µ è dato da

Nel caso specifico si ottiene 356.42 ≤ µ ≤ 368.18.

/ 2 / 2 1/

XP Z Z

nα α

µ ασ

−− ≤ ≤ = −

/ 2 / 2/ /X Z n X Z nα ασ µ σ− ⋅ ≤ ≤ + ⋅

FONDAMENTI DI INFERENZA 14

STIMA E INTERVALLI DI CONFIDENZA

Ipotizziamo che µ sia uguale a 368. Per comprendere afondo il significato della stima per intervallo e le sueproprietà è utile fare riferimento all’ipotetico insieme di tutti ipossibili campioni di ampiezza n che è possibile ottenere.

Osserviamo che per alcuni campioni la stima per intervalli diµ è corretta, mentre per altri non lo è.

Page 8: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

8

FONDAMENTI DI INFERENZA 15

STIMA E INTERVALLI DI CONFIDENZA

Nella pratica estraiamo un solo campione e siccome nonconosciamo la media della popolazione non possiamostabilire se le conclusioni a cui perveniamo sono corrette omeno.

Tuttavia possiamo affermare di avere una fiducia all’(1−α)%che la media appartenga all’intervallo stimato.

Quindi, l’intervallo di confidenza all’(1−α)% della media conσ noto si ottiene utilizzando l’equazione:

Intervallo di confidenza per la media con σ noto

dove Zα/2 è il valore a cui corrisponde un’area cumulata paria (1−α/2) della distribuzione normale standard.

/ 2 / 2/ /X Z n X Z nα ασ µ σ− ⋅ ≤ ≤ + ⋅

FONDAMENTI DI INFERENZA 16

STIMA E INTERVALLI DI CONFIDENZA

In alcuni casi risulta desiderabile un grado di certezzamaggiore, ad es. del 99%, ed in altri casi possiamoaccettare un grado minore di sicurezza, ad es. del 90%.

Il valore Zα/2 di Z che viene scelto per costruire un intervallodi confidenza è chiamato valore critico. A ciascun livello diconfidenza (1−α) corrisponde un diverso valore critico.

Livelli di confidenza maggiori si ottengono perciò a prezzo diun ampliamento dell’intervallo di confidenza: esiste un trade-off tra utilità pratica dell’intervallo e livello di confidenza.

Page 9: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

9

FONDAMENTI DI INFERENZA 17

STIMA E INTERVALLI DI CONFIDENZA

In genere lo scarto quadratico medio della popolazione σ,al pari della media µ, non è noto. Pertanto, per ottenere unintervallo di confidenza per la media della popolazionepossiamo basarci sulle sole statistiche campionarie e S.

Se la variabile casuale X ha una distribuzione normaleallora la statistica

ha una distribuzione t di Student con (n−1) gradi di libertà.

Se variabile casuale X non ha una distribuzione normale lastatistica t ha comunque approssimativamente unadistribuzione t di Student in virtù del Teorema del LimiteCentrale.

Xt

S n

µ−=

X

FONDAMENTI DI INFERENZA 18

STIMA E INTERVALLI DI CONFIDENZA

La distribuzione t di Student ha una forma molto simile aquella della normale standardizzata. Tuttavia il graficorisulta più appiattito e l’area sottesa sulle code è maggioredi quella della normale a causa del fatto che s non è noto eviene stimato da S. L’incertezza su s causa la maggiorvariabilità di t.

All’aumentare dei gradi di libertà, la distribuzione t siavvicina progressivamente alla distribuzione normale fino ache le due distribuzioni risultano virtualmente identiche.

Page 10: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

10

FONDAMENTI DI INFERENZA 19

STIMA E INTERVALLI DI CONFIDENZA

Il significato dei gradi di libertà è legato al fatto che percalcolare S2 è necessario calcolare preventivamente .Quindi, dato il valore di , solo n−1 osservazionicampionarie sono libere di variare: ci sono quindi n−1 gradidi libertà.

L’intervallo di confidenza all’(1−α)% della media quando σnon è noto è definito nell’equazione:

Intervallo di confidenza per la media ( σ non noto)

dove tn−1;α/2 è il valore critico a cui corrisponde un’areacumulata pari a (1−α/2) della distribuzione t di Student con(n−1) gradi di libertà.

1; / 2 1; / 2/ /n nX t S n X t S nα αµ− −− ⋅ ≤ ≤ + ⋅

XX

FONDAMENTI DI INFERENZA 20

STIMA E INTERVALLI DI CONFIDENZA

Data un campione casuale X1,...,Xn estratto da unapopolazione normale di media µ e varianza σ2, è possibilecostruire un intervallo di confidenza per la varianza σ2

facendo riferimento alla distribuzione Chi-quadrato, infatti

L’equazione seguente definisce l’intervallo di confidenzaall’(1−α)% per la varianza della popolazione.

Intervallo di confidenza per la varianza

dove χ2α/2;n-1 e χ2

1-α/2;n-1 sono i valori critici delladistribuzione Chi-quadrato con n-1 gdl a livello α/2 e 1-α/2.

( )2

22 21

11 1

n

ii

n

X XS

n n

σ χ=−

−= ≈

− −

2 2 2 2 2/2; 1 1 /2; 1( 1) ( 1)n nn S n S− − −− ≤ ≤ −α αχ σ χ

Page 11: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

11

FONDAMENTI DI INFERENZA 21

STIMA E INTERVALLI DI CONFIDENZA

Data una popolazione i cui elementi possiedono una certacaratteristica secondo una data proporzione, indicata dalparametro incognito π, è possibile costruire un intervallo diconfidenza per π a partire dal corrispondente stimatorepuntuale, dato dalla frequenza campionaria =X/n, dove nè l’ampiezza campionaria e X è il numero di elementi delcampione che hanno la caratteristica di interesse.

L’equazione seguente definisce l’intervallo di confidenzaall’(1−α)% per la proporzione nella popolazione.

Intervallo di confidenza per la proporzione

dove Zα/2 è il valore critico della distribuzione normalestandard e si assume che X e (n−X) siano entrambi >5.

/2 /2ˆ ˆ ˆ ˆ ˆ ˆ(1 ) (1 )Z n Z n− ⋅ − ≤ ≤ + ⋅ −α απ π π π π π π

π̂

FONDAMENTI DI INFERENZA 22

� La verifica di ipotesi è una procedura inferenziale cheha come scopo quello di considerare l’informazioneempirica (ottenuta da una statistica campionaria) e distabilire se questa è favorevole ad una asserzione diinteresse sui parametri della popolazione.

� Ad esempio, potremmo asserire che il processoproduttivo di riempimento delle scatole di cerali puòessere considerato appropriato (sotto controllo) se ilpeso medio µ delle scatole è di 368 grammi.

� La verifica di ipotesi ha inizio proprio con unaconsiderazione di una teoria o proposizione riguardanteun particolare parametro della popolazione e l’ipotesiche il valore del parametro della popolazione sia ugualead un dato valore prende il nome di ipotesi nulla .

VERIFICA DI IPOTESI

Page 12: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

12

FONDAMENTI DI INFERENZA 23

� L’ipotesi nulla in genere coincide con lo stato delle cosee viene indicata con il simbolo H0, quindi nell’esempiodel processo produttivo

H0: µ = 368� Sebbene le informazioni siamo tratte a partire dal

campione, l’ipotesi è espressa con riferimento a unparametro della popolazione, perché si è interessatiall’intero processo produttivo, vale a dire allapopolazione di tutte le scatole di cereali prodotte.

� Se i risultati campionari non fossero favorevoli all’ipotesinulla si dovrebbe concludere che l’ipotesi nulla sia falsae chiaramente ci deve essere un’altra ipotesi che risultivera. L’ipotesi alternativa H1 è l’asserzione oppostaall’ipotesi nulla, e nell’esempio in questione

H1: µ ≠ 368

VERIFICA DI IPOTESI

FONDAMENTI DI INFERENZA 24

� L’ipotesi alternativa rappresenta la conclusione a cui sigiunge quando si rifiuta l’ipotesi nulla (decisione forte),cioè quando il campione osservato fornisce sufficienteevidenza del fatto che l’ipotesi nulla sia falsa.

� D’altro canto il mancato rifiuto dell’ipotesi nulla non provache essa è vera. Quello che si può concludere è che nonvi è sufficiente evidenza empirica contraria ad essa(decisione debole).

� Di seguito sono riassunti i punti principali che sintetizzanoil concetto di ipotesi nulla e di ipotesi alternativa:� l’ipotesi nulla H0 rappresenta lo stato attuale delle cose

o l’attuale convinzione riguardo a una situazione;� l’ipotesi alternativa H1 è specificata come ipotesi

opposta all’ipotesi nulla e rappresenta una certa …

VERIFICA DI IPOTESI

Page 13: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

13

FONDAMENTI DI INFERENZA 25

� … conclusione inferenziale che si è interessati adimostrare.

� se si rifiuta l’ipotesi nulla si accetta l’ipotesi alternativa.� se si accetta l’ipotesi nulla ciò non significa che si è

dimostrato che l’ipotesi nulla sia vera.� l’ipotesi nulla H0 si riferisce sempre a un valore

specifico del parametro della popolazione (ad esempioµ), e non a una statistica campionaria (ad esempio ).

� l’ipotesi nulla contiene sempre un segno di egualerelativo al valore specificato del parametro dellapopolazione (ad esempio H0: µ = 368 grammi).

� l’ipotesi alternativa non contiene mai un segno dieguale relativo al valore specificato del parametro dellapopolazione (ad esempio H1: µ ≠ 368 grammi).

X

VERIFICA DI IPOTESI

FONDAMENTI DI INFERENZA 26

� La logica sottostante alla verifica di ipotesi è quella distabilire la plausibilità dell’ipotesi nulla alla luce delleinformazioni campionarie.

� Se ipotesi nulla asserisce che il peso medio dei cerealicontenuti in tutte le scatole prodotte è 368 grammi (ilvalore del parametro specificato dall’azienda) si procedeall’estrazione di un campione di scatole e si pesaciascuna scatola per calcolare la media campionaria(statistica che stima il vero valore del parametro µ).

� Anche se l’ipotesi nulla è vera, è probabile che lastatistica differisca dal vero valore del parametro pereffetto del caso (della variabilità campionaria).

� Ciononostante ci aspettiamo che in questo caso lastatistica campionaria sia vicina al parametro dellapopolazione.

VERIFICA DI IPOTESI

Page 14: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

14

FONDAMENTI DI INFERENZA 27

� La teoria della verifica di ipotesi fornisce definizionichiare sulla base delle quali valutare le differenzeosservate tra la statistica e il parametro.

� Il processo decisionale è sostenuto dal punto di vistaquantitativo, valutando la probabilità di ottenere un datorisultato campionario, se l’ipotesi nulla fosse vera.

� Tale probabilità si ottiene determinando prima ladistribuzione campionaria della statistica di interesse (ades. la media campionaria) e poi calcolando la probabilitàche la statistica test assuma il valore osservato incorrispondenza del campione estratto.

� La distribuzione campionaria della statistica test spessoè una distribuzione statistica nota, come la normale o lat, e quindi possiamo ricorrere a queste distribuzioni perdecidere se rifiutare o meno a un’ipotesi nulla.

VERIFICA DI IPOTESI

FONDAMENTI DI INFERENZA 28

� La distribuzione campionaria della statistica test è divisain due regioni: una regione di rifiuto (chiamata ancheregione critica ) e una regione di accettazione .

� Se la statistica test cade nella regione di accettazione,l’ipotesi nulla non può essere rifiutata e se la statisticatest cade nella regione di rifiuto, l’ipotesi nulla deveessere rifiutata.

� La regione di rifiuto può essere vista come l’insieme di ...

VERIFICA DI IPOTESI

Page 15: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

15

FONDAMENTI DI INFERENZA 29

� … tutti i valori della statistica test che non è probabileche si verifichino quando l’ipotesi nulla è vera, mentre èprobabile che questi valori si verifichino quando l’ipotesinulla è falsa.

� Per prendere una decisione sull’ipotesi nulla, dobbiamoin primo luogo definire le regioni di rifiuto e diaccettazione e questo viene fatto determinando ilcosiddetto valore critico della statistica test.

� La determinazione di questo valore dipendedall’ampiezza della regione di rifiuto, che è legata alrischio comportato dal prendere una decisione sulparametro alla luce delle sole informazioni campionarie.

� Quando si applica un procedimento di verifica di ipotesi,si possono commettere due tipi di errori, l’errore diprima specie e l’errore di seconda specie .

ERRORE DI PRIMO E DI SECONDO TIPO

FONDAMENTI DI INFERENZA 30

L’errore di prima specie (detto anche livello disignificatività ) si verifica se si rifiuta l’ipotesi nulla quandoquesta è vera e quindi non dovrebbe essere rifiutata. Laprobabilità che si verifichi un errore di prima specie èindicata con α.L’errore di seconda specie si verifica se si accettal’ipotesi nulla quando questa è falsa e quindi dovrebbeessere rifiutata. La probabilità che si verifichi un errore diseconda specie è indicata con β.

ERRORE DI PRIMO E DI SECONDO TIPO

Page 16: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

16

FONDAMENTI DI INFERENZA 31

� In genere, si controlla l’errore di prima specie fissando illivello del rischio α che si è disposti a tollerare.

� Dal momento che il livello di significatività è specificatoprima di condurre la verifica di ipotesi, il rischio dicommettere un errore di prima specie α è sotto ilcontrollo di chi compie l’analisi (in genere i valoriassegnati ad α sono 0.01, 0.05 o 0.1).

� La scelta di α dipende fondamentalmente dai costi chederivano dal commettere un errore di prima specie.

� Una volta specificato il valore di α, si ottiene anche laregione di rifiuto perché è la probabilità che la statisticatest cada nella regione di rifiuto quando l’ipotesi nulla èvera. Il valore critico che separa la regione diaccettazione da quella di rifiuto viene determinato diconseguenza.

ERRORE DI PRIMO E DI SECONDO TIPO

FONDAMENTI DI INFERENZA 32

A differenza dell’errore di prima specie, che controlliamofissando α, la probabilità di commettere un errore di secondaspecie dipende dalla differenza tra il valore ipotizzato e ilvero valore del parametro della popolazione: se la differenzaè grande, è probabile che β sia piccolo.

Il coefficiente di confidenza , indicato con (1−α),rappresenta la probabilità che l’ipotesi nulla non sia rifiutataquando è vera (quindi non dovrebbe essere rifiutata). Illivello di confidenza di un test di ipotesi è dato da(1−α)×100%.

La potenza del test , indicata con (1–β), rappresenta laprobabilità di rifiutare l’ipotesi nulla quando è falsa (e quindidovrebbe essere rifiutata).

ERRORE DI PRIMO E DI SECONDO TIPO

Page 17: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

17

FONDAMENTI DI INFERENZA 33

� Un modo per controllare e ridurre l’errore di secondaspecie consiste nell’aumentare la dimensione delcampione perché un’elevata dimensione del campioneconsente di individuare anche piccole differenze tra lastatistica campionaria e il parametro della popolazione.

� Per un dato valore di α, l’aumento della dimensionecampionaria determina una riduzione di β e quindi unaumento della potenza del test per verificare se l’ipotesinulla H0 è falsa.

� Tuttavia per una data ampiezza campionaria dobbiamotenere conto del trade-off tra i due possibili tipi di errori:possiamo fissare un valore piccolo per α, tuttavia aldiminuire di α, β aumenta e pertanto una riduzione delrischio connesso all’errore di prima specie siaccompagna a un aumento di quello connesso a unerrore di seconda specie.

VERIFICA DI IPOTESI AD UN CAMPIONE

FONDAMENTI DI INFERENZA 34

Tornando al problema di stabilire se il processo produttivofunziona in maniera adeguata, viene estrae un campione di25 scatole, esse sono pesate e si confronta il peso mediodelle scatole del campione (la statistica campionaria) con lamedia di 368 grammi (il valore ipotizzato del parametro).

L’ipotesi nulla e l’ipotesi alternativa in questo esempio sonorispettivamente:

H0: µ = 368 H1: µ ≠ 368

Se si assume che la popolazione abbia distribuzionenormale e che scarto quadratico medio della popolazione σsia noto, la verifica di ipotesi viene condotta utilizzando ilcosiddetto test di ipotesi Z. Tale test può essere applicatoanche se la distribuzione non è normale purché l’ampiezzasia sufficientemente elevata (Teorema del Limite Centrale).

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 18: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

18

FONDAMENTI DI INFERENZA 35

L’equazione illustra come si ottiene la statistica test Z. Ilnumeratore dell’equazione misura di quanto la mediaosservata differisce dalla media µ ipotizzata, mentre aldenominatore troviamo l’errore standard della media.Pertanto Z ci dice per quanti errori standard differisce da µ.

Per definire le regioni di accettazione e di rifiuto è necessariodeterminare i valori critici della statistica test, facendoriferimento alla distribuzione normale standardizzata unavolta fissato l’errore di prima specie α.

Statistica Z per la verifica d’ipotesi sulla media (σ noto)

/

XZ

n

µσ

−=

X

X

VERIFICA DI IPOTESI AD UN CAMPIONE

FONDAMENTI DI INFERENZA 36

Ad esempio, se si fissa α=0.05, l’area sottesa incorrispondenza della regione di rifiuto deve essere pari a0.05. Poiché la regione di rifiuto coincide con le due codedella distribuzione (si parla di un test a due code), l’area0.05 viene divisa in due aree di 0.025. Una regione di rifiutodi 0.025 nelle due code della distribuzione normale dà luogoa un’area cumulata di 0.025 alla sinistra del valore criticopiù piccolo e a un’area pari a 0.975 alla sinistra del valorecritico più grande.

Cercando queste aree nella tavola della distribuzionenormale [Tavola E.2b], troviamo che i valori critici chedividono la regione di rifiuto da quella di accettazione sono–1.96 e +1.96.

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 19: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

19

FONDAMENTI DI INFERENZA 37

La Figura mostra che se la media µ ha valore 368, comeipotizza H0, allora la statistica test Z ha una distribuzionenormale standardizzata. Valori di Z maggiori di +1.96 ominori di –1.96 indicano che è così distante dal valoreipotizzato per µ (368) che non è probabile che questo valoresi verifichi quando H0 è vera.

X

VERIFICA DI IPOTESI AD UN CAMPIONE

FONDAMENTI DI INFERENZA 38

Pertanto la regola decisionale è la seguente:

Rifiutare H0 se Zα/2<–1.96 oppure se Zα/2>+1.96

Non rifiutare H0 altrimenti

Supponiamo che la media campionaria calcolata a partiredal campione di 25 scatole sia 372.5 grammi e che σ sia 15grammi, allora

e quindi non è possibile rifiutare l’ipotesi nulla.

372.5 3681.50

/ 15 / 25

XZ

n

µσ

− −= = = +

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 20: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

20

FONDAMENTI DI INFERENZA 39

Le 6 fasi della verifica di ipotesi utilizzando l’approcciodel valore critico:

1. Specificare l’ipotesi nulla e l’ipotesi alternativa.

2. Scegliere il livello di significatività α e l’ampiezzacampionaria n. Il livello di significatività viene fissato inbase all’importanza relativa che si accorda ai rischiderivanti dal commettere un errore di prima specie edal commettere un errore di seconda specie.

3. Individuare la tecnica statistica a cui fare riferimento ela corrispondente distribuzione campionaria.

4. …

VERIFICA DI IPOTESI AD UN CAMPIONE

FONDAMENTI DI INFERENZA 40

3. …

4. Calcolare i valori critici che separano la regione dirifiuto da quella di accettazione.

5. Raccogliere i dati e calcolare il valore campionariodella statistica test.

6. Prendere la decisione statistica. Se la statistica testcade nella regione di accettazione, l’ipotesi nulla H0

non può essere rifiutata. Se la statistica test cade nellaregione di rifiuto, l’ipotesi nulla H0 viene rifiutata.Esprimere la decisione statistica con riferimento alproblema che si sta affrontando.

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 21: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

21

FONDAMENTI DI INFERENZA 41

APPROCCIO DEL P-VALUE ALLA VERIFICA DI IPOTESI

Esiste un altro approccio alla verifica di ipotesi: l’approcciodel p-value .

Il p-value è anche chiamato livello di significativitàosservato, in quanto coincide con il più piccolo livello disignificatività in corrispondenza del quale H0 è rifiutata.

In base all’approccio del p-value, la regola decisionale perrifiutare H0 è la seguente:

� Se il p-value è ≥ α, l’ipotesi nulla non è rifiutata.

� Se il p-value è < α, l’ipotesi nulla è rifiutata.

Il p-value rappresenta la probabilità di osservare un valoredella statistica test uguale o più estremo del valore che sicalcola a partire dal campione, quando l’ipotesi H0 è vera.

Un p-value basso porta a rifiutare l’ipotesi nulla H0.

FONDAMENTI DI INFERENZA 42

Torniamo ancora una volta all’esempio relativo allaproduzione delle scatole di cereali. Nel verificare se il pesomedio dei cereali contenuti nelle scatole è uguale a 368grammi, abbiamo ottenuto un valore di Z uguale a 1.50 enon abbiamo rifiutato l’ipotesi, perché 1.50 è maggiore delvalore critico più piccolo –1.96 e minore di quello più grande+1.96.

Risolviamo, ora, questo problema di verifica di ipotesifacendo ricorso all’approccio del p-value. Per questo test adue code, dobbiamo, in base alla definizione del p-value,calcolare la probabilità di osservare un valore della statisticatest uguale o più estremo di 1.50.

APPROCCIO DEL P-VALUE ALLA VERIFICA DI IPOTESI

Page 22: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

22

FONDAMENTI DI INFERENZA 43

Si tratta, più precisamente, di calcolare la probabilità che Zassuma un valore maggiore di 1.50 oppure minore di –1.50.In base alla Tavola E.2, la probabilità che Z assuma unvalore minore di –1.50 è 0.0668, mentre la probabilità che Zassuma un valore minore di +1.50 è 0.9332, quindi laprobabilità che Z assuma un valore maggiore di +1.50 è 1 –0.9332 = 0.0668. Pertanto il p-value per questo test a duecode è 0.0668 + 0.0668 = 0.1336.

APPROCCIO DEL P-VALUE ALLA VERIFICA DI IPOTESI

FONDAMENTI DI INFERENZA 44

Legame tra intervalli di confid. e verifica di ipot esi

Finora abbiamo preso in considerazione i due elementiprincipali dell’inferenza statistica – gli intervalli diconfidenza e la verifica di ipotesi. Sebbene abbiano unastessa base concettuale, essi sono utilizzati per scopidiversi: gli intervalli di confidenza sono stati usati perstimare i parametri della popolazione, mentre la verifica diipotesi viene impiegata per poter prendere delle decisioniche dipendono dai valori dei parametri.Tuttavia è importante sottolineare che anche gli intervalli diconfidenza possono consentire di valutare se un parametroè minore, maggiore o diverso da un certo valore: anzichésottoporre a verifica l’ipotesi µ=368 possiamo risolvere ilproblema costruendo un intervallo di confidenza per lamedia µ. In questo caso accettiamo l’ipotesi nulla se ilvalore ipotizzato è compreso nell’intervallo costruito, …

Page 23: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

23

FONDAMENTI DI INFERENZA 45

… perché tale valore non può essere considerato insolitoalla luce dei dati osservati. D’altronde, l’ipotesi nulla varifiutata se il valore ipotizzato non cade nell’intervallocostruito, perché tale valore risulta insolito alla luce dei dati.

Con riferimento al problema considerato, l’intervallo diconfidenza è costruito ponendo: n=25, =372.5 grammi, σ= 15 grammi.

Per un livello di confidenza del 95% (corrispondente allivello di significatività del test α=0.05), avremo:

Poiché l’intervallo comprende il valore ipotizzato di 368grammi, non rifiutiamo l’ipotesi nulla e concludiamo chenon c’è motivo per ritenere che il peso medio dei cerealicontenuti nelle scatole sia diverso da 368 grammi.

X

/ 2 / 372.5 (1.96) 15 / 25 366.6 378.4X Z nα σ µ± ⋅ ⇒ ± ⋅ ⇒ ≤ ≤

Legame tra intervalli di confid. e verifica di ipot esi

FONDAMENTI DI INFERENZA 46

Fin qui abbiamo considerato i cosiddetti test a due code, adesempio abbiamo contrapposto all’ipotesi nulla µ=368grammi l’ipotesi alternativa µ≠368. Tale ipotesi si riferisce adue eventualità: o il peso medio è minore di 368 oppure èmaggiore di 368. Per questo motivo, la regione critica sidivide nelle due code della distribuzione della mediacampionaria.In alcune situazioni, tuttavia, l’ipotesi alternativapresuppone che il parametro sia maggiore o minore di unvalore specificato (ci si focalizza in una direzioneparticolare). Per esempio, si potrebbe essere interessatiall’eventualità che il peso dei cereali contenuti ecceda i 368grammi, perché in tal caso, essendo il prezzo delle scatolebasato su un peso di 368 grammi, la società subirebbedelle perdite. In questo caso si intende stabilire se il pesomedio è superiore a 368 grammi.

I test ad una coda

Page 24: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

24

FONDAMENTI DI INFERENZA 47

L’ipotesi nulla e l’ipotesi alternativa in questo caso sonospecificate rispettivamente:

H0: µ = 368 H1: µ >368

La regione di rifiuto in questo caso è interamente racchiusanella coda destra della distribuzione della mediacampionaria, perché rifiutiamo l’ipotesi nulla H0 solo se lamedia è significativamente superiore a 368 grammi.Quando la regione di rifiuto è contenuta per intero in unacoda della distribuzione della statistica test, si parla di testa una coda.

Fissato il livello di significatività α, possiamo individuare,anche in questo caso, il valore critico di Zα.

Nel caso H0: µ=368 contro H1: µ<368 possiamo individuareil valore critico di Zα come segue.

I test ad una coda

FONDAMENTI DI INFERENZA 48

Come si può osservare dalla tabella e dalla figura, poichéla regione critica è contenuta nella coda di sinistra delladistribuzione normale standardizzata e corrisponde aun’area di 0.05, il valore critico lascia alla sua sinistra unamassa pari a 0.05; pertanto tale valore è −1.645 (media di−1.64 e −1.65).

I test ad una coda

Page 25: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

25

FONDAMENTI DI INFERENZA 49

Nell’approccio del p-value al test a una coda, si calcola laprobabilità di ottenere o un valore della statistica test piùgrande di quello osservato o un valore più piccolo aseconda della direzione dell’ipotesi alternativa.

Se la regione di rifiuto risulta contenuta per intero nellacoda di sinistra della distribuzione della statistica test Z,dobbiamo calcolare la probabilità che Z assuma un valoreminore di Z osservato, ad esempio −3.125. Tale probabilità,in base alle tavole risulta 0.009.

I test ad una coda

FONDAMENTI DI INFERENZA 50

In molte applicazioni lo scarto quadratico medio dellapopolazione σ non è noto ed è quindi necessario stimarlocon lo campionarie scarto quadratico medio S.

Se si assume che la popolazione abbia distribuzionenormale allora la media campionaria si distribuiscesecondo una t di Student con (n−1) gradi di libertà.

Se variabile casuale X non ha una distribuzione normale lastatistica t ha comunque approssimativamente unadistribuzione t di Student in virtù del Teorema del LimiteCentrale.

Statistica t per la verifica d’ipotesi sulla media (σ non noto)

Il test di ipotesi t per la media ( σσσσ non noto)

Xt

S n

µ−=

Page 26: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

26

FONDAMENTI DI INFERENZA 51

Per illustrare l’uso del test t si consideri un campione difatture per valutare se l’ammontare medio delle fatture èstato uguale a $120.

4. il test è a due code e i valori critici si determinano dalla Tav. E3.

1. H0: µ = 120 H1: µ ≠ 120

2. α=0.05 e n=12

3. poiché σ non è noto la statistica test è t con n−1 gradidi libertà

Il test di ipotesi t per la media ( σσσσ non noto)

FONDAMENTI DI INFERENZA 52

5. dati i valori delle 12 fatture campionate108.98 152.22 111.45 110.59 127.46 107.2693.32 91.97 111.56 75.71 128.58 135.11si ottiene = 112.85 e S= 20.80 e quindi

6. poiché −2.201 < t = −1.19 < +2.201 l’ipotesi nulla nonva rifiutata

112.85 1201.19

/ 20.80 / 12

Xt

S n

µ− −= = = −

X

Il test di ipotesi t per la media ( σσσσ non noto)

Page 27: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

27

FONDAMENTI DI INFERENZA 53

Il test di ipotesi Z per la proporzione

In alcuni casi si è interessati a verificare ipotesi su π, laproporzione di unità nella popolazione che possiedono unacerta caratteristica. A tale scopo, per un campione casualeestratto dalla popolazione, si deve calcolare la proporzionecampionaria p=X/n. Se il numero di successi X e diinsuccessi (n−X) sono entrambi >5, la distribuzione dellaproporzione di successi può essere approssimata dalladistribuzione normale e, quindi, si può ricorrere allastatistica Z per la proporzione.

Statistica test Z per la verifica d’ipotesi sulla proporzione

La statistica test Z ha approssimativamente unadistribuzione normale standard

(1 )

pZ

n

ππ π

−=−

FONDAMENTI DI INFERENZA 54

Esempio: dato un campione casuale di 899 persone chelavorano a casa, 369 delle quali sono donne, si èinteressati a stabilire se la proporzione di donne è il 50%,cioè H0: π=0.5. Si ha quindi p=X/n=369/899=0.41. Fissatoun livello di significatività α=0.05, le regioni di accettazionee rifiuto sono illustrate in figura (dalle tavole il valore criticoè Z0.025=1.96).

Il test di ipotesi Z per la proporzione

Page 28: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

28

FONDAMENTI DI INFERENZA 55

0.41 0.50 0.095.37

0.0167(1 ) 0.50(1 0.50) 899

pZ

n

ππ π

− − −= = = = −− −

Poiché −5.37 < −1.96 l’ipotesi nulla va rifiutata. Possiamoquindi concludere che a livello di significatività α=0.05 laproporzione di donne che lavorano da casa non è pari a0.50.

Il test di ipotesi Z per la proporzione

FONDAMENTI DI INFERENZA 56

Confronto tra medie di due pop. indipendenti

� Consideriamo due popolazioni indipendenti esupponiamo di estrarre un campione di ampiezza n1

dalla prima popolazione di ampiezza n2 dalla secondapopolazione.

� Siano µ1 e µ2 le medie che caratterizzano rispettiva-mente la prima e la seconda popolazione e si assumanoi due scarti quadratici medi σ1 e σ2 come noti.

� Si vuole verificare l’ipotesi nulla che le medie delle duepopolazioni (indipendenti) sono uguali tra loro:

H0: µ1 = µ2 (µ1 − µ2 = 0)contro l’ipotesi alternativa

H1: µ1 ≠ µ2 (µ1 − µ2 ≠ 0)� A questo scopo viene definita la statistica test Z per la

differenza tra le due medie.

Page 29: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

29

FONDAMENTI DI INFERENZA 57

Confronto tra medie di due pop. indipendenti

FONDAMENTI DI INFERENZA 58

� Se si assume che i due campioni siano estratticasualmente ed indipendentemente da due popolazioninormali la statistica Z ha distribuzione normale.

� Se le due popolazioni non hanno distribuzione normale iltest Z può essere utilizzato con ampiezza campionariesufficientemente elevate (in virtù del teorema del limitecentrale).

� In molti casi le varianze delle due popolazioni non sononote. Se si assume l’ipotesi di omogeneità della varianze(σ2

1=σ22), per verificare se c’è una differenza significativa

tra le medie delle due popolazioni è possibile utilizzare iltest t basato sulle varianze campionarie combinate.

� Il test t è appropriato se le popolazioni hannodistribuzione normale oppure, in caso contrario, se leampiezze campionarie sono sufficientemente elevate.

Confronto tra medie di due pop. indipendenti

Page 30: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

30

FONDAMENTI DI INFERENZA 59

Confronto tra medie di due pop. indipendenti

FONDAMENTI DI INFERENZA 60

Regione di rifiuto e di accettazione per la differenza tra duemedie utilizzando la statistica test t basata sulle varianzecombinate (test a due code).

Quando l’assunzione dell’omogeneità delle varianze non èplausibile occorre fare riferimento al test t con varianzediverse (ricorrendo all’Excel o ad altri software statistici).

Confronto tra medie di due pop. indipendenti

Page 31: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

31

FONDAMENTI DI INFERENZA 61

Esempio: confronto tra le vendite settimanali (numero dipezzi venduti) della BLK cola in due gruppi di supermercati,dove il primo adotta la collocazione a scaffale mentre ilsecondo utilizza uno spazio dedicato

Confronto tra medie di due pop. indipendenti

FONDAMENTI DI INFERENZA 62

Confronto tra medie di due pop. indipendenti

Page 32: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

32

FONDAMENTI DI INFERENZA 63

In base al fatto che l’ipotesi alternativa sia nella forma A:H1:µ1≠µ2 oppure B: H1:µ1<µ2 o C: H1:µ1>µ2 si parla di test aduna coda e test a due code.

Confronto tra medie di due pop. indipendenti

FONDAMENTI DI INFERENZA 64

Intervallo di confidenza per la differenza tra le medie di due pop. indipendenti

Anziché (o oltre a) sottoporre a verifica l’ipotesi nullasecondo la quale due medie sono uguali, possiamoutilizzare l’equazione (10.3) per ottenere un intervallo diconfidenza per la differenza tra le medie µ1 e µ2 delle duepopolazioni:

Intervallo di confidenza per la differenza (µ1−µ2)

dove tn1−n2−2;α/2 è il valore critico a cui corrisponde un’areacumulata pari a (1−α/2) della distribuzione t di Student con(n1−n2−2) gradi di libertà.

( )( )

1 2

1 2

21 2 1; / 2 1 2 1 2

21 2 1; / 2 1 2

( ) 1 1

( ) 1 1

n n p

n n p

X X t S n n

X X t S n n

α

α

µ µ− −

− −

− − ⋅ + ≤ − ≤

≤ − + ⋅ +

Page 33: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

33

FONDAMENTI DI INFERENZA 65

� Spesso si è interessati a effettuare confronti e adanalizzare differenze tra due popolazioni con riferimentoalla proporzione di casi con una certa caratteristica

� Per confrontare due proporzioni sulla base dei risultati didue campioni si può ricorrere al test Z per la differenzatra due proporzioni, la cui statistica test ha distribuzioneapprossimativamente normale quando le ampiezzacampionarie sono sufficientemente elevate

Statistica Z per la differenza tra due proporzioni

1 2 1 2 1 2 1 21 2

1 2 1 2

1 2

( ) ( )con , ,

1 1(1 )

p p X X X XZ p p p

n n n np p

n n

π π− − − += = = =+

− +

Confronto tra le proporzioni di due popolazioni

FONDAMENTI DI INFERENZA 66

� A seconda di come è formulata l’ipotesi alternativaavremo un test a due code (H1: π1 ≠ π2 (π1−π2 ≠ 0)) o untest a una coda (ipotesi direzionali: H1: π1 > π2 (π1−π2 >0) oppure H1: π1 < π2 (π1−π2 < 0)).

� EsempioLa catena di alberghi TC Resort è interessata a valutarese esiste differenza tra la proporzione di clienti cheintendono visitare nuovamente due dei suoi alberghi.Vengono campionati 227 clienti nel primo albergo e 262dal secondo di cui 163 si dicono disposti a ritornare nelprimo campione, 154 nel secondo.Adottando un livello di significatività pari a 0.05 si puòaffermare che nei due alberghi esiste una differenza trala proporzione di coloro che sono disposti a ritornare?

Confronto tra le proporzioni di due popolazioni

Page 34: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

34

FONDAMENTI DI INFERENZA 67

Z= + 3,01 > +1,96 perciò si rifiuta H0 concludendo che lepercentuali sono diverse.

Confronto tra le proporzioni di due popolazioni

FONDAMENTI DI INFERENZA 68

Intervallo di conf. per la differ. tra due proporzi oni

Anziché (o oltre a) sottoporre a verifica l’ipotesi nullasecondo la quale due proporzioni sono uguali, possiamoutilizzare la seguente equazione per ottenere un intervallo diconfidenza per la differenza tra le due proporzioni.

Intervallo di confidenza per la differenza tra due proporzioni

1 1 2 21 2 / 2 1 2

1 2

1 1 2 21 2 / 2

1 2

(1 ) (1 )( ) ( )

(1 ) (1 )( )

p p p pp p Z

n n

p p p pp p Z

n n

α

α

π π− −− − + ≤ − ≤

− −≤ − + +

Page 35: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

35

FONDAMENTI DI INFERENZA 69

Test F per il rapporto tra due varianze

� Talvolta si pone il problema di valutare l’ipotesi diomogeneità delle varianze e a questo scopo è possibileconsiderare un test statistico per verificare H0: σ2

1 = σ22

contro l’ipotesi alternativa H1: σ21 ≠ σ2

2. Questo test èbasato sul rapporto delle due varianze campionarie:

F = S21 / S2

2

� La statistica test F segue una distribuzione F con (n1−1)e (n2−1) gradi di libertà rispettivamente a numeratore e adenominatore.

FONDAMENTI DI INFERENZA 70

Esempio: determinazione del valore critico superiore FU diuna distribuzione F con 9 e 9 gradi di libertà corrispondentea un’area nella coda destra pari a 0.025.

Esiste un modo molto semplice per determinare il valorecritico inferiore FL: FL=1/FU

*, dove FU* è il valore critico

superiore delle distribuzione F con gradi di libertà invertiti,cioè (n2−1) a numeratore e (n1−1) a denominatore.

Test F per il rapporto tra due varianze

Page 36: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

36

FONDAMENTI DI INFERENZA 71

Nella verifica di ipotesi sulla omogeneità delle varianze siipotizza che le due popolazioni siano normali. La statisticaF non è robusta rispetto a violazioni di questa assunzione.

Regioni di rifiuto e di accettazione per un test F a due codesull’uguaglianza tra due varianze a un livello disignificatività pari a 0.05, con 9 e 9 gradi di libertà.

Test F per il rapporto tra due varianze

FONDAMENTI DI INFERENZA 72

Analisi della varianza (ANOVA) ad una via

� Finora abbiamo descritto test di ipotesi finalizzati allaverifica di ipotesi sulla differenza tra parametri di duepopolazioni

� Spesso si presenta la necessità di prendere inconsiderazione esperimenti od osservazioni relative apiù di due gruppi individuati sulla base di un fattore diinteresse.

� I gruppi sono quindi formati secondo i livelli assunti daun fattore, ad esempio� la temperatura di cottura di un oggetto in ceramica

che assume diversi livelli numerici come 300°,350°,400°,450° oppure

� il fornitore che serve una azienda può assumerediversi livelli qualitativi come Fornitore 1, Fornitore 2,Fornitore 3, Fornitore 4.

Page 37: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

37

FONDAMENTI DI INFERENZA 73

Analisi della varianza (ANOVA) ad una via

� L’analisi della varianza (o ANOVA, ANalysis OfVAriance) è una tecnica che consente di confrontare daun punto di vista inferenziale le medie di più di duegruppi (popolazioni).

� Quando i gruppi sono definiti sulla base di un singolofattore si parla di analisi della varianza a un fattore o auna via.

� Questa procedura, basata su un test F, è una estensionea più gruppi del test t per verificare l’ipotesi sulladifferenza tra le medie di due popolazioni indipendenti.

� Anche se si parla di analisi della varianza in realtàl’oggetto di interesse sono le differenze tra medie neidiversi gruppi e proprio tramite l’analisi della variabilitàall’interno dei gruppi e tra gruppi che siamo in grado ditrarre delle conclusioni sulla differenza delle medie.

FONDAMENTI DI INFERENZA 74

Analisi della varianza (ANOVA) ad una via

� La variabilità all’interno dei gruppi è considerata unerrore casuale, mentre la variabilità tra i gruppi èattribuibile alle differenza tra i gruppi, ed è anchechiamata effetto del trattamento.

� Ipotizziamo che c gruppi rappresentino popolazioni condistribuzione normale, caratterizzate tutte dalla stessavarianza e che le osservazioni campionarie sianoestratte casualmente ed indipendentemente dai c gruppi.

� In questo contesto l’ipotesi nulla che si è interessati averificare è che le medie di tutti gruppi siano uguali traloro

H0: µ1 = µ2 = … = µc

contro l’ipotesi alternativaH1: non tutte le µj sono uguali tra loro (con j=1,…,c)

Page 38: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

38

FONDAMENTI DI INFERENZA 75

Analisi della varianza (ANOVA) ad una via

� Per verificare le due ipotesi considerate, la variabilitàtotale (misurata dalla somma dei quadrati totale – SST)viene scomposta in due componenti: una componenteattribuibile alla differenza tra i gruppi (misurata dallasomma dei quadrati tra i gruppi – SSA) e una secondacomponente che si riferisce alle differenze riscontrareall’interno del gruppi (misurata dalla somma dei quadratiall’interno dei gruppi – SSW) .

FONDAMENTI DI INFERENZA 76

Analisi della varianza (ANOVA) ad una via

Variabilità totale nell’ANOVA a una via

dove

( )2

1 1

jnc

ijj i

SST X X= =

= −∑∑

� Poiché sotto l’ipotesi nulla si assume che le medie deigruppi siano tutti uguali, la variabilità totale SST siottiene sommando le differenze al quadrato di ciascunaosservazione e la media complessiva, indicata con .X

1 1

1

media complessiva,

jnc

ij cj i

jj

X

X n nn

= =

=

= = =∑∑

� SST è caratterizzata da (n−1) gradi di libertà poichéciascuna osservazione Xij viene confrontata con la mediacampionaria complessiva .X

Page 39: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

39

FONDAMENTI DI INFERENZA 77

Analisi della varianza (ANOVA) ad una via

Variabilità tra gruppi nell’ANOVA a una via

dove media campionaria nel j-esimo campione

( )2

1

c

j jj

SSA n X X=

= −∑

� La variabilità tra gruppi SSA si ottiene sommando ledifferenze al quadrato tra le medie campionarie diciascun gruppo, , e la media complessiva, , doveogni differenza è ponderata con l’ampiezza campionarianj del gruppo a cui è riferita.

X

1

jn

iji

jj

XX

n==∑

jX

� Poiché si tratta di confrontare c gruppi, SSA saràcaratterizzata da (c−1) gradi di libertà.

FONDAMENTI DI INFERENZA 78

Analisi della varianza (ANOVA) ad una via

Variabilità all’interno dei gruppi nell’ANOVA a una via

( )2

1 1

jnc

ij jj i

SSW X X= =

= −∑∑

� Infine, la variabilità nei gruppi SSW si ottiene sommandole differenze al quadrato tra ciascuna osservazione e lamedia campionaria del gruppo a cui appartiene.

� Poiché ciascuno dei c gruppi contribuisce con (nj−1)gradi di libertà, SSW avrà complessivamente (n−c)==∑(nj−1) gradi di libertà.

� Dividendo ciascuna somma dei quadrati per i rispettivigradi di libertà, si ottengono tre varianze, o medie deiquadrati – MSA (la media dei quadrati tra gruppi), MSW(la media dei quadrati all’interno dei gruppi) e MST (lamedia dei quadrati totale).

Page 40: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

40

FONDAMENTI DI INFERENZA 79

Analisi della varianza (ANOVA) ad una via

� Se l’ipotesi nulla è vera e non ci sono differenzesignificative tra le medie dei gruppi, le tre medie deiquadrati – MSA, MSW e MST, che sono esse stessedelle stime di varianze e rappresentano tutte stime dellavarianza globale della popolazione sottostante.

� Quindi per verificare l’ipotesi nulla contro l’alternativa sifa riferimento alla statistica test F per l’ANOVA a una via,ottenuta come rapporto tra MSA e MSW.

� Se l’ipotesi nulla è vera, la realizzazione della statistica Fdovrebbe essere approssimativamente 1, mentre se H0è falsa ci aspettiamo valori significativ. superiori all’unità.

Statistica test F per l’ANOVA a una via

/( )

/( 1)

SSA n c MSAF

SSW c MSW

−= =−

FONDAMENTI DI INFERENZA 80

Analisi della varianza (ANOVA) ad una via

� La statistica F ha distribuzione F con (c−1) gradi dilibertà al numeratore e (n−c) gradi di libertà aldenominatore.

� Quindi, fissato il livello di significatività α, l’ipotesi nulladovrà essere rifiutata se il valore osservato dellastatistica test è maggiore del valore critico FU di unadistribuzione F con (c−1) e (n−c) gradi di libertà.

Page 41: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

41

FONDAMENTI DI INFERENZA 81

Analisi della varianza (ANOVA) ad una via

� I risultati del test F per l’ANOVA vengono solitamenteriportati nella cosiddetta tabella dell’ANOVA.

� Nella tabella dell’ANOVA viene solitamente riportatoanche il p-value, cioè la probabilità di osservare unvalore di F maggiore o uguale a quello osservato, nelcaso l’ipotesi nulla sia vera. Come usuale, l’ipotesi nulladi uguaglianza tra le medie dei gruppi deve essererifiutata quando il p-value è inferiore al livello disignificatività scelto.

FONDAMENTI DI INFERENZA 82

Analisi della varianza (ANOVA) ad una via

� Esempio: una azienda produttrice di paracadute, vuoleconfrontare la resistenza dei paracadute prodotti confibre sintetiche acquistate da quattro diversi fornitori.

Page 42: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

42

FONDAMENTI DI INFERENZA 83

Analisi della varianza (ANOVA) ad una via

� Fissiamo α=0.05 e identifichiamo nelle tavole il valorecritico di interesse.

FONDAMENTI DI INFERENZA 84

Analisi della varianza (ANOVA) ad una via

� Poiché il valore osservato della statistica test è F=3.46<3.24=FU l’ipotesi nulla deve essere rifiutata e si concludeche la resistenza media dei paracadute varia in modosignificativo a seconda del fornitore.

Page 43: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

43

FONDAMENTI DI INFERENZA 85

Analisi della varianza (ANOVA) ad una via

� Procedura di Tukey-CramerQuando si rifiuta l’ipotesi nulla del F per l’ANOVA, vienestabilito che ci sono almeno due medie significativa-mente diverse tra loro.Per identificare quali sono i gruppi che effettivamentedifferiscono tra loro si deve utilizzare una ulterioreprocedura che rientra nei cosiddetti metodi dei confrontimultipli.Tra questi metodi, la procedura di Tukey-Cramerconsente di effettuare simultaneamente confronti a due adue tra tutti i gruppi. A questo scopo si deve innanzi tuttocalcolare c×(c−1)/2 differenze tra le medie campionariedi tutti i gruppi (con j ≠ j′), quindi calcolare il rangecritico (ampiezza critica) della procedura di Tukey-Cramer.

'j jX X−

FONDAMENTI DI INFERENZA 86

Analisi della varianza (ANOVA) ad una via

� Procedura di Tukey-CramerSe la differenza tra due medie campionarie è superioreal range critico, le corrispondenti medie dei gruppi(popolazioni) sono dichiarate significativamente diversea livello di significatività α.

Calcolo del range critico per la procedura di Tukey-Cramer

dove QU è il valore critico superiore della distribuzione delrange studentizzato con c gradi di libertà al numeratore en−c gradi di libertà al denominatore.

'

1 1Range critico

2Uj j

MSWQ

n n

= +

Page 44: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

44

FONDAMENTI DI INFERENZA 87

Analisi della varianza (ANOVA) ad una via

� Esempio della procedura di Tukey-Cramer per il caso deiparacadute.

FONDAMENTI DI INFERENZA 88

Analisi della varianza (ANOVA) ad una via

� Procedura di Tukey-Cramer

Page 45: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

45

FONDAMENTI DI INFERENZA 89

Analisi della varianza (ANOVA) ad una via

Assunzioni alla base del test F per l’ANOVA a una viaPrima di applicare un test di ipotesi è sempre necessariovalutare se le assunzioni di base del test possono o meneessere ragionevolmente soddisfatte. Le ipotesi alla basedel test F per l’ANOVA a una via sono essenzialmente tre:� casualità e indipendenza;� normalità;� omogeneità delle varianze.

L’ultima ipotesi stabilisce che le varianze nei gruppi sonotra loro uguali (σ2

1 = σ22 = … = σ2

c). Nel caso di campionicon ampiezza simile le inferenze basate sulladistribuzione F non sono molto influenzate da eventualidifferenze tra varianze, al contrario se le ampiezze sonodiverse tra loro il problema potrebbe essere serio.

FONDAMENTI DI INFERENZA 90

Analisi della varianza (ANOVA) ad una via

� Test di Levene per l’omogeneità delle varianzeQuesta procedura inferenziale è stata sviluppata perverificare l’ipotesi nulla H0: σ2

1 = σ22 = … = σ2

c control’ipotesi alternativa H1: non tutte le varianze sono uguali.Per verificare tale ipotesi si calcola la differenza in valoreassoluto tra ogni osservazione e la mediana campionariadel gruppo di appartenenza e su questi dati si conducel’ANOVA a una via.Per l’esempio dei paracadute si considera:

Page 46: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

46

FONDAMENTI DI INFERENZA 91

Analisi della varianza (ANOVA) ad una via

� Test di Levene per l’esempio dei paracadute

92FONDAMENTI DI INFERENZA

Test Chi-quadrato per la differenza tra 2 proporzio ni

� Il problema della verifica di ipotesi sulla differenza tradue proporzioni (test Z) può essere affrontato anche conuna procedura alternativa basata su una statistica test lacui distribuzione tende ad approssimarsi con unadistribuzione chi-quadrato (χχχχ2). I risultati ottenutisaranno del tutto equivalenti a quelli dalla statistica Z

� Se siamo interessati a confrontare le proporzioni di casiche presentano una certa caratteristica in due gruppiindipendenti possiamo costruire una tabella a doppiaentrata (o di contingenza ) di dimensioni 2×2 nellaquale sono riportati il numero (o le percentuali) disuccessi e insuccessi nei due gruppi

Page 47: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

47

93FONDAMENTI DI INFERENZA

� Ad esempio

Test Chi-quadrato per la differenza tra 2 proporzio ni

94FONDAMENTI DI INFERENZA

� Per verifica l’ipotesi nulla secondo cui non c’è differenzatra le due proporzioni

H0: π1 = π2

contro l’alternativaH1: π1 ≠ π2

si può considerare la statistica χ2

� La statistica χ2 si ottiene calcolando per ogni cella dellatabella di contingenza la differenza al quadrato fra lafrequenza osservata (f0) e quella attesa (fe), divisa per fe,e sommando quindi il risultato ottenuto per ogni cella

Statistica test χχχχ2 per la differenza tra due proporzioni

(11.1)( )2

02

le celle

e

tutte e

f f

−= ∑

Test Chi-quadrato per la differenza tra 2 proporzio ni

Page 48: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

48

95FONDAMENTI DI INFERENZA

� Per calcolare la frequenza attesa si deve tener conto delfatto che se l’ipotesi nulla è vera la proporzione disuccessi e insuccessi è la stessa nei due gruppi e leproporzioni campionarie dovrebbero differire solo pereffetto del caso. In questo caso per stimare il parametroπ conviene utilizzare una combinazione delle duefrequenze campionarie, indicata con

� Per calcolare la frequenza attesa fe per le celle relative alsuccesso (prima riga) si dovrà moltiplicare l’ampiezzacampionaria n1 e n2 (totali di colonna) per

Calcolo della proporzione globale di successi

(11.2)1 2

1 2

X X Xp

n n n

+= =+

p

p

Test Chi-quadrato per la differenza tra 2 proporzio ni

96FONDAMENTI DI INFERENZA

� Analogamente, per calcolare la frequenza attesa fe per lecelle relative all’insuccesso (seconda riga) si dovràmoltiplicare l’ampiezza campionaria n1 e n2 di ciascunodei due gruppi per (1− )

� La statistica test introdotta nell’equazione (11.1) sidistribuisce approssimativamente secondo unadistribuzione chi-quadrato con 1 grado di libertà

� Fissato α, l’ipotesi nulla dovrà essere rifiutata se il valoreosservato della statistica χ2 è maggiore del valore criticoχ2

U di una distribuzione χ2 con 1 grado di libertà

p

Test Chi-quadrato per la differenza tra 2 proporzio ni

Page 49: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

49

97FONDAMENTI DI INFERENZA

Test Chi-quadrato per la differenza tra 2 proporzio ni

98FONDAMENTI DI INFERENZA

Test Chi-quadrato per la differenza tra 2 proporzio ni

Page 50: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

50

99FONDAMENTI DI INFERENZA

Test Chi-quadrato per la differenza tra 2 proporzio ni

100FONDAMENTI DI INFERENZA

� Il test χ2 opportunamente generalizzato può essereutilizzato per confrontare le proporzioni di più popolazioniindipendenti. Supponiamo di voler verificare l’ipotesinulla secondo cui le proporzioni di c popolazioni sonouguali

H0: π1 = π2 = … = πc contro l’alternativaH1: non tutte le πj sono uguali tra loro (con j=1,…,c)

� Per risolvere questo problema dovremo costruire unatabella di contingenza di due righe (successo einsuccesso) che avrà un numero di colonne pari a c

� La statistica test sarà la stessa dell’equazione (11.1),dove la frequenza attesa viene calcolata dalla stima diπ = π1 = π2 = … = πc che in questo caso si ottiene comecombinazione delle c frequenze campionarie

p

Test Chi-quadrato per la differenza tra C proporzio ni

Page 51: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

51

101FONDAMENTI DI INFERENZA

Calcolo della proporzione globale di successi

(11.3)1 2

1 2

...

...c

c

X X X Xp

n n n n

+ + += =+ + +

� La statistica test dell’equazione (11.1) si distribuisceapprossimativamente secondo una distribuzione chi-quadrato con (2−1)×(c−1)=(c−1) gradi di libertà

� Fissato α, l’ipotesi nulla dovrà essere rifiutata se il valoreosservato della statistica χ2 è maggiore del valore criticoχ2

U di una distribuzione χ2 con (c−1) gradi di libertà

Test Chi-quadrato per la differenza tra C proporzio ni

102FONDAMENTI DI INFERENZA

Esempio: tabella di contingenza 2x3 relativa allasoddisfazione dei clienti di 3 alberghi

Frequenze attese

Test Chi-quadrato per la differenza tra C proporzio ni

Page 52: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

52

103FONDAMENTI DI INFERENZA

Calcolo della statistica test χ2 per l’esempio relativo allasoddisfazione dei clienti di 3 alberghi

Regione di rifiuto e di accettazione del test χ2 (2 gradi dilibertà) per la differenza tra tre proporzioni al livello disignificatività α=0.05

Test Chi-quadrato per la differenza tra C proporzio ni

104FONDAMENTI DI INFERENZA

Foglio di Microsoft Excel con i calcoli necessari percalcolare valore critico e p-value (test chi-quadro, 3 gruppi)

Test Chi-quadrato per la differenza tra C proporzio ni

Page 53: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

53

105FONDAMENTI DI INFERENZA

� Se si considera una tabella di contingenza con r righe ccolonne il procedimento del test χ2 può esseregeneralizzato per verificare l’indipendenza tra duevariabili categoriali X e Y

� In questo contesto le ipotesi nulla e alternativa sonoH0: le due variabili categoriali sono indipendenti ( )

(non sussistono relazioni tra le due variabili)H1: le due variabili categoriali sono dipendenti ( )

(sussiste una relazione tra le due variabili)� Il test si basa ancora una volta sull’equazione (11.1)

� La regola decisionale consiste nel rifiutare H0 se il valoreosservato della statistica χ2 è maggiore del valore criticoχ2

U della distribuzione χ2 con (r−1)×(c−1) gdl

X Y⊥

X Y⊥

( )2

02

le celle

e

tutte e

f f

−= ∑

Test Chi-quadrato per l’indipendenza

106FONDAMENTI DI INFERENZA

� Pure se presentano delle analogie, la differenzafondamentale tra il test chi-quadrato per le proporzioni eper l’indipendenza riguarda lo schema dicampionamento:� Nel confronto tra proporzioni siamo di fronte a

campioni estratti da popolazioni indipendenti� Nel test di indipendenza abbiamo un solo campione

su cui rileviamo due variabili qualitative che possonoassumere r e c modalità distinte

� Nel caso di test chi-quadrato per l’indipendenza èpossibile semplificare il calcolo delle frequenze attesaapplicando la seguente regola:

totale di riga totale di colonnaef n

×=

Test Chi-quadrato per l’indipendenza

Page 54: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

54

107FONDAMENTI DI INFERENZA

Esempio: tabella della frequenze osservate conriferimento al principale motivo di insoddisfazione eall’albergo

Frequenze attese

Test Chi-quadrato per l’indipendenza

108FONDAMENTI DI INFERENZA

Calcolo della statistica χ2 per il test di indipendenza

Test Chi-quadrato per l’indipendenza

Page 55: FONDAMENTI DI INFERENZAstatic.gest.unipd.it/~livio/PDF/PDF_CIVILE/Fondamenti... · 2013-10-29 · L’inferenza statistica è il processo attraverso il quale i risultati campionari

55

109FONDAMENTI DI INFERENZA

Regione di rifiuto e di accettazione del test χ2 perl’indipendenza nell’esempio sulla soddisfazione dei clienti(al livello di significatività 0.05 con 6 gradi di libertà)

Test Chi-quadrato per l’indipendenza

110FONDAMENTI DI INFERENZA

Foglio di Microsoft Excel con i calcoli necessari per laverifica dell’ipotesi di indipendenza tra motivo diinsoddisfazione e albergo

Test Chi-quadrato per l’indipendenza