FONDAMENTI DI INFERENZA PER L’ANALISI DEL...

90
1 FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO Corso di Laurea in Sicurezza igienico-sanitaria degli alimenti Metodologie statistiche per l’analisi del rischio FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO Facoltà di Medicina Veterinaria, Università di Padova Docente: Dott. L. Corain

Transcript of FONDAMENTI DI INFERENZA PER L’ANALISI DEL...

Page 1: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

1FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Corso di Laurea inSicurezza igienico-sanitaria degli alimenti

Metodologie statistiche per l’analisi del rischio

FONDAMENTI DI INFERENZAPER L’ANALISI DEL RISCHIO

Facoltà di Medicina Veterinaria, Università di PadovaDocente: Dott. L. Corain

Page 2: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

2FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

SOMMARIO

Distribuzioni campionarie

Teorema del limite centrale

Stima e intervalli di confidenza

Verifica di ipotesi

Errore di primo e di secondo tipo

Verifica di ipotesi ad un campione

Verifica di ipotesi a due campioni

Verifica di ipotesi a più campioni (ANOVA)

Page 3: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

3FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

DISTRIBUZIONI CAMPIONARIEL’interesse dell’inferenza statistica è di trarre conclusioni sulla popolazione e su alcuni suoi parametri e non sul solo campione.A questo scopo si utilizzano delle statistiche, ovvero delle funzioni calcolate sulla base di un campione allo scopo o di stimare (stima) o prendere delle decisioni (verifica di ipotesi) sui valori dei corrispondenti parametri dell’intera popolazione.La media campionaria è l’esempio di una statistica utilizzata per stimare la media di una variabile di interesse (ad es. la prevalenza di un patogeno) riferita all’intera popolazione (un dato processo alimentare).La proporzione campionaria è una statistica utilizzata per stimare la proporzione di unità (ad es. confezioni di prodotto) in una popolazione (processo alimentare) che hanno una certa caratteristica (sono contaminate).

Page 4: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

4FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

DISTRIBUZIONI CAMPIONARIE

Supponendo ipoteticamente di procedere all’estrazione di tutti i possibili campioni, la distribuzione di tutti i risultati ottenuti si dice distribuzione campionaria.La distribuzione della media campionaria è perciò la distribuzione di tutte le possibili medie che osserveremmo se procedessimo all’estrazione di tutti i possibile campioni di una certa ampiezza.Nella pratica invece, da una popolazione viene estratto a caso un solo campione, di ampiezza prestabilita a partire dal quale si può calcolare il valore osservato della statistica campionaria.La media campionaria è non distorta per la media della popolazione, cioè la media di tutte le possibili medie campionarie (calcolate a partire campioni di uguale ampiezza n) fornisce la vera media della popolazione.

Page 5: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

5FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

DISTRIBUZIONI CAMPIONARIEMentre le osservazioni nella popolazione assumono anche valori estremamente piccoli o estremamente grandi, la media campionaria è caratterizzata da una minore variabilità rispetto ai dati originali. Le medie campionarie saranno quindi caratterizzate, in generale, da valori meno dispersi rispetto a quelli che si osservano nella popolazione. Lo scarto quadratico medio della media campionaria, detto errore standard della media, quantifica la variazione della media campionaria da campione a campione:

L’errore standard della media

L’errore standard della media campionaria è uguale allo scarto quadratico medio della popolazione diviso √n.

/X nσ σ=

Page 6: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

6FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

DISTRIBUZIONI CAMPIONARIEIntrodotta l’idea di distribuzione campionaria e definito l’errore standard della media, bisogna stabilire quale sia la distribuzione della media campionaria. Se un campione è estratto da una popolazione normale con media µ e scarto quadratico medio σ, la media campionaria ha distribu-zione normale indipendentemen-te dall’ampiezza campionaria n, ed è caratterizzata da valore atteso µ = µ e scarto quadratico medio pari all’errore standard σ . In figura sono riportate le distribuzioni delle medie campionarie di 500 campioni di ampiezza 1,2,4,8,16 e 32 estratti da una popolazione normale.

X

X

Page 7: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

7FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

TEOREMA DEL LIMITE CENTRALE

Sinora abbiamo analizzato la distribuzione della media campionaria nel caso di una popolazione normale. Tuttavia, si presenteranno spesso casi in cui la distribuzione della popolazione può non essere normale. In questi casi è utile riferirsi ad un importante teorema della statistica, il teorema del limite centrale, che consente di dire qualcosa sulla distribuzione della media campionaria, anche nel caso in cui una popolazione non abbia distribuzione normale.

Teorema del limite centraleQuando l’ampiezza del campione casuale diventa sufficientemente grande, la distribuzione della media campionaria può essere approssimata dalla distribuzione normale. E questo indipendentemente dalla forma della distribuzione dei singoli valori della popolazione.

Page 8: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

8FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Si tratta, allora, di stabilire cosa si intende per “sufficientemente grande”, problema ampiamente affrontato dagli statistici. Come regola di carattere generale, molti sono concordi nell’affermare che quando il campione raggiunge un’ampiezza pari almeno a 30, la distribuzione della media campionaria può ritenersi approssimativamente normale. Tuttavia, il teorema del limite centrale può essere applicato anche con campioni di ampiezza inferiore se si sa che la distribuzione della popolazione ha alcune caratteristiche che la avvicinano di per se stessa alla normale (ad esempio, quando è simmetrica).Il teorema del limite centrale svolge un ruolo cruciale in ambito inferenziale, in quanto consente di fare inferenza sulla media della popolazione senza dover conoscere la forma specifica della distribuzione della popolazione.

TEOREMA DEL LIMITE CENTRALE

Page 9: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

9FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

TEOREMA DEL LIMITE CENTRALE

Ciascuna delle distribuzioni campionarie riportate è ottenuta estraendo 500 campioni diversi dalle rispettive popolazioni. Sono state considerate diverse ampiezze campionarie (n = 2, 5, 30). Nella seconda colonna èriportata la distribuzione della media campionaria nel caso di una popolazione la cui distribuzione (uniforme o rettangolare) è simmetrica e nella terza si considera una popolazione con distribuzione obliqua a destra (esponenziale).

Page 10: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

10FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

TEOREMA DEL LIMITE CENTRALESulla base dei risultati ottenuti per le distribuzioni note (la normale, l’uniforme l’esponenziale) possiamo trarre alcune conclusioni in merito al teorema del limite centrale:

Per la maggior parte delle popolazioni, indipendentemente dalla forma della loro distribuzione, la distribuzione della media campionaria èapprossimativamente normale, purché si considerino campioni di almeno 30 osservazioni.Se la distribuzione della popolazione è abbastanza simmetrica, la distribuzione della media campionaria èapprossimativamente una normale, purché si considerino campioni di almeno 5 osservazioni.Se la popolazione ha una distribuzione normale, la media campionaria è distribuita secondo la legge normale, indipendentemente dall’ampiezza del campione.

Page 11: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

11FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZA

L’inferenza statistica è il processo attraverso il quale i risultati campionari vengono utilizzati per trarre conclusioni sulle caratteristiche (parametri e formadelladistribuzione) di una popolazione.Tale processo consente di stimare caratteristiche non note della popolazione come i parametri (ad es. la media per le var. numeriche o la proporzione per le var. categoriali) che caratterizzano la distribuzione della variabile di interesse.Ci sono due approcci fondamentali di stima: le stime puntuali e le stime per intervalli (intervalli di confidenza).Uno stimatore puntuale è una statistica (cioè una funzione dei dati campionari) che viene definita allo scopo di fornire una sintesi su un parametro di interesse.

Page 12: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

12FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZA

La stima puntuale è lo specifico valore assunto da una statistica, calcolata in corrispondenza dei dati campionari e che viene utilizzata per stimare il vero valore non noto di un parametro di una popolazione.Uno stimatore per intervallo è un intervallo costruito attorno allo stimatore puntuale, in modo tale che sia nota e fissata la probabilità che il parametro appartenga all’intervallo stesso.Tale probabilità è detta livello di confidenza ed è in generale indicato con (1−α)% dove α è la probabilità che il parametro si trovi al di fuori dell’intervallo di confidenza.Quindi la confidenza è il grado di fiducia che l’intervallo possa contenere effettivamente il parametro di interesse.

Page 13: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

13FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZA

Esempio: si consideri un processo industriale di riempimento di scatole di cereali e sia assuma che il peso X delle scatole sia X~N(µ;152). Dato un campione casuale di n=25 scatole con peso medio 362.3 grammi si vuole costruire un intervallo di confidenza al 95% per µ.Per la proprietà della distribuzione normale e della media campionaria risulta che

quindi un intervallo di confidenza all’(1−α)% per µ è dato da

Nel caso specifico si ottiene 356.42 ≤ µ ≤ 368.18.

/ 2 / 2 1/

XP Z Znα αµ α

σ⎛ ⎞−− ≤ ≤ = −⎜ ⎟⎝ ⎠

/ 2 / 2/ /X Z n X Z nα ασ µ σ− ⋅ ≤ ≤ + ⋅

Page 14: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

14FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZAIpotizziamo che µ sia uguale a 368. Per comprendere a fondo il significato della stima per intervallo e le sue proprietà è utile fare riferimento all’ipotetico insieme di tutti i possibili campioni di ampiezza n che è possibile ottenere.

Osserviamo che per alcuni campioni la stima per intervalli di µ è corretta, mentre per altri non lo è.

Page 15: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

15FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZA

Nella pratica estraiamo un solo campione e siccome non conosciamo la media della popolazione non possiamo stabilire se le conclusioni a cui perveniamo sono corrette o meno.Tuttavia possiamo affermare di avere una fiducia all’(1−α)% che la media appartenga all’intervallo stimato.Quindi, l’intervallo di confidenza all’(1−α)% della media con σ noto si ottiene utilizzando l’equazione:

Intervallo di confidenza per la media con σ noto

dove Zα/2 è il valore a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione normale standard.

/ 2 / 2/ /X Z n X Z nα ασ µ σ− ⋅ ≤ ≤ + ⋅

Page 16: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

16FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZAIn alcuni casi risulta desiderabile un grado di certezza maggiore, ad es. del 99%, ed in altri casi possiamo accettare un grado minore di sicurezza, ad es. del 90%.Il valore Zα/2 di Z che viene scelto per costruire un intervallo di confidenza è chiamato valore critico. A ciascun livello di confidenza (1−α) corrisponde un diverso valore critico.

Livelli di confidenza maggiori si ottengono perciò a prezzo di un ampliamento dell’intervallo di confidenza: esiste un trade-off tra utilità pratica dell’intervallo e livello di confidenza.

Page 17: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

17FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZA

In genere lo scarto quadratico medio della popolazione σ, al pari della media µ, non è noto. Pertanto, per ottenere un intervallo di confidenza per la media della popolazione possiamo basarci sulle sole statistiche campionarie e S.Se la variabile casuale X ha una distribuzione normale allora la statistica

ha una distribuzione t di Student con (n−1) gradi di libertà.Se variabile casuale X non ha una distribuzione normale la statistica t ha comunque approssimativamente una distribuzione t di Student in virtù del Teorema del Limite Centrale.

XtS n

µ−=

X

Page 18: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

18FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZA

La distribuzione t di Student ha una forma molto simile a quella della normale standardizzata. Tuttavia il grafico risulta più appiattito e l’area sottesa sulle code è maggiore di quella della normale a causa del fatto che s non è noto e viene stimato da S. L’incertezza su s causa la maggior variabilità di t.

All’aumentare dei gradi di libertà, la distribuzione t si avvicina progressivamente alla distribuzione normale fino a che le due distribuzioni risultano virtualmente identiche.

Page 19: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

19FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZA

Il significato dei gradi di libertà è legato al fatto che per calcolare S2 è necessario calcolare preventivamente . Quindi, dato il valore di , solo n−1 osservazioni campionarie sono libere di variare: ci sono quindi n−1 gradi di libertà.L’intervallo di confidenza all’(1−α)% della media quando σnon è noto è definito nell’equazione:

Intervallo di confidenza per la media (σ non noto)

dove tn−1;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n−1) gradi di libertà.

1; / 2 1; / 2/ /n nX t S n X t S nα αµ− −− ⋅ ≤ ≤ + ⋅

XX

Page 20: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

20FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

STIMA E INTERVALLI DI CONFIDENZAData una popolazione i cui elementi possiedono una certa caratteristica secondo una data proporzione, indicata dal parametro incognito π, è possibile costruire un intervallo di confidenza per π a partire dal corrispondente stimatore puntuale, dato dalla frequenza campionaria p=X/n, dove nè l’ampiezza campionaria e X è il numero di elementi del campione che hanno la caratteristica di interesse.L’equazione seguente definisce l’intervallo di confidenza all’(1−α)% per la proporzione nella popolazione.

Intervallo di confidenza per la proporzione

dove Zα/2 è il valore critico della distribuzione normale standard e si assume che X e (n−X) siano entrambi >5.

/ 2 / 2(1 ) (1 )p Z p p n p Z p p nα απ− ⋅ − ≤ ≤ + ⋅ −

Page 21: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

21FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

La verifica di ipotesi è una procedura inferenziale che ha come scopo quello di considerare l’informazione empirica (ottenuta da una statistica campionaria) e di stabilire se questa è favorevole ad una asserzione di interesse sui parametri della popolazione.Ad esempio, potremmo asserire che il processo produttivo di riempimento delle scatole di cerali può essere considerato appropriato (sotto controllo) se il peso medio µ delle scatole è di 368 grammi.La verifica di ipotesi ha inizio proprio con una considerazione di una teoria o proposizione riguardante un particolare parametro della popolazione e l’ipotesi che il valore del parametro della popolazione sia uguale ad un dato valore prende il nome di ipotesi nulla.

VERIFICA DI IPOTESI

Page 22: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

22FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

L’ipotesi nulla in genere coincide con lo stato delle cose e viene indicata con il simbolo H0, quindi nell’esempio del processo produttivo

H0: µ = 368Sebbene le informazioni siamo tratte a partire dal campione, l’ipotesi è espressa con riferimento a un parametro della popolazione, perché si è interessati all’intero processo produttivo, vale a dire alla popolazione di tutte le scatole di cereali prodotte.Se i risultati campionari non fossero favorevoli all’ipotesi nulla si dovrebbe concludere che l’ipotesi nulla sia falsa e chiaramente ci deve essere un’altra ipotesi che risulti vera. L’ipotesi alternativa H1 è l’asserzione opposta all’ipotesi nulla, e nell’esempio in questione

H1: µ ≠ 368

VERIFICA DI IPOTESI

Page 23: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

23FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

L’ipotesi alternativa rappresenta la conclusione a cui si giunge quando si rifiuta l’ipotesi nulla (decisione forte), cioè quando il campione osservato fornisce sufficiente evidenza del fatto che l’ipotesi nulla sia falsa.D’altro canto il mancato rifiuto dell’ipotesi nulla non prova che essa è vera. Quello che si può concludere è che non vi è sufficiente evidenza empirica contraria ad essa (decisione debole).Di seguito sono riassunti i punti principali che sintetizzano il concetto di ipotesi nulla e di ipotesi alternativa:

l’ipotesi nulla H0 rappresenta lo stato attuale delle cose o l’attuale convinzione riguardo a una situazione;l’ipotesi alternativa H1 è specificata come ipotesi opposta all’ipotesi nulla e rappresenta una certa …

VERIFICA DI IPOTESI

Page 24: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

24FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

… conclusione inferenziale che si è interessati a dimostrare.se si rifiuta l’ipotesi nulla si accetta l’ipotesi alternativa.se si accetta l’ipotesi nulla ciò non significa che si èdimostrato che l’ipotesi nulla sia vera.l’ipotesi nulla H0 si riferisce sempre a un valore specifico del parametro della popolazione (ad esempio µ), e non a una statistica campionaria (ad esempio ).l’ipotesi nulla contiene sempre un segno di eguale relativo al valore specificato del parametro della popolazione (ad esempio H0: µ = 368 grammi).l’ipotesi alternativa non contiene mai un segno di eguale relativo al valore specificato del parametro della popolazione (ad esempio H1: µ ≠ 368 grammi).

X

VERIFICA DI IPOTESI

Page 25: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

25FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

La logica sottostante alla verifica di ipotesi è quella di stabilire la plausibilità dell’ipotesi nulla alla luce delle informazioni campionarie.Se ipotesi nulla asserisce che il peso medio dei cereali contenuti in tutte le scatole prodotte è 368 grammi (il valore del parametro specificato dall’azienda) si procede all’estrazione di un campione di scatole e si pesa ciascuna scatola per calcolare la media campionaria (statistica che stima il vero valore del parametro µ).Anche se l’ipotesi nulla è vera, è probabile che la statistica differisca dal vero valore del parametro per effetto del caso (della variabilità campionaria).Ciononostante ci aspettiamo che in questo caso la statistica campionaria sia vicina al parametro della popolazione.

VERIFICA DI IPOTESI

Page 26: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

26FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

La teoria della verifica di ipotesi fornisce definizioni chiare sulla base delle quali valutare le differenze osservate tra la statistica e il parametro.Il processo decisionale è sostenuto dal punto di vista quantitativo, valutando la probabilità di ottenere un dato risultato campionario, se l’ipotesi nulla fosse vera.Tale probabilità si ottiene determinando prima la distribuzione campionaria della statistica di interesse (ad es. la media campionaria) e poi calcolando la probabilitàche la statistica test assuma il valore osservato in corrispondenza del campione estratto.La distribuzione campionaria della statistica test spesso è una distribuzione statistica nota, come la normale o la t, e quindi possiamo ricorrere a queste distribuzioni per decidere se rifiutare o meno a un’ipotesi nulla.

VERIFICA DI IPOTESI

Page 27: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

27FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

La distribuzione campionaria della statistica test è divisa in due regioni: una regione di rifiuto (chiamata anche regione critica) e una regione di accettazione.

Se la statistica test cade nella regione di accettazione, l’ipotesi nulla non può essere rifiutata e se la statistica test cade nella regione di rifiuto, l’ipotesi nulla deve essere rifiutata.La regione di rifiuto può essere vista come l’insieme di ...

VERIFICA DI IPOTESI

Page 28: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

28FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

… tutti i valori della statistica test che non è probabile che si verifichino quando l’ipotesi nulla è vera, mentre èprobabile che questi valori si verifichino quando l’ipotesi nulla è falsa.Per prendere una decisione sull’ipotesi nulla, dobbiamo in primo luogo definire le regioni di rifiuto e di accettazione e questo viene fatto determinando il cosiddetto valore critico della statistica test.La determinazione di questo valore dipende dall’ampiezza della regione di rifiuto, che è legata al rischio comportato dal prendere una decisione sul parametro alla luce delle sole informazioni campionarie.Quando si applica un procedimento di verifica di ipotesi, si possono commettere due tipi di errori, l’errore di prima specie e l’errore di seconda specie.

ERRORE DI PRIMO E DI SECONDO TIPO

Page 29: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

29FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

L’errore di prima specie (detto anche livello di significatività) si verifica se si rifiuta l’ipotesi nulla quando questa è vera e quindi non dovrebbe essere rifiutata. La probabilità che si verifichi un errore di prima specie èindicata con α.L’errore di seconda specie si verifica se si accetta l’ipotesi nulla quando questa è falsa e quindi dovrebbe essere rifiutata. La probabilità che si verifichi un errore di seconda specie è indicata con β.

ERRORE DI PRIMO E DI SECONDO TIPO

Page 30: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

30FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

In genere, si controlla l’errore di prima specie fissando il livello del rischio α che si è disposti a tollerare.Dal momento che il livello di significatività è specificato prima di condurre la verifica di ipotesi, il rischio di commettere un errore di prima specie α è sotto il controllo di chi compie l’analisi (in genere i valori assegnati ad α sono 0.01, 0.05 o 0.1).La scelta di α dipende fondamentalmente dai costi che derivano dal commettere un errore di prima specie.Una volta specificato il valore di α, si ottiene anche la regione di rifiuto perché è la probabilità che la statistica test cada nella regione di rifiuto quando l’ipotesi nulla èvera. Il valore critico che separa la regione di accettazione da quella di rifiuto viene determinato di conseguenza.

ERRORE DI PRIMO E DI SECONDO TIPO

Page 31: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

31FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

A differenza dell’errore di prima specie, che controlliamo fissando α, la probabilità di commettere un errore di seconda specie dipende dalla differenza tra il valore ipotizzato e il vero valore del parametro della popolazione: se la differenza è grande, è probabile che β sia piccolo.

Il coefficiente di confidenza, indicato con (1−α), rappresenta la probabilità che l’ipotesi nulla non sia rifiutata quando è vera (quindi non dovrebbe essere rifiutata). Il livello di confidenza di un test di ipotesi è dato da (1−α)×100%.

La potenza del test, indicata con (1–β), rappresenta la probabilità di rifiutare l’ipotesi nulla quando è falsa (e quindi dovrebbe essere rifiutata).

ERRORE DI PRIMO E DI SECONDO TIPO

Page 32: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

32FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Un modo per controllare e ridurre l’errore di seconda specie consiste nell’aumentare la dimensione del campione perché un’elevata dimensione del campione consente di individuare anche piccole differenze tra la statistica campionaria e il parametro della popolazione.Per un dato valore di α, l’aumento della dimensione campionaria determina una riduzione di β e quindi un aumento della potenza del test per verificare se l’ipotesi nulla H0 è falsa.Tuttavia per una data ampiezza campionaria dobbiamo tenere conto del trade-off tra i due possibili tipi di errori: possiamo fissare un valore piccolo per α, tuttavia al diminuire di α, β aumenta e pertanto una riduzione del rischio connesso all’errore di prima specie si accompagna a un aumento di quello connesso a un errore di seconda specie.

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 33: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

33FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Tornando al problema di stabilire se il processo produttivo funziona in maniera adeguata, viene estrae un campione di 25 scatole, esse sono pesate e si confronta il peso medio delle scatole del campione (la statistica campionaria) con la media di 368 grammi (il valore ipotizzato del parametro).L’ipotesi nulla e l’ipotesi alternativa in questo esempio sono rispettivamente:

H0: µ = 368 H1: µ ≠ 368Se si assume che la popolazione abbia distribuzione normale e che scarto quadratico medio della popolazione σsia noto, la verifica di ipotesi viene condotta utilizzando il cosiddetto test di ipotesi Z. Tale test può essere applicato anche se la distribuzione non è normale purché l’ampiezza sia sufficientemente elevata (Teorema del Limite Centrale).

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 34: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

34FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

L’equazione illustra come si ottiene la statistica test Z. Il numeratore dell’equazione misura di quanto la media osservata differisce dalla media µ ipotizzata, mentre al denominatore troviamo l’errore standard della media. Pertanto Z ci dice per quanti errori standard differisce da µ.

Per definire le regioni di accettazione e di rifiuto è necessario determinare i valori critici della statistica test, facendo riferimento alla distribuzione normale standardizzata una volta fissato l’errore di prima specie α.

Statistica Z per la verifica d’ipotesi sulla media (σ noto)

/XZ

σ−

=

X

X

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 35: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

35FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Ad esempio, se si fissa α=0.05, l’area sottesa in corrispondenza della regione di rifiuto deve essere pari a 0.05. Poiché la regione di rifiuto coincide con le due code della distribuzione (si parla di un test a due code), l’area 0.05 viene divisa in due aree di 0.025. Una regione di rifiuto di 0.025 nelle due code della distribuzione normale dà luogo a un’area cumulata di 0.025 alla sinistra del valore critico più piccolo e a un’area pari a 0.975 alla sinistra del valore critico più grande.Cercando queste aree nella tavola della distribuzione normale [Tavola E.2b], troviamo che i valori critici che dividono la regione di rifiuto da quella di accettazione sono –1.96 e +1.96.

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 36: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

36FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

La Figura mostra che se la media µ ha valore 368, come ipotizza H0, allora la statistica test Z ha una distribuzione normale standardizzata. Valori di Z maggiori di +1.96 o minori di –1.96 indicano che è così distante dal valore ipotizzato per µ (368) che non è probabile che questo valore si verifichi quando H0 è vera.

X

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 37: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

37FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Pertanto la regola decisionale è la seguente:Rifiutare H0 se Zα/2<–1.96 oppure se Zα/2>+1.96Non rifiutare H0 altrimenti

Supponiamo che la media campionaria calcolata a partire dal campione di 25 scatole sia 372.5 grammi e che σ sia 15 grammi, allora

e quindi non è possibile rifiutare l’ipotesi nulla.

372.5 368 1.50/ 15 / 25

XZnµ

σ− −

= = = +

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 38: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

38FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Le 6 fasi della verifica di ipotesi utilizzando l’approccio del valore critico:

1. Specificare l’ipotesi nulla e l’ipotesi alternativa.

2. Scegliere il livello di significatività α e l’ampiezza campionaria n. Il livello di significatività viene fissato in base all’importanza relativa che si accorda ai rischi derivanti dal commettere un errore di prima specie e dal commettere un errore di seconda specie.

3. Individuare la tecnica statistica a cui fare riferimento e la corrispondente distribuzione campionaria.

4. …

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 39: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

39FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

3. …

4. Calcolare i valori critici che separano la regione di rifiuto da quella di accettazione.

5. Raccogliere i dati e calcolare il valore campionario della statistica test.

6. Prendere la decisione statistica. Se la statistica test cade nella regione di accettazione, l’ipotesi nulla H0

non può essere rifiutata. Se la statistica test cade nella regione di rifiuto, l’ipotesi nulla H0 viene rifiutata. Esprimere la decisione statistica con riferimento al problema che si sta affrontando.

VERIFICA DI IPOTESI AD UN CAMPIONE

Page 40: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

40FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

APPROCCIO DEL P-VALUE ALLA VERIFICA DI IPOTESI

Esiste un altro approccio alla verifica di ipotesi: l’approccio del p-value.

Il p-value è anche chiamato livello di significativitàosservato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata.In base all’approccio del p-value, la regola decisionale per rifiutare H0 è la seguente:

Se il p-value è ≥ α, l’ipotesi nulla non è rifiutata.Se il p-value è < α, l’ipotesi nulla è rifiutata.

Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera.Un p-value basso porta a rifiutare l’ipotesi nulla H0.

Page 41: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

41FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Torniamo ancora una volta all’esempio relativo alla produzione delle scatole di cereali. Nel verificare se il peso medio dei cereali contenuti nelle scatole è uguale a 368 grammi, abbiamo ottenuto un valore di Z uguale a 1.50 e non abbiamo rifiutato l’ipotesi, perché 1.50 è maggiore del valore critico più piccolo –1.96 e minore di quello più grande +1.96.Risolviamo, ora, questo problema di verifica di ipotesi facendo ricorso all’approccio del p-value. Per questo test a due code, dobbiamo, in base alla definizione del p-value, calcolare la probabilità di osservare un valore della statistica test uguale o più estremo di 1.50.

APPROCCIO DEL P-VALUE ALLA VERIFICA DI IPOTESI

Page 42: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

42FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Si tratta, più precisamente, di calcolare la probabilità che Zassuma un valore maggiore di 1.50 oppure minore di –1.50. In base alla Tavola E.2, la probabilità che Z assuma un valore minore di –1.50 è 0.0668, mentre la probabilità che Zassuma un valore minore di +1.50 è 0.9332, quindi la probabilità che Z assuma un valore maggiore di +1.50 è 1 –0.9332 = 0.0668. Pertanto il p-value per questo test a due code è 0.0668 + 0.0668 = 0.1336.

APPROCCIO DEL P-VALUE ALLA VERIFICA DI IPOTESI

Page 43: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

43FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Legame tra intervalli di confid. e verifica di ipotesi

Finora abbiamo preso in considerazione i due elementi principali dell’inferenza statistica – gli intervalli di confidenza e la verifica di ipotesi. Sebbene abbiano una stessa base concettuale, essi sono utilizzati per scopi diversi: gli intervalli di confidenza sono stati usati per stimare i parametri della popolazione, mentre la verifica di ipotesi viene impiegata per poter prendere delle decisioni che dipendono dai valori dei parametri.Tuttavia è importante sottolineare che anche gli intervalli di confidenza possono consentire di valutare se un parametro è minore, maggiore o diverso da un certo valore: anzichésottoporre a verifica l’ipotesi µ=368 possiamo risolvere il problema costruendo un intervallo di confidenza per la media µ. In questo caso accettiamo l’ipotesi nulla se il valore ipotizzato è compreso nell’intervallo costruito, …

Page 44: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

44FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

… perché tale valore non può essere considerato insolito alla luce dei dati osservati. D’altronde, l’ipotesi nulla va rifiutata se il valore ipotizzato non cade nell’intervallo costruito, perché tale valore risulta insolito alla luce dei dati.Con riferimento al problema considerato, l’intervallo di confidenza è costruito ponendo: n=25, =372.5 grammi, σ= 15 grammi.Per un livello di confidenza del 95% (corrispondente al livello di significatività del test α=0.05), avremo:

Poiché l’intervallo comprende il valore ipotizzato di 368 grammi, non rifiutiamo l’ipotesi nulla e concludiamo che non c’è motivo per ritenere che il peso medio dei cereali contenuti nelle scatole sia diverso da 368 grammi.

X

/ 2 / 372.5 (1.96) 15 / 25 366.6 378.4X Z nα σ µ± ⋅ ⇒ ± ⋅ ⇒ ≤ ≤

Legame tra intervalli di confid. e verifica di ipotesi

Page 45: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

45FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Fin qui abbiamo considerato i cosiddetti test a due code, ad esempio abbiamo contrapposto all’ipotesi nulla μ=368 grammi l’ipotesi alternativa μ≠368. Tale ipotesi si riferisce a due eventualità: o il peso medio è minore di 368 oppure èmaggiore di 368. Per questo motivo, la regione critica si divide nelle due code della distribuzione della media campionaria.In alcune situazioni, tuttavia, l’ipotesi alternativa presuppone che il parametro sia maggiore o minore di un valore specificato (ci si focalizza in una direzione particolare). Per esempio, si potrebbe essere interessati all’eventualità che il peso dei cereali contenuti ecceda i 368 grammi, perché in tal caso, essendo il prezzo delle scatole basato su un peso di 368 grammi, la società subirebbe delle perdite. In questo caso si intende stabilire se il peso medio è superiore a 368 grammi.

I test ad una coda

Page 46: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

46FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

L’ipotesi nulla e l’ipotesi alternativa in questo caso sono specificate rispettivamente:H0: µ ≤ 368 H1: µ >368La regione di rifiuto in questo caso è interamente racchiusa nella coda destra della distribuzione della media campionaria, perché rifiutiamo l’ipotesi nulla H0 solo se la media è significativamente superiore a 368 grammi. Quando la regione di rifiuto è contenuta per intero in una coda della distribuzione della statistica test, si parla di testa una coda.Fissato il livello di significatività α, possiamo individuare, anche in questo caso, il valore critico di Zα.Nel caso H0: µ≥368 contro H1: µ<368 possiamo individuare il valore critico di Zα come segue.

I test ad una coda

Page 47: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

47FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Come si può osservare dalla tabella e dalla figura, poichéla regione critica è contenuta nella coda di sinistra della distribuzione normale standardizzata e corrisponde a un’area di 0.05, il valore critico lascia alla sua sinistra una massa pari a 0.05; pertanto tale valore è −1.645 (media di −1.64 e −1.65).

I test ad una coda

Page 48: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

48FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Nell’approccio del p-value al test a una coda, si calcola la probabilità di ottenere o un valore della statistica test piùgrande di quello osservato o un valore più piccolo a seconda della direzione dell’ipotesi alternativa.Se la regione di rifiuto risulta contenuta per intero nella coda di sinistra della distribuzione della statistica test Z, dobbiamo calcolare la probabilità che Z assuma un valore minore di Z osservato, ad esempio −3.125. Tale probabilità, in base alle tavole risulta 0.009.

I test ad una coda

Page 49: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

49FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

In molte applicazioni lo scarto quadratico medio della popolazione σ non è noto ed è quindi necessario stimarlo con lo campionarie scarto quadratico medio S.Se si assume che la popolazione abbia distribuzione normale allora la media campionaria si distribuisce secondo una t di Student con (n−1) gradi di libertà.

Se variabile casuale X non ha una distribuzione normale la statistica t ha comunque approssimativamente una distribuzione t di Student in virtù del Teorema del Limite Centrale.

Statistica t per la verifica d’ipotesi sulla media (σ non noto)

Il test di ipotesi t per la media (σ non noto)

XtS n

µ−=

Page 50: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

50FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Per illustrare l’uso del test t si consideri un campione di fatture per valutare se l’ammontare medio delle fatture èstato uguale a $120.

4. il test è a due code e i valori critici si determinano dalla Tav. E3.

1. H0: µ = 120 H1: µ ≠ 120

2. α=0.05 e n=12

3. poiché σ non è noto la statistica test è t con n−1 gradi di libertà

Il test di ipotesi t per la media (σ non noto)

Page 51: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

51FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

5. dati i valori delle 12 fatture campionate108.98 152.22 111.45 110.59 127.46 107.2693.32 91.97 111.56 75.71 128.58 135.11si ottiene = 112.85 e S= 20.80 e quindi

6. poiché −2.201 < t = −1.19 < +2.201 l’ipotesi nulla non va rifiutata

112.85 120 1.19/ 20.80 / 12

XtS n

µ− −= = = −

X

Il test di ipotesi t per la media (σ non noto)

Page 52: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

52FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Il test di ipotesi Z per la proporzioneIn alcuni casi si è interessati a verificare ipotesi su π, la proporzione di unità nella popolazione che possiedono una certa caratteristica. A tale scopo, per un campione casuale estratto dalla popolazione, si deve calcolare la proporzione campionaria p=X/n. Se il numero di successi X e di insuccessi (n−X) sono entrambi >5, la distribuzione della proporzione di successi può essere approssimata dalla distribuzione normale e, quindi, si può ricorrere alla statistica Z per la proporzione.

Statistica test Z per la verifica d’ipotesi sulla proporzione

La statistica test Z ha approssimativamente una distribuzione normale standard

(1 )pZ

π π−

=−

Page 53: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

53FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Esempio: dato un campione casuale di 899 persone che lavorano a casa, 369 delle quali sono donne, si èinteressati a stabilire se la proporzione di donne è il 50%, cioè H0: π=0.5. Si ha quindi p=X/n=369/899=0.41. Fissato un livello di significatività α=0.05, le regioni di accettazione e rifiuto sono illustrate in figura (dalle tavole il valore critico è Z0.025=1.96).

Il test di ipotesi Z per la proporzione

Page 54: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

54FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

0.41 0.50 0.09 5.370.0167(1 ) 0.50(1 0.50) 899

pZn

ππ π

− − −= = = = −

− −Poiché −5.37 < −1.96 l’ipotesi nulla va rifiutata. Possiamo quindi concludere che a livello di significatività α=0.05 la proporzione di donne che lavorano da casa non è pari a 0.50.

Il test di ipotesi Z per la proporzione

Page 55: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

55FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Confronto tra medie di due pop. indipendenti

Consideriamo due popolazioni indipendenti e supponiamo di estrarre un campione di ampiezza n1dalla prima popolazione di ampiezza n2 dalla seconda popolazione.Siano µ1 e µ2 le medie che caratterizzano rispettiva-mente la prima e la seconda popolazione e si assumano i due scarti quadratici medi σ1 e σ2 come noti.Si vuole verificare l’ipotesi nulla che le medie delle due popolazioni (indipendenti) sono uguali tra loro:

H0: µ1 = µ2 (µ1 − µ2 = 0)contro l’ipotesi alternativa

H1: µ1 ≠ µ2 (µ1 − µ2 ≠ 0)A questo scopo viene definita la statistica test Z per la differenza tra le due medie.

Page 56: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

56FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Confronto tra medie di due pop. indipendenti

Page 57: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

57FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Se si assume che i due campioni siano estratti casualmente ed indipendentemente da due popolazioni normali la statistica Z ha distribuzione normale.Se le due popolazioni non hanno distribuzione normale il test Z può essere utilizzato con ampiezza campionarie sufficientemente elevate (in virtù del teorema del limite centrale).In molti casi le varianze delle due popolazioni non sono note. Se si assume l’ipotesi di omogeneità della varianze (σ2

1=σ22), per verificare se c’è una differenza significativa

tra le medie delle due popolazioni è possibile utilizzare il test t basato sulle varianze campionarie combinate.Il test t è appropriato se le popolazioni hanno distribuzione normale oppure, in caso contrario, se le ampiezze campionarie sono sufficientemente elevate.

Confronto tra medie di due pop. indipendenti

Page 58: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

58FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Confronto tra medie di due pop. indipendenti

Page 59: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

59FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Regione di rifiuto e di accettazione per la differenza tra due medie utilizzando la statistica test t basata sulle varianze combinate (test a due code).

Quando l’assunzione dell’omogeneità delle varianze non èplausibile occorre fare riferimento al test t con varianze diverse (ricorrendo all’Excel o ad altri software statistici).

Confronto tra medie di due pop. indipendenti

Page 60: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

60FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Esempio: confronto tra le vendite settimanali (numero di pezzi venduti) della BLK cola in due gruppi di supermercati, dove il primo adotta la collocazione a scaffale mentre il secondo utilizza uno spazio dedicato

Confronto tra medie di due pop. indipendenti

Page 61: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

61FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Confronto tra medie di due pop. indipendenti

Page 62: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

62FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

In base al fatto che l’ipotesi alternativa sia nella forma A: H1:µ1≠µ2 oppure B: H1:µ1<µ2 o C: H1:µ1>µ2 si parla di test ad una coda e test a due code.

Confronto tra medie di due pop. indipendenti

Page 63: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

63FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Intervallo di confidenza per la differenza tra le medie di due pop. indipendentiAnziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo utilizzare l’equazione (10.3) per ottenere un intervallo di confidenza per la differenza tra le medie µ1 e µ2 delle due popolazioni:

Intervallo di confidenza per la differenza (µ1−µ2)

dove tn1−n2−2;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n1−n2−2) gradi di libertà.

( )

( )1 2

1 2

21 2 1; / 2 1 2 1 2

21 2 1; / 2 1 2

( ) 1 1

( ) 1 1

n n p

n n p

X X t S n n

X X t S n n

α

α

µ µ− −

− −

− − ⋅ + ≤ − ≤

≤ − + ⋅ +

Page 64: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

64FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Spesso si è interessati a effettuare confronti e ad analizzare differenze tra due popolazioni con riferimento alla proporzione di casi con una certa caratteristicaPer confrontare due proporzioni sulla base dei risultati di due campioni si può ricorrere al test Z per la differenza tra due proporzioni, la cui statistica test ha distribuzione approssimativamente normale quando le ampiezza campionarie sono sufficientemente elevate

Statistica Z per la differenza tra due proporzioni

1 2 1 2 1 2 1 21 2

1 2 1 2

1 2

( ) ( ) con , ,1 1(1 )

p p X X X XZ p p pn n n n

p pn n

π π− − − += = = =

+⎛ ⎞− +⎜ ⎟

⎝ ⎠

Confronto tra le proporzioni di due popolazioni

Page 65: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

65FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

A seconda di come è formulata l’ipotesi alternativa avremo un test a due code (H1: π1 ≠ π2 (π1−π2 ≠ 0)) o un test a una coda (ipotesi direzionali: H1: π1 > π2 (π1−π2 > 0) oppure H1: π1 < π2 (π1−π2 < 0)).EsempioLa catena di alberghi TC Resort è interessata a valutare se esiste differenza tra la proporzione di clienti che intendono visitare nuovamente due dei suoi alberghi. Vengono campionati 227 clienti nel primo albergo e 262 dal secondo di cui 163 si dicono disposti a ritornare nel primo campione, 154 nel secondo.Adottando un livello di significatività pari a 0.05 si può affermare che nei due alberghi esiste una differenza tra la proporzione di coloro che sono disposti a ritornare?

Confronto tra le proporzioni di due popolazioni

Page 66: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

66FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Z= + 3,01 > +1,96 perciò si rifiuta H0 concludendo che le percentuali sono diverse.

Confronto tra le proporzioni di due popolazioni

Page 67: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

67FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Intervallo di conf. per la differ. tra due proporzioni

Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due proporzioni sono uguali, possiamo utilizzare la seguente equazione per ottenere un intervallo di confidenza per la differenza tra le due proporzioni.

Intervallo di confidenza per la differenza tra due proporzioni

1 1 2 21 2 / 2 1 2

1 2

1 1 2 21 2 / 2

1 2

(1 ) (1 )( ) ( )

(1 ) (1 )( )

p p p pp p Zn n

p p p pp p Zn n

α

α

π π− −− − + ≤ − ≤

− −≤ − + +

Page 68: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

68FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Test F per il rapporto tra due varianzeTalvolta si pone il problema di valutare l’ipotesi di omogeneità delle varianze e a questo scopo è possibile considerare un test statistico per verificare H0: σ2

1 = σ22

contro l’ipotesi alternativa H1: σ21 ≠ σ2

2. Questo test èbasato sul rapporto delle due varianze campionarie:

F = S21 / S2

2La statistica test F segue una distribuzione F con (n1−1) e (n2−1) gradi di libertà rispettivamente a numeratore e a denominatore.

Page 69: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

69FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Esempio: determinazione del valore critico superiore FU di una distribuzione F con 9 e 9 gradi di libertà corrispondente a un’area nella coda destra pari a 0.025.

Esiste un modo molto semplice per determinare il valore critico inferiore FL: FL=1/FU

*, dove FU* è il valore critico

superiore delle distribuzione F con gradi di libertà invertiti, cioè (n2−1) a numeratore e (n1−1) a denominatore.

Test F per il rapporto tra due varianze

Page 70: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

70FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Nella verifica di ipotesi sulla omogeneità delle varianze si ipotizza che le due popolazioni siano normali. La statistica F non è robusta rispetto a violazioni di questa assunzione.

Regioni di rifiuto e di accettazione per un test F a due code sull’uguaglianza tra due varianze a un livello di significatività pari a 0.05, con 9 e 9 gradi di libertà.

Test F per il rapporto tra due varianze

Page 71: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

71FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

Finora abbiamo descritto test di ipotesi finalizzati alla verifica di ipotesi sulla differenza tra parametri di due popolazioniSpesso si presenta la necessità di prendere in considerazione esperimenti od osservazioni relative a più di due gruppi individuati sulla base di un fattore di interesse.I gruppi sono quindi formati secondo i livelli assunti da un fattore, ad esempio

la temperatura di cottura di un oggetto in ceramica che assume diversi livelli numerici come 300°, 350°,400°,450° oppureil fornitore che serve una azienda può assumere diversi livelli qualitativi come Fornitore 1, Fornitore 2, Fornitore 3, Fornitore 4.

Page 72: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

72FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

L’analisi della varianza (o ANOVA, ANalysis Of VAriance) è una tecnica che consente di confrontare da un punto di vista inferenziale le medie di più di due gruppi (popolazioni).Quando i gruppi sono definiti sulla base di un singolo fattore si parla di analisi della varianza a un fattore o a una via.Questa procedura, basata su un test F, è una estensione a più gruppi del test t per verificare l’ipotesi sulla differenza tra le medie di due popolazioni indipendenti.Anche se si parla di analisi della varianza in realtàl’oggetto di interesse sono le differenze tra medie nei diversi gruppi e proprio tramite l’analisi della variabilitàall’interno dei gruppi e tra gruppi che siamo in grado di trarre delle conclusioni sulla differenza delle medie.

Page 73: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

73FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

La variabilità all’interno dei gruppi è considerata un errore casuale, mentre la variabilità tra i gruppi èattribuibile alle differenza tra i gruppi, ed è anche chiamata effetto del trattamento.Ipotizziamo che c gruppi rappresentino popolazioni con distribuzione normale, caratterizzate tutte dalla stessa varianza e che le osservazioni campionarie siano estratte casualmente ed indipendentemente dai c gruppi.In questo contesto l’ipotesi nulla che si è interessati a verificare è che le medie di tutti gruppi siano uguali tra loro

H0: µ1 = µ2 = … = µccontro l’ipotesi alternativa

H1: non tutte le µj sono uguali tra loro (con j=1,…,c)

Page 74: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

74FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

Per verificare le due ipotesi considerate, la variabilitàtotale (misurata dalla somma dei quadrati totale – SST) viene scomposta in due componenti: una componente attribuibile alla differenza tra i gruppi (misurata dalla somma dei quadrati tra i gruppi – SSA) e una seconda componente che si riferisce alle differenze riscontrare all’interno del gruppi (misurata dalla somma dei quadrati all’interno dei gruppi – SSW) .

Page 75: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

75FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

Variabilità totale nell’ANOVA a una via

dove

( )2

1 1

jnc

ijj i

SST X X= =

= −∑∑

Poiché sotto l’ipotesi nulla si assume che le medie dei gruppi siano tutti uguali, la variabilità totale SST si ottiene sommando le differenze al quadrato di ciascuna osservazione e la media complessiva, indicata con .X

1 1

1media complessiva,

jnc

ij cj i

jj

XX n n

n= =

=

= = =∑∑

∑SST è caratterizzata da (n−1) gradi di libertà poichéciascuna osservazione Xij viene confrontata con la media campionaria complessiva .X

Page 76: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

76FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

Variabilità tra gruppi nell’ANOVA a una via

dove media campionaria nel j-esimo campione

( )2

1

c

j jj

SSA n X X=

= −∑

La variabilità tra gruppi SSA si ottiene sommando le differenze al quadrato tra le medie campionarie di ciascun gruppo, , e la media complessiva, , dove ogni differenza è ponderata con l’ampiezza campionaria nj del gruppo a cui è riferita.

X

1

jn

iji

jj

XX

n==∑

jX

Poiché si tratta di confrontare c gruppi, SSA saràcaratterizzata da (c−1) gradi di libertà.

Page 77: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

77FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

Variabilità all’interno dei gruppi nell’ANOVA a una via

( )2

1 1

jnc

ij jj i

SSW X X= =

= −∑∑

Infine, la variabilità nei gruppi SSW si ottiene sommando le differenze al quadrato tra ciascuna osservazione e la media campionaria del gruppo a cui appartiene.

Poiché ciascuno dei c gruppi contribuisce con (nj−1) gradi di libertà, SSW avrà complessivamente (n−c)= =∑(nj−1) gradi di libertà.Dividendo ciascuna somma dei quadrati per i rispettivi gradi di libertà, si ottengono tre varianze, o medie dei quadrati – MSA (la media dei quadrati tra gruppi), MSW(la media dei quadrati all’interno dei gruppi) e MST (la media dei quadrati totale).

Page 78: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

78FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaSe l’ipotesi nulla è vera e non ci sono differenze significative tra le medie dei gruppi, le tre medie dei quadrati – MSA, MSW e MST, che sono esse stesse delle stime di varianze e rappresentano tutte stime della varianza globale della popolazione sottostante.Quindi per verificare l’ipotesi nulla contro l’alternativa si fa riferimento alla statistica test F per l’ANOVA a una via, ottenuta come rapporto tra MSA e MSW.

Se l’ipotesi nulla è vera, la realizzazione della statistica Fdovrebbe essere approssimativamente 1, mentre se H0è falsa ci aspettiamo valori significativ. superiori all’unità.

Statistica test F per l’ANOVA a una via/( )/( 1)

SSA n c MSAFSSW c MSW

−= =

Page 79: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

79FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

La statistica F ha distribuzione F con (c−1) gradi di libertà al numeratore e (n−c) gradi di libertà al denominatore.Quindi, fissato il livello di significatività α, l’ipotesi nulla dovrà essere rifiutata se il valore osservato della statistica test è maggiore del valore critico FU di una distribuzione F con (c−1) e (n−c) gradi di libertà.

Page 80: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

80FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaI risultati del test F per l’ANOVA vengono solitamente riportati nella cosiddetta tabella dell’ANOVA.

Nella tabella dell’ANOVA viene solitamente riportato anche il p-value, cioè la probabilità di osservare un valore di F maggiore o uguale a quello osservato, nel caso l’ipotesi nulla sia vera. Come usuale, l’ipotesi nulla di uguaglianza tra le medie dei gruppi deve essere rifiutata quando il p-value è inferiore al livello di significatività scelto.

Page 81: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

81FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

Esempio: una azienda produttrice di paracadute, vuole confrontare la resistenza dei paracadute prodotti con fibre sintetiche acquistate da quattro diversi fornitori.

Page 82: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

82FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaFissiamo α=0.05 e identifichiamo nelle tavole il valore critico di interesse.

Page 83: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

83FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

Poiché il valore osservato della statistica test è F=3.46< 3.24=FU l’ipotesi nulla deve essere rifiutata e si conclude che la resistenza media dei paracadute varia in modo significativo a seconda del fornitore.

Page 84: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

84FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaProcedura di Tukey-CramerQuando si rifiuta l’ipotesi nulla del F per l’ANOVA, viene stabilito che ci sono almeno due medie significativa-mente diverse tra loro. Per identificare quali sono i gruppi che effettivamente differiscono tra loro si deve utilizzare una ulteriore procedura che rientra nei cosiddetti metodi dei confronti multipli.Tra questi metodi, la procedura di Tukey-Cramerconsente di effettuare simultaneamente confronti a due a due tra tutti i gruppi. A questo scopo si deve innanzi tutto calcolare c×(c−1)/2 differenze tra le medie campionarie di tutti i gruppi (con j ≠ j′), quindi calcolare il rangecritico (ampiezza critica) della procedura di Tukey-Cramer.

'j jX X−

Page 85: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

85FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaProcedura di Tukey-CramerSe la differenza tra due medie campionarie è superiore al range critico, le corrispondenti medie dei gruppi (popolazioni) sono dichiarate significativamente diverse a livello di significatività α.

Calcolo del range critico per la procedura di Tukey-Cramer

dove QU è il valore critico superiore della distribuzione del range studentizzato con c gradi di libertà al numeratore e n−c gradi di libertà al denominatore.

'

1 1Range critico2U

j j

MSWQn n

⎛ ⎞= +⎜ ⎟⎜ ⎟

⎝ ⎠

Page 86: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

86FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaEsempio della procedura di Tukey-Cramer per il caso dei paracadute.

Page 87: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

87FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaProcedura di Tukey-Cramer

Page 88: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

88FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaAssunzioni alla base del test F per l’ANOVA a una viaPrima di applicare un test di ipotesi è sempre necessario valutare se le assunzioni di base del test possono o mene essere ragionevolmente soddisfatte. Le ipotesi alla base del test F per l’ANOVA a una via sono essenzialmente tre:

casualità e indipendenza;normalità;omogeneità delle varianze.

L’ultima ipotesi stabilisce che le varianze nei gruppi sono tra loro uguali (σ2

1 = σ22 = … = σ2

c). Nel caso di campioni con ampiezza simile le inferenze basate sulla distribuzione F non sono molto influenzate da eventuali differenze tra varianze, al contrario se le ampiezze sono diverse tra loro il problema potrebbe essere serio.

Page 89: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

89FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una viaTest di Levene per l’omogeneità delle varianzeQuesta procedura inferenziale è stata sviluppata per verificare l’ipotesi nulla H0: σ2

1 = σ22 = … = σ2

c contro l’ipotesi alternativa H1: non tutte le varianze sono uguali.Per verificare tale ipotesi si calcola la differenza in valore assoluto tra ogni osservazione e la mediana campionaria del gruppo di appartenenza e su questi dati si conduce l’ANOVA a una via.Per l’esempio dei paracadute si considera:

Page 90: FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIOstatic.gest.unipd.it/~livio/PDF/PDF_SIA/Fondamenti inferenza_1... · media campionaria è caratterizzata da una minore variabilità

90FONDAMENTI DI INFERENZA PER L’ANALISI DEL RISCHIO

Analisi della varianza (ANOVA) ad una via

Test di Levene per l’esempio dei paracadute