Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento...

242
Marco Di Marzio Primi elementi di inferenza statistica

Transcript of Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento...

Page 1: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Marco Di Marzio

Primi elementi di inferenza statistica

Page 2: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

RingraziamentiUn sentito ringraziamento a Fabiola Del Greco e Agnese Panzera per la preziosa collaborazione.

Page 3: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento
Page 4: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Indice

1 Probabilità 11.1 Esperimenti casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Algebra degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Probabilità e sue concezioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Assiomi della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Probabilità condizionata e indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.6 Proprietà degli eventi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.7 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Esercizi svolti 12

3 Variabili casuali semplici 193.1 Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Distribuzioni di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3 Famiglie parametriche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.4 Funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.5 Variabili casuali identicamente distribuite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.6 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.7 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.8 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.9 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.10 Coefficiente di variazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.11 Disuguaglianza di Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.12 Variabili casuali standardizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 Esercizi svolti 32

5 Principali variabili casuali discrete 375.1 Tre esperimenti casuali fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.2 Variabile casuale binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.3 Variabile casuale geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.4 Variabile casuale ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405.5 Variabile casuale di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

6 Esercizi svolti 43

7 Principali variabili casuali continue 467.1 Esperimenti casuali descritti da variabili casuali continue . . . . . . . . . . . . . . . . . . . . . 467.2 Variabile casuale normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467.3 Variabile casuale normale standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477.4 Variabile casuale uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497.5 Variabile casuale esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

8 Esercizi svolti 52

M. Di Marzio iii Primi elementi di inferenza statistica (ed. maggio 2012)

Page 5: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Indice

9 Variabili casuali multiple 569.1 Variabili casuali multiple e distribuzioni di probabilità congiunte . . . . . . . . . . . . . . . . 569.2 Funzioni di variabile casuale multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589.3 Distribuzioni di probabilità marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599.4 Distribuzioni di probabilità condizionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609.5 Variabili casuali indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639.6 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649.7 Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659.8 Indipendenza e incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669.9 Distribuzione normale doppia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

10 Esercizi svolti 69

11 Funzioni di variabili casuali 7811.1 Somma di variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7811.2 Distribuzioni del minimo e del massimo di variabili casuali . . . . . . . . . . . . . . . . . . . . 8011.3 Variabili casuali che derivano dalla normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8211.4 Somme di particolari variabili casuali indipendenti . . . . . . . . . . . . . . . . . . . . . . . . 8311.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

12 Popolazione e campionamento 8712.1 Popolazione, campione e inferenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8712.2 Popolazione come pdf parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8812.3 Campione casuale e osservato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8912.4 Statistiche campionarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9112.5 Media campionaria: valore atteso e varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9312.6 Media campionaria: funzione di densità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9312.7 Valore atteso della varianza campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9412.8 Funzione di densità della varianza campionaria nel caso di campioni casuali gaussiani . . . . . 9512.9 Altre statistiche calcolate su campioni casuali gaussiani . . . . . . . . . . . . . . . . . . . . . 96

13 Verosimiglianza e sufficienza 9713.1 Funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9713.2 Sintesi dell’informazione tramite statistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9813.3 Statistiche sufficienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

14 Esercizi svolti 103

15 Stima 10715.1 Il problema della stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10715.2 Proprietà degli stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10815.3 Proprietà per piccoli campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10915.4 Proprietà per grandi campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11215.5 Costruzione degli stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

16 Esercizi svolti 117

17 Stima per intervalli 12217.1 Il problema della stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12217.2 Definizione di quantità pivotale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12317.3 Quantità pivotali nel caso di popolazione normale . . . . . . . . . . . . . . . . . . . . . . . . . 12317.4 Quantità pivotali nel caso di grandi campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . 12417.5 Costruzione di stimatori per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12517.6 Intervalli di confidenza per la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12517.7 Numerosità campionaria per la stima della media . . . . . . . . . . . . . . . . . . . . . . . . . 12617.8 Intervalli di confidenza per la proporzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12717.9 Intervalli di confidenza per la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12717.10Proprietà degli stimatori intervallari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

18 Esercizi svolti 129

Primi elementi di inferenza statistica (ed. maggio 2012) iv M. Di Marzio

Page 6: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

INDICE

19 Verifica d’ipotesi 13419.1 Ipotesi statistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13419.2 Il test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13519.3 Accuratezza del test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13719.4 Costruzione del test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13919.5 Verifica d’ipotesi sulla media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14119.6 Verifica di ipotesi sulla differenza tra medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14219.7 Verifica di ipotesi nel caso di grandi campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . 14319.8 Verifica d’ipotesi sulla proporzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14319.9 Verifica d’ipotesi sulla differenza tra proporzioni . . . . . . . . . . . . . . . . . . . . . . . . . 14419.10Verifica di ipotesi sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

20 Esercizi svolti 146

21 Test Chi-quadrato 15521.1 Formulazione generale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15521.2 Test di conformità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15621.3 Test di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15821.4 Test di omogeneità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

22 Esercizi svolti 162

23 Predizione 16923.1 Predittori ottimi non condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16923.2 Predittori ottimi condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17023.3 Due modelli di media condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

24 Inferenza su medie condizionate 17524.1 Stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17524.2 Proprietà degli stimatori B0 e B1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17924.3 Stime intervallari e test su β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18124.4 Test di linearità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

25 Esercizi svolti 184

26 Affidabilità 19426.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19426.2 Andamenti tipici del tasso di guasto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19526.3 Tasso di guasto di alcune variabili casuali continue . . . . . . . . . . . . . . . . . . . . . . . . 19626.4 Stima della durata media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19826.5 Sistemi complessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20026.6 Sistemi in serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20026.7 Sistemi in parallelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20126.8 Sistemi in serie con parti positivamente correlate . . . . . . . . . . . . . . . . . . . . . . . . . 20126.9 Sistemi in parallelo con parti positivamente correlate . . . . . . . . . . . . . . . . . . . . . . . 202

27 Esercizi svolti 203

A Analisi matematica 209A.1 Insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209A.2 Estremo superiore, estremo inferiore, massimo e minimo . . . . . . . . . . . . . . . . . . . . . 210A.3 Intervalli di numeri reali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211A.4 Valore assoluto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211A.5 Simboli di sommatoria e produttoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211A.6 Doppia sommatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212A.7 Lo spazio Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213A.8 Funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213A.9 Funzioni esponenziale e logaritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214A.10 Funzioni limitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215A.11 Limiti di funzioni e continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216A.12 Derivata di una funzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

M. Di Marzio v Primi elementi di inferenza statistica (ed. maggio 2012)

Page 7: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Indice

A.13 Derivate parziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218A.14 Integrali indefiniti e integrali definiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218A.15 Calcolo di integrali doppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

B Calcolo combinatorio 222B.1 Disposizioni e permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222B.2 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223B.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

C Tavole statistiche 224

D Elenco delle abbreviazioni e dei simboli 231

Primi elementi di inferenza statistica (ed. maggio 2012) vi M. Di Marzio

Page 8: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1Probabilità

Indice1.1 Esperimenti casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Algebra degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Probabilità e sue concezioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Assiomi della probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Probabilità condizionata e indipendenza . . . . . . . . . . . . . . . . . . . . . . 71.6 Proprietà degli eventi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . 91.7 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1 Esperimenti casualiSpesso è necessario formulare previsioni su esiti di esperimenti (se prodotti dall’ uomo) o fenomeni (se presentiin natura). In generale il complesso degli esiti possibili è noto, ma quale esito in particolare si verificherànon è dato saperlo con certezza. Di tali situazioni aleatorie si occupa il calcolo delle probabilità. Per esso,come per ogni altro campo della scienza, esiste uno specifico linguaggio formalizzato. Così l’insieme di tuttii possibili esiti è detto spazio fondamentale ed è indicato con Ω, mentre il singolo esito è detto eventoelementare e viene indicato con ω:

Ω = ω1, ω2, ... ,a seconda dell’esperimento o fenomeno che viene rappresentato, lo spazio fondamentale Ω può contenere unnumero finito o infinito di eventi elementari. Infine qualunque sottoinsieme di Ω si definisce evento.

Esempio 1.1. Si osservi il numero risultante dal lancio di un dado. Definire Ω e gli eventi

E = numero pari ; F = numero non maggiore di 4 ;

G = numero non minore di 5 ; H = numero multiplo di 3 .

Si ha:Ω = 1, 2, 3, 4, 5, 6 ; E = 2, 4, 6 ; F = 1, 2, 3, 4 ; G = 5, 6 ; H = 3, 6 .

Esempio 1.2. Da un mazzo di 40 carte napoletane se ne estrae una. I semi sono: B, C, D, S. Individuare gli eventi:

I = asso ; L = carta minore di 3 che non abbia seme C ; M = carta del seme D .

Si ha:

I = 1B, 1C, 1D, 1S ;L = 1B, 1D, 1S, 2B, 2D, 2S ;M = 1D, 2D, 3D, 4D, 5D, 6D, 7D, 8D, 9D, 10D .

I concetti di esperimento o fenomeno prima considerati possono essere descritti da un modello formale dettoesperimento casuale. L’esperimento casuale si definisce come una procedura di osservazione di uno solodegli elementi di uno spazio fondamentale Ω tale che:

M. Di Marzio 1 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 9: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1.1. Esperimenti casuali

1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza;

2) l’esperimento casuale è replicabile nelle stesse condizioni anche infinite volte.

L’eperimento è definito casuale e non deterministico proprio perchè, sebbene ripetuto nelle identiche con-dizioni, esso fornisce di volta in volta esiti differenti che sono dettati dal caso. Una singola replica dell’esper-imento è detta prova. In statistica il concetto di esperimento casuale serve a formalizzare la rilevazione di uncarattere statistico. In questo caso Ω è l’insieme delle possibili modalità del carattere. La prova dell’esperi-mento è l’estrazione di una unità dalla popolazione e la rilevazione sulla stessa della modalità del carattere.Infine la modalità osservata costituisce l’esito.

Esempio 1.3. Rileviamo il contenuto di cellulosa di 100 sacchetti ad alta resistenza estratti dalla massa prodottadal nostro impianto durante la mattinata. Il carattere statistico è il contenuto di cellulosa 1, e le 100 misurazioni sonoaltrettante prove di un esperimento casuale.

Affinché in una prova si verifichi un evento è necessario che l’evento elementare che risulterà sia contenutonell’ evento stesso. Allora Ω si verifica ad ogni prova poiché è l’insieme di tutti i possibili esiti. In quantotale, Ω è anche detto evento certo.

Esempio 1.4. Con riferimento all’esempio 1.1, nella tavola seguente sono riportati gli eventi che si verificano incorrispondenza di ogni evento elementare.

ω Eventi

1 Ω, F

2 Ω, E, F

3 Ω, F , H

4 Ω, E, F

5 Ω, G

6 Ω, E, G, H

Consideriamo due prove di un esperimento casuale con spazio fondamentale Ω1. L’esito di tale esperimentoripetuto è dato da una coppia di valori, e lo spazio fondamentale, chiamato spazio prodotto, è costituitoda tutte le possibili coppie di elementi di Ω1, cioè il prodotto cartesiano (sez. A.7) tra Ω1 e se stesso:

Ω = Ω1 × Ω1 = (ωi, ωj) : ωi ∈ Ω1, ωj ∈ Ω1.

Esempio 1.5. Si consideri l’esperimento casuale ‘lancio di due dadi’. Elencare gli elementi dello spazio fondamentaleΩ.

Ω = 1, 2, 3, 4, 5, 6 × 1, 2, 3, 4, 5, 6= (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6),

(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6),

(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6).

In generale, per k ripetizioni dell’esperimento abbiamo:

Ω =

k fattori︷ ︸︸ ︷Ω1 × Ω1 × ...× Ω1 = (ω1, ω2, ..., ωk) : ωi ∈ Ω1, ∀ i ∈ 1, 2, ..., k.

Esempio 1.6. Dalla fornitura di lampadine appena consegnataci scegliamo a caso un elemento. Si indichi l’evento‘lampadina difettosa’ con D, e l’evento contrario con N. Elencare gli elementi dello spazio fondamentale Ω relativoall’esperimento casuale ‘estrazione di 3 lampadine’.

Ω = D,N × D,N × D,N= DDD,NDD,DND,DDN,NND,DNN,NDN,NNN .

Si può immaginare anche che i singoli esperimenti siano tra loro differenti, cioè si possono eseguire consecuti-vamente n esperimenti casuali ognuno con uno specifico spazio fondamentale Ωi con i = 1, 2, ..., n. La n-upladi esiti è ancora elemento di uno spazio fondamentale prodotto che si indica come:

Ω = Ω1 × Ω2 × ...× Ωn = (ω1, ω2, ..., ωn) : ωi ∈ Ωi, ∀ i ∈ 1, 2, ..., n .1di cui ovviamente conosciamo l’intervallo delle possibili modalità che in questo caso costituisce lo spazio fondamentale Ω.

Primi elementi di inferenza statistica (ed. maggio 2012) 2 M. Di Marzio

Page 10: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1. PROBABILITÀ

1.2 Algebra degli eventiPoichè un evento è un insieme di eventi elementari, le relazioni tra eventi possono essere descritte per mezzodi operazioni logiche tra insiemi. Dato un generico spazio fondamentale Ω e i suoi sottoinsiemi E1, E2, ...,definiamo le seguenti operazioni (o relazioni) logiche:

1. Inclusione Un evento E1 è incluso in un evento E2, cioè E1 ⊂ E2, se tutti gli eventi elementari in E1

sono anche esiti elementari in E2; si dice anche che E1 implica E2.

2. Uguaglianza Gli eventi E1 e E2 sono uguali, cioè E1 = E2, se E1 ⊂ E2 e E2 ⊂ E1.

3. Negazione (o complemento) Consiste di eventi elementari non appartenenti all’evento che vienenegato: ω ∈ E1 se e solo se ω /∈ E1. Si dice anche che E1 è il complemento di E1.

4. Unione Consiste di eventi elementari che appartengono ad almeno uno dei k eventi uniti: ω ∈∪k

i=1 Ei

se esiste almeno un indice i ∈ 1, 2, ..., k tale che ω ∈ Ei.

5. Intersezione Consiste di eventi elementari che appartengono a tutti i k eventi intersecati: ω ∈∩k

i=1 Ei

se ω ∈ Ei ∀ i ∈ 1, 2, ..., k. Si noti che spesso per l’intersezione vengono usate differenti notazioni; adesempio, E1 ∩ E2, può trovarsi indicato anche come E1E2 oppure E1, E2.

6. Differenza La differenza tra due eventi E1 e E2 consiste di eventi elementari appartenenti a E1 chenon sono in E2: ω ∈ (E1 − E2) se e solo se ω ∈ (E1 ∩E2).

Un evento particolare è il cosiddetto evento impossibile, definito come la negazione di Ω e indicato con ∅.Poichè ∅ = Ω, l’evento impossibile non contiene alcun evento elementare, così, qualsiasi esito risulterà, maisi verificherà ∅, da cui il nome. Per E ⊂ Ω, si ha

E ∩ ∅ = ∅, E ∪ ∅ = E, E = Ω− E, E ∩ E = ∅,

E ∩ Ω = E, E ∪ Ω = Ω, Ω = E ∪E, E = E.

Dati gli eventi E1, E2 e E3 appartenenti a Ω, le operazioni di intersezione, unione e negazione soddisfano leseguenti leggi.

Leggi commutative:E1 ∩E2 = E2 ∩E1, E1 ∪ E2 = E2 ∪ E1.

Leggi associative:

E1 ∪ (E2 ∪ E3) = (E1 ∪E2) ∪E3, E1 ∩ (E2 ∩ E3) = (E1 ∩ E2) ∩E3.

Leggi distributive:

E1 ∪ (E2 ∩E3) = (E1 ∪E2) ∩ (E1 ∪ E3), E1 ∩ (E2 ∪ E3) = (E1 ∩ E2) ∪ (E1 ∩E3).

Prima legge di De Morgan:E1 ∩E2 = E1 ∪E2.

Seconda legge di De Morgan:E1 ∪E2 = E1 ∩E2.

Nella figura 1.2 possiamo osservare una rappresentazione delle leggi di De Morgan tramite diagrammi diVenn. Se si considera tutta la parte scura si evince la prima legge, mentre se si considera solo la parte aquadretti si evince la seconda legge.Due eventi E1 e E2 si dicono incompatibili se E1 ∩ E2 = ∅. Una classe importante di eventi tra loroincompatibili è rappresentato dagli eventi elementari ω1, ω2, ... di un esperimento casuale.Una classe di sottoinsiemi E1, E2, ..., Ek dell’insieme A è detta partizione di A se

k∪i=1

Ei = A e Ei ∩ Ej = ∅ ∀ i = j.

La figura 1.1 contiene esempi di relazioni tra eventi rappresentate con diagrammi di Venn.Nella tabella 1.1 riassumiamo alcuni interessanti casi della corrispondenza tra la terminologia della teoriadegli insiemi, quella della probabilità e quella del mondo reale da noi descritto come esperimento casuale.

M. Di Marzio 3 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 11: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1.2. Algebra degli eventi

Figura 1.1: Alcune operazioni tra insiemi rappresentate attraverso diagrammi di Venn.

B

B= Α B=AA= B=

A

Ω

Figura 1.2: Leggi di De Morgan tramite diagrammi di Venn.

Teoria degli insiemi Teoria della probabilità Esperimento casualeInsieme Ω Evento certo Tutti gli esitiω elemento di Ω, ω ∈ Ω Evento elementare Singolo esitoInsieme ∅ Evento impossibile Nessun esitoE sottoinsieme di Ω, E ⊂ Ω Evento Insieme di esitiE1 contenuto in E2, E1 ⊂ E2 E1 implica E2 Se E1 accade, anche E2 accadeNegazione dell’insieme E, E Evento contrario ad E E non accadeIntersezione di n insiemi,

∩ni=1 Ei Intersezione di n eventi E1, E2, ..., En accadono insieme

Unione di n insiemi,∪n

i=1 Ei Unione di eventi Almeno uno tra E1, E2, ..., En accadeDifferenza tra due insiemi, E1 − E2 Differenza tra eventi E1 accade e E2 non accade

Tabella 1.1: Insiemi, probabilità ed esperimenti casuali.

Primi elementi di inferenza statistica (ed. maggio 2012) 4 M. Di Marzio

Page 12: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1. PROBABILITÀ

Esempio 1.7. Una linea produttiva industriale viene interrotta. Due eventi circa la durata del fermo sono: A =almeno 3 giorni e B = meno di 7 giorni. Descrivere: a) il complemento di A; b) l’evento intersezione tra A e B; c)l’evento unione tra A e B; d) A e B sono incompatibili? e) A e B sono collettivamente esaustivi? f) Quanto vale(A ∩B) ∪ (A ∩B)? g) Quanto vale A ∪ (A ∩B)? Di seguito le risposte.a) A = non più di 2 giorni; b) A ∩ B = da 3 a 6 giorni; c) A ∪ B = un qualunque numero di giorni; d) no; e) si; f)B; g) A ∪B.

1.3 Probabilità e sue concezioniSi consideri una prova di un generico esperimento casuale con spazio fondamentale Ω. Dato un evento E ⊂ Ωsi definisce probabilità di E, e la si indica con P(E), una misura del grado di fiducia riposto nel verificarsidi E. Ma come assegnare le probabilità agli eventi? La risposta è complessa e spesso non definitiva. Sonostate elabrate diverse concezioni di probabilità negli ultimi secoli. Purtroppo spesso una data concezionenon è applicabile, e diverse concezioni portano a valutazioni diverse. Così bisogna ben ponderare la naturadell’esperimento casuale per capire quale concezione applicare. Di seguito riportiamo due tra le concezionipiù importanti, quella classica e quella frequentista.Se si sa che gli esiti hanno la stessa probabilità di verificarsi e si conoscono tutti, allora P(E) è data dalrapporto tra il numero di eventi elementari favorevoli e il numero di eventi elementari possibili:

P(E) =numero di eventi elementari favorevolinumero di eventi elementari possibili

=♯E

♯Ω,

dove ♯A indica la cardinalità di A. Questa concezione è detta classica. I limiti di questa concezione sono neldifetto logico per cui si usa il concetto nella definizione del concetto stesso, infatti si dice “hanno la stessaprobabilità...”, e inoltre nella scarsa applicabilità poichè, se si esclude l’ambito dei giochi di sorte, difficilmentel’equiprobabilità degli eventi elementari risulta plausibile.

Esempio 1.8. Con riferimento all’esempio 1.1, gli eventi elementari sono equiprobabili, così possiamo applicare ladefinizione classica di probabilità. Si ottiene

P(Ω) =1 + 1 + 1 + 1 + 1 + 1

6; P(E) =

1 + 1 + 1

6; P(F ) =

1 + 1 + 1 + 1

6;

P(G) =1 + 1

6; P(H) =

1 + 1

6.

Esempio 1.9. In una stanza sono presenti venti persone di cui cinque sono fumatori. Si scelgono casualmente treindividui. Qual è la probabilità che il primo e il secondo siano fumatori mentre il terzo non lo sia?Poniamo

Fi = l’i-esimo individuo è un fumatore, per i = 1, 2, 3.

Lo spazio fondamentale di questo esperimento ripetuto è dato da tutte le terne possibili estraibili senza reimmissionecioè Ω = Ω1×Ω2×Ω3 dove Ωi è lo spazio fondamentale della prova i-esima. Poichè gli individui hanno tutti la stessaprobabilità di essere estratti, le terne sono equiprobabili, e di conseguenza possiamo usare la formulazione classica diprobabilità. Così calcoleremo il rapporto tra il numero delle terne favorevoli all’evento F1, F2, F3 e il numero delleterne possibili. Il numero delle terne favorevoli è pari a 5× 4× 15, mentre il numero delle terne possibili è dato dallepermutazioni di 20 oggetti presi tre alla volta. La probabilità cercata è allora

P(F1, F2, F3) =5× 4× 15

20× 19× 18.

In molti casi un esperimento si verifica ripetutamente nelle stesse condizioni, ad esempio n volte. Così i datidel passato rendono disponibile la frequenza assoluta del verificarsi di un evento E che qui indichiamo connE . La concezione frequentista adotta come approssimazione di P(E) la frequenza relativa di E, precisandoche più prove ci sono state, cioè più alto è il denominatore n della frequenza relativa, meglio la frequenzarelativa approssima P(E). Purtroppo in questa concezione P(E) non è conoscibile poiché corrisponde allafrequenza ottenuta dopo aver effettuato infinite prove, formalmente:

P(E) = limn→∞

nE

n.

Rispetto alla concezione classica questo approccio presenta i seguenti vantaggi: la conoscenza di tutti gli esitipossibili non è richiesta, né è necessaria l’ipotesi di equiprobabilità. Purtroppo anche l’approccio frequentistasoffre di limiti di applicabilità. Basti pensare che spesso si è interessati a probabilità di eventi non ripetibilinelle medesime condizioni.

M. Di Marzio 5 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 13: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1.4. Assiomi della probabilità

Esempio 1.10. Abbiamo ripetuto 1000 volte il lancio di una moneta bilanciata e osservato la frequenza relativadell’esito ‘Testa’. La figura 1.3 rappresenta l’andamento di tale frequenza relativa all’aumentare del numero delleprove. Questi dati costituiscono una chiara verifica empirica della tendenza della frequenza relativa alla probabilità,che sappiamo essere pari a 0.5.

0 200 400 600 800 10000.4

0.5

0.6

0.7

0.8

0.9

1

Numero prove

Freq

uenz

a re

lativ

a

Figura 1.3: Andamento della frequenza relativa di teste su 1000 lanci di una moneta.

1.4 Assiomi della probabilitàQualunque sia la concezione di probabilità adottata, è possibile definire la probabilità come una funzione realeche rispetta certi assiomi verificati da ogni concezione. Tale approccio permette una trattazione matematicadella probabilità esclusivamente basata sugli assiomi e valida per ogni concezione. Segue la definizioneassiomatica di probabilità.Dato uno spazio Ω, una funzione P che associa un numero reale ad ogni sottoinsieme di Ω è detta probabilitàse soddisfa i seguenti assiomi:

1) P(Ω) = 1 ;

2) P(E) ≥ 0 ;

3) P(E1 ∪ E2) = P(E1) + P(E2) se E1 ∩ E2 = ∅ ;

dove E, E1 e E2 sono sottoinsiemi di Ω.Una rapida riflessione suggerisce che i tre assiomi elementari sono rispettati sia dalla concezione classica chedalla frequentista.Il terzo assioma ci fornisce la regola per ottenere la probabilità di un qualsiasi evento E ⊂ Ω. Infatti essendogli eventi elementari incompatibili si ha

P(E) =∑

j: ωj∈E

P(ωj),

dove la sommatoria è estesa a tutti gli eventi elementari contenuti in E. Così la teoria della probabilitàsviluppata a partire dagli assiomi fornisce le regole per calcolare la probabilità di un qualsiasi sottoinsiemedi Ω quando gli eventi elementari hanno già avuta assegnata una probabilità secondo una data concezione.

Esempio 1.11. Lanciamo un dado di cui non sappiamo se sia regolare. La concezione classica fornisce le seguentiprobabilità

P(2) = P(4) = P(6) =1

6mentre supponiamo che la concezione frequentista sostenga che

P(2) =1

6; P(4) =

2

6; P(6) =

3

6.

Si osservi che le due concezioni attribuiscono probabilità differenti ai singoli esiti.Ora consideriamo l’evento ‘numero pari’. La teoria assiomatica fornisce una regola di calcolo della probabilità di uscitadel numero pari valida per ogni concezione; in particolare, il terzo assioma impone che

P(numero pari) = P(2) + P(4) + P(6)

Usando gli assiomi è facile dimostrare le seguenti proprietà:

i) P(∅) = 0 ;

Primi elementi di inferenza statistica (ed. maggio 2012) 6 M. Di Marzio

Page 14: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1. PROBABILITÀ

=

Ω

A

B E

E =

E=

A=B=

Figura 1.4: Riduzione dello spazio fondamentale per effetto del verificarsi di A (risp. B).

ii) P(E) = 1− P(E) ;

iii) 0 ≤ P(E) ≤ 1 ;

iv) P(E1 ∪ E2) = P(E1) + P(E2)− P(E1 ∩ E2) (Teorema delle probabilità totali).

Il teorema delle probabilità totali coincide con il terzo assioma se gli eventi sono incompatibili, essendo inquesto caso P(E1 ∩E2) = P(∅) = 0.

Esempio 1.12. Un ristorante ha rilevato che: il 75% dei clienti richiede un antipasto (evento A), il 50% richiedeun secondo (evento S), il 40% li richiede entrambi. Calcoliamo la probabilità che un cliente richieda almeno uno traantipasto e secondo. Anzitutto, applicando la concezione frequentista di probabilità, abbiamo che

P(A) = 0.75 ; P(S) = 0.50 ; P(A ∩ S) = 0.40 .

Applicando il teorema delle probabilità totali abbiamo

P(A ∪ S) = P(A) + P(S)− P(A ∩ S) = 0.75 + 0.50− 0.40 = 0.85.

1.5 Probabilità condizionata e indipendenzaDati due eventi E1 e E2 sottoinsiemi di Ω, se P(E1) > 0 ci si può chiedere qual è la probabilità di E2 sapendoche si è verificato E1. Questa probabilità è detta condizionata ed è indicata con P(E2|E1). Per definizione

P(E2|E1) =P(E2 ∩ E1)

P(E1).

Tale rapporto è interpretabile come segue. Poiché sappiamo che l’esito dell’esperimento è contenuto in E1,per il calcolo della probabilità di E2 non tutti gli eventi elementari di Ω sono da considerarsi possibili, masolo quelli in E1, così come non tutti gli eventi elementari in E2 sono casi favorevoli ma solo quelli in E2∩E1.

Esempio 1.13. Nella figura 1.4 si può notare che una volta verificatosi l’evento A (risp. B) i casi favorevoli per ilverificarsi di E si riducono a quelli compresi in A ∩ E (risp. in B ∩ E), mentre i casi possibili sono contenuti in A(risp. in B).

Quindi il condizionamento opera una riduzione dello spazio fondamentale: esso non è più Ω ma E1. Ovvia-mente ogni evento è condizionato al proprio spazio fondamentale, infatti per ogni evento E in Ω si ha

P(E) = P(E|Ω) = P(E ∩ Ω)/P(Ω) = P(E)/1 ;

inoltre P(E|E) = 1 per ogni E ⊂ Ω. Dalla probabilità condizionata si evince il teorema delle probabilitàcomposte:

P(E1 ∩ E2) = P(E1)P(E2|E1),

come si vede, la probabilità di una intersezione è calcolata in base alle probabilità dei singoli eventi. Per lalegge commutativa P(E1 ∩ E2) = P(E2 ∩E1), così

P(E1 ∩ E2) = P(E1)P(E2|E1)

= P(E2 ∩E1)

= P(E2)P(E1|E2).

M. Di Marzio 7 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 15: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1.5. Probabilità condizionata e indipendenza

Generalizzando, dati gli eventi E1, E2, ..., En in Ω, se P(E1 ∩ E2 ∩ ... ∩ En−1) > 0

P(E1 ∩E2 ∩ ... ∩ En) = P(E1)P(E2|E1)...P(En|E1 ∩ E2 ∩ ... ∩En−1).

Esempio 1.14. Per gli eventi E1 ed E2, si possono descrivere le probabilità congiunte e condizionate per mezzo diuna tabella a doppia entrata del tipo seguente:

E1 E1

E2 P(E1 ∩ E2) P(E1 ∩ E2) P(E2)

E2 P(E1 ∩ E2) P(E1 ∩ E2) P(E2)

P(E1) P(E1) 1

tale struttura è analoga a una distribuzione statistica doppia dove ogni carattere ha due modalità e agli incroci sonoposte le frequenze relative. In effetti, la distribuzione statistica doppia ci descrive quanto accaduto in passato. Circa ilfuturo, ci possiamo chiedere la probabilità di una modalità di un dato carattere (probabilità marginali) o una coppia dimodalità dei due caratteri (probabilità congiunte). In tal caso interpretiamo le frequenze relative come approssimazionidelle probabilità (concezione frequentista). Ovviamente la tabella a doppia entrata può essere costruita anche percaratteri con più di due modalità. Nella suindicata tabella le probabilità marginali sono:

P(E1), P(E1), P(E2), P(E2) ;

le probabilità congiunte sono:

P(E1 ∩ E2), P(E1 ∩ E2), P(E1 ∩ E2), P(E1 ∩ E2) ;

infine le probabilità condizionate sono:

P(E2|E1), P(E2|E1), P(E2|E1), P(E2|E1),

P(E1|E2), P(E1|E2), P(E1|E2), P(E1|E2).

Dati due eventi E1 e E2 sottoinsiemi di Ω, si dirà che essi sono indipendenti se e solo se

P(E2 ∩E1) = P(E2)P(E1),

o, in maniera equivalente, se e solo seP(E2|E1) = P(E2),

cioè il verificarsi di un evento non cambia la probabilità di verificarsi dell’altro. Questa formula esplicita chese c’è indipendenza il teorema delle probabilità composte si riduce alla condizione di indipendenza.Generalizzando, se gli eventi E1, E2, ..., En sono a due a due indipendenti, allora

P(E1 ∩ E2 ∩ ... ∩En) =

n∏i=1

P(Ei).

Esempio 1.15. Consideriamo il lancio di un dado. Definiamo i seguenti eventi:

A = Numero pari ; B = Numero maggiore o uguale a 4 ; C = Numero maggiore di 4.

Stabiliamo se c’è indipendenza tra gli eventi A e B e tra gli eventi A e C. Dobbiamo calcolare quanto vale P(A|B):

P(A|B) =P(A ∩B)

P(B)=

P(4, 6)P(4, 5, 6) =

2/6

3/6=

2

3.

Come si vede, P(A|B) = P(A) = 1/2, cioè i due eventi sono dipendenti. Va segnalato che il verificarsi B ha ridottolo spazio campionario da 1, 2, 3, 4, 5, 6 a 4, 5, 6.Per stabilire se gli eventi A e C sono indipendenti, al solito, calcoliamo P(A|C) per poi confrontarlo con P(A):

P(A|C) =P(A ∩ C)

P(C)=

P(6)P(5, 6) =

1/6

2/6=

1

2.

Risulta P(A|C) = P(A), cioè i due eventi sono indipendenti poiché la riduzione dello spazio campionario ha lasciatoinalterata la probabilità di A.

Primi elementi di inferenza statistica (ed. maggio 2012) 8 M. Di Marzio

Page 16: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1. PROBABILITÀ

Incompatibilità Indipendenza

Definizione E1 ∩ E2 = ∅ P(E1 ∩ E2) = P(E1)P(E2)

Relazione tra eventi tra probabilità

Rappresentazione su diagrammi di Venn non si rappresenta

Conseguenza su P(E1 ∪ E2) su P(E1 ∩ E2)

Tabella 1.2: Incompatibilità ed indipendenza.

Essendo molto diffusa una certa confusione tra i concetti di incompatibilità e indipendenza tra gli eventi, èopportuno riportarne schematicamente le differenze nella tabella 1.2.

Infine si può facilmente dimostrare che due eventi che hanno probabilità positiva non possono essere contem-poraneamente incompatibili e indipendenti. Infatti se sono indipendenti la probabilità della loro intersezioneè data dal prodotto di due numeri positivi e quindi è un numero positivo. D’altro canto se sono incompat-ibili la probabilità della loro intersezione deve essere nulla. Se due eventi non sono indipendenti si diconodipendenti. Due eventi dipendenti E1 e E2 si dicono positivamente correlati se

P(E1) < P(E1|E2) ,

negativamente correlati seP(E1) > P(E1|E2) .

Oltre che tra eventi appartenenti allo spazio fondamentale di un singolo esperimento casuale, il concetto diindipendenza esiste anche tra esperimenti casuali come segue. Dati n esperimenti casuali, diremo che essisono mutuamente indipendenti se

P(A1 ∩A2 ∩ ... ∩An) =n∏

i=1

P(Ai)

Dove Ai è il generico evento appartenente allo spazio fondamentale Ωi associato all’i-esimo esperimentocasuale, e A1 ∩A2 ∩ ... ∩An è un elemento dello spazio fondamentale prodotto Ω = Ω1 × Ω2 × ...× Ωn (sez.1.1).

Esempio 1.16. Consideriamo l’esperimento casuale composto dai seguenti due: 1) osservare la difettosità unmanufatto e 2) osservare il sesso di un dipendente. Il manufatto può essere difettoso o non difettoso, per cuiΩ1 = D,N, mentre il dipendente può essere maschio o femmina, per cui Ω2 = M,F. Si assuma inoltre cheP(D) = 0.6 e P(M) = 0.7 L’esperimento composto ha il seguente spazio campionario prodotto Ω = Ω1 × Ω2 =(D,M), (D,F ), (N,M), (N,F ). Si dirà che i due esperimenti sono indipendenti se e solo se:

P(D,M) = P(D)P(M) = 0.42 ; P(D,F ) = 0.18 ; P(N,M) = 0.28 ; P(N,F ) = 0.12 .

1.6 Proprietà degli eventi indipendentiL’indipendenza ha un certo numero di proprietà, le più importanti delle quali sono di seguito riportate.

1) Simmetria Se E1 è indipendente da E2, allora anche E2 è indipendente da E1. È facile dimostrarequesta proprietà ricordando che P(E2 ∩ E1) = P(E1 ∩E2) e quindi che

P(E2)P(E1|E2) = P(E1)P(E2|E1),

applicando la definizione di indipendenza P(E1|E2) = P(E1) si ha:

P(E2)P(E1) = P(E1)P(E2|E1),

da cui si ricava P(E2) = P(E2|E1), cioè E2 è indipendente da E1.

2) Indipendenza tra i complementi Se E1 e E2 sono indipendenti, lo sono anche E1 e E2. Infattidire che la probabilità del verificarsi di E1 non cambia al verificarsi di E2 è esattamente lo stesso chedire che essa non cambia al non verificarsi di E2. Sfruttando la simmetria, ricaviamo anche che E1 eindipendente da E2.

M. Di Marzio 9 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 17: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1.7. Formula di Bayes

3) Indipendenza dei complementi Se E1 e E2 sono indipendenti, lo sono anche E1 e E2 . Infatti perla seconda legge di De Morgan

P(E1 ∩ E2) = P(E1 ∪E2),

ora applicando il teorema delle probabilità totali e ricordando che E1 e E2 sono indipendenti, si ottiene

P(E1 ∪ E2) = 1− P(E1 ∪ E2)

= 1− (P(E1) + P(E2)− P(E1 ∩E2))

= 1− P(E1)− P(E2) + P(E1)P(E2)

= (1− P(E1))(1− P(E2))

= P(E1)P(E2).

InfineP(E1 ∩ E2) = P(E1)P(E2).

4) Indipendenza di un evento da se stesso Affinché E sia indipendente da se stesso si deve verificareche

P(E ∩E) = P(E)P(E),

cioé, essendo E ∩ E = E, si deve avere P(E) = P(E)P(E). Ma ciò è falso se 0 < P(E) < 1, infatti inquesto caso P(E) < P(E)P(E) e quindi in generale esiste sempre dipendenza tra un evento e se stesso.Comunque due eventi fanno eccezione, nel senso di essere indipendenti da se stessi. Essi sono l’eventoimpossibile e l’evento certo. Infatti per entrambi si ha

P(∅) = P(∅)P(∅) = 0 e P(Ω) = P(Ω)P(Ω) = 1.

1.7 Formula di Bayes

Sia la classe di k insiemi C1, C2, ..., Ck una partizione dello spazio Ω, e sia E un sottoinsieme non vuoto diΩ. Applicando la proprietà distributiva si ottiene:

E = E ∩ Ω

= E ∩ (C1 ∪ C2 ∪ ... ∪ Ck)

= (E ∩ C1) ∪ (E ∩ C2) ∪ ... ∪ (E ∩ Ck)

=k∪

i=1

(E ∩ Ci).

Così la partizione C1, C2, ..., Ck di Ω induce la partizione E ∩ C1, E ∩ C2, ..., E ∩ Ck di E.

Esempio 1.17. Nella figura 1.5 la partizione A∩E,B∩E,C∩E, dell’evento E è indotta dalla partizione A,B,Cdello spazio fondamentale Ω.

E =A

ΩE =C

E =BE=

C=

B=

A=

Figura 1.5: Scomposizione di E indotta dalla partizione A,B,C.

Primi elementi di inferenza statistica (ed. maggio 2012) 10 M. Di Marzio

Page 18: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

1. PROBABILITÀ

Essendo gli eventi C1, C2, ..., Ck incompatibili, anche gli insiemi (E ∩Ci), i = 1, 2, ..., k lo sono, per cui,appellandosi al terzo assioma della probabilità (si dice anche ‘al teorema delle probabilità totali per eventiincompatibili’) si ottiene:

P(E) = P(E ∩ C1) + P(E ∩ C2) + ...+ P(E ∩ Ck)

=k∑

i=1

P(E ∩ Ci) ;

ma dal teorema delle probabilità composte abbiamo che P(E ∩Ci) = P(Ci)P(E|Ci), per cui P(E) può esserescritto come somma di probabilità condizionate:

P(E) = P(C1)P(E|C1) + P(C2)P(E|C2) + ...+ P(Ck)P(E|Ck)

=k∑

i=1

P(Ci)P(E|Ci).

Dato un qualsiasi elemento Ch della partizione, e supponendo che P(E) > 0, la formula di Bayes esprimetramite le espressioni finora trovate la probabilità di Ch dato E:

P(Ch|E) =P(Ch ∩ E)

P(E)=

P(Ch)P(E|Ch)∑ki=1 P(Ci)P(E|Ci)

.

Poichè la classe C1, C2, ..., Ck è una partizione, allora si verificherà un solo elemento di essa.Un modo per capire l’importanza della formula di Bayes sta nel connotarla temporalmente tramite un nessodi causalità. Allora sia l’evento E l’effetto di una sola tra un insieme di cause C1, C2, ..., Ch incompatibili ecomplessivamente necessarie (nel senso che una se ne deve verificare). La formula di Bayes risponde al quesito:qual è la probabilità che, essendosi verificato E, sia stata Ch a causarlo? Una tale interpretazione mette inluce la formula di Bayes come tecnica di aggiornamento delle aspettative sulla base di nuova conoscenza. Inquesto senso la probabilità di Ch può essere determinata senza sapere che E si è verificato. Per ovvie ragionitale probabilità è detta probabilità a priori e viene indicata come P(Ch). Quando si viene a sapere che E siè verificato, P(Ch) deve essere aggiornata con una misura della compatibilità tra E e Ch data da P(E|Ch) echiamata verosimiglianza. Così la probabilità a priori viene aggiornata nella probabilità a posteriori P(Ch|E).In termini rigorosi questo può essere osservato riscrivendo la formula di Bayes come

P(Ch|E) = P(Ch)P(E|Ch)

P(E),

ora una buona compatibilità implica che P(E|Ch) > P(E) e quindi un rapporto maggiore di uno che rendela probabilità a posteriori maggiore di quella a priori (e viceversa).

Esempio 1.18. Una compagnia di assicurazione suddivide le persone in due classi: “soggette” e “non soggette”ad incidenti. Le statistiche mostrano che le persone “soggette” (S) hanno probabilità 0.5 di avere un incidente in unanno (I), e le “non soggette” (S) 0.3. Vogliamo conoscere la probabilità che un nuovo assicurato abbia un incidenteentro un anno dalla stipula della polizza sapendo che il 25% della popolazione è soggetta ad incidenti. Poiché

P(S) = 0.25, P(I|S) = 0.5 e P(I|S) = 0.3,

la probabilità cercata è

P(I) = P(S ∩ I) + P(S ∩ I)

= P(S)P(I|S) + P(S)P(I|S)= 0.75× 0.3 + 0.25× 0.5

= 0.35.

Se un nuovo assicurato ha un incidente entro un anno dall’acquisto della polizza, la probabilità che si tratti di unapersona “soggetta” ad incidenti si ottiene ricorrendo alla formula di Bayes:

P(S|I) = P(S)P(I|S)P(I)

=0.25× 0.5

0.35= 0.357 .

M. Di Marzio 11 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 19: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

2Esercizi svolti

Esercizio 2.1. Si consideri un esperimento casuale che consiste nel lanciare tre volte una moneta, e sidetermini lo spazio fondamentale nel caso si osservino:

a) le sequenze di testa (T ) e croce (C);

b) il numero di teste nei tre lanci.

Soluzione a) Abbiamo il seguente spazio fondamentale composto da 8 esiti elementari

Ω = CCC,CCT,CTC, TCC,CTT, TCT, TTC, TTT.

b) Abbiamo il seguente spazio fondamentale composto da 4 esiti elementari

Ω = 0, 1, 2, 3.

Esercizio 2.2. Da un sacchetto di quattro palline contrassegnate da 1 a 4 estraiamo due palline. Si determinilo spazio fondamentale nel caso

a) si reintroduca la prima pallina estratta nell’urna;

b) non si reintroduca la prima pallina estratta nell’urna.

Soluzione a) Abbiamo il seguente spazio fondamentale composto da 16 esiti elementari

Ω =

(1, 1) (1, 2) (1, 3) (1, 4)(2, 1) (2, 2) (2, 3) (2, 4)(3, 1) (3, 2) (3, 3) (3, 4)(4, 1) (4, 2) (4, 3) (4, 4)

.

b) Abbiamo il seguente spazio fondamentale composto da 12 esiti elementari

Ω =

(1, 2)(2, 1)(3, 1)(4, 1)

(1, 3)(2, 3)(3, 2)(4, 2)

(1, 4)(2, 4)(3, 4)(4, 3)

.

Esercizio 2.3. Un esperimento consiste nel lanciare un dado fino a che esca il 6. Si determini lo spaziofondamentale nei seguenti casi

a) si osservino le sequenze dei risultati;

b) si contino i lanci fino a che esca 6.

Soluzione a) Lo spazio campionario è infinito, esso è del seguente tipo:

Ω =

6,(1, 6), (2, 6), (3, 6), (4, 6), (5, 6),(1, 1, 6), (1, 2, 6), (1, 3, 6), (1, 4, 6), (1, 5, 6), ...

;

b) anche in questo caso lo spazio fondamentale è infinito, ed è del tipo seguente:

Ω = 1, 2, 3, 4, 5, 6, 7.... .

Primi elementi di inferenza statistica (ed. maggio 2012) 12 M. Di Marzio

Page 20: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

2. ESERCIZI SVOLTI

Esercizio 2.4. Un concessionario di autoveicoli offre automobili con le seguenti opzioni

a) con o senza airbag;

b) con o senza climatizzatore;

c) con o senza impianto stereo;

d) con tre diversi motori.

Determinare l’insieme di tutte le possibili automobili offerte.

Soluzione L’insieme delle possibili macchine definisce uno spazio prodotto

Ω = Ωa × Ωc × Ωs × Ωm ,

cioè il prodotto cartesiano di quattro spazi fondamentali, dove

Ωa = a, a; Ωc = c, c; Ωs = s, s; Ωm = m1,m2,m3.

La cardinalità di Ω è (2× 2× 2× 3) = 24.

Esercizio 2.5. Si scelga a caso una carta da un mazzo di 52 carte. Definiamo i seguenti eventi:

A = la carta scelta è un asso; B = la carta scelta è di picche.

Determinare se i due eventi sono indipendenti.

Soluzione Controlliamo se P(A ∩B) = P(A)P(B). Ora,

P(A ∩B) = P(la carta scelta è un asso di picche) = 1/52,

eP(A)P(B) = 4/52× 13/52 = 1/52.

Quindi gli eventi sono indipendenti. Notiamo, invece, che A e B non sono incompatibili, e quindi lacompatibilità non implica l’indipendenza.

Esercizio 2.6. Si lancino due monete non truccate, ossia si ritiene che i possibili esiti siano equiprobabili.Definiamo i seguenti eventi:

A = la prima moneta dà croce; B = la seconda moneta dà testa.

Determinare se i due eventi sono indipendenti.

Soluzione Controlliamo se P(A ∩B) = P(A)P(B). Ora,

P(A ∩B) = P(C, T) = 1/4;

inoltreP(A) = P(C, T ∪ C,C) = 1/2 e P(B) = P(T,C ∪ T, T) = 1/2.

Così i due eventi sono indipendenti.

Esercizio 2.7. Si lanciano due dadi non truccati. Definiamo i seguenti eventi:

A = la somma è 6; B = il primo dado dà 4.

Determinare se i due eventi sono indipendenti.

Soluzione Controlliamo se P(A ∩B) = P(A)P(B). Ora,

P(A ∩B) = P(4, 2) = 1/36;

eP(A) = P(1, 5 ∪ 2, 4 ∪ 3, 3 ∪ 4, 2 ∪ 5, 1) = 5/36

eP(B) = 1/6.

Allora i due eventi non sono indipendenti.

M. Di Marzio 13 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 21: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Esercizio 2.8. Si lanciano due dadi non truccati. Definiamo i seguenti eventi:

A = la somma è 7; B = il primo dado dà 4.

Determinare se i due eventi sono indipendenti.

Soluzione I due eventi sono indipendenti. Infatti lo spazio prodotto è [1, ..., 6]×[1, ..., 6]. Esso ha 36 elementi,così per la concezione classica di probabilità si ha

P(A ∩B) = P(4, 3) = 1/36;

e d’altro cantoP(A) = P(1, 6 ∪ 2, 5 ∪ 3, 4 ∪ 4, 3 ∪ 5, 2 ∪ 6, 1) = 6/36

eP(B) = 1/6.

Esercizio 2.9. Una moneta non truccata viene lanciata due volte. Qual è la probabilità che esca testa (A)se al primo lancio è uscita testa (B)?

Soluzione Calcoliamo la seguente probabilità condizionata:

P(A | B) =P(A ∩B)

P(B)=

P(testa in entrambi i lanci)P(testa al primo lancio)

=1/4

1/2= 1/2.

Si può inoltre notare cheP(A | B) = P(A),

così gli eventi sono indipendenti.

Esercizio 2.10. Si calcoli P(A | B) se

a) P(A ∩B) = 0; b) A ⊂ B; c) B ⊂ A.

Soluzione Si ha

P(A | B) =P(A ∩B)

P(B).

Per cui:a) P(A | B) = P(∅)

P(B) = 0.

b) P(A | B) = P(A)P(B) . Poiché se A ⊂ B, allora P(A ∩B) = P(A).

c) P(A | B) = P(B)P(B) = 1. Poiché se A ⊃ B, allora P(A ∩B) = P(B).

Esercizio 2.11. Siano A1, A2, A3 eventi a due a due indipendenti in Ω. Dimostrare che

P(A1 ∪A2 ∪A3) = 1−3∏

i=1

(1− P(Ai)).

Soluzione Applicando la II Legge di De Morgan e considerando l’indipendenza abbiamo:

P(A1 ∪A2 ∪A3) = 1− P(A1 ∪A2 ∪A3)

= 1− P(A1 ∩A2 ∩A3)

= 1− P(A1)P(A2)P(A3)

= 1−3∏

i=1

P(Ai) = 1−3∏

i=1

(1− P(Ai)).

Esercizio 2.12. A uno stadio di un’inchiesta investigativa l’ispettore è convinto al 60% della colpevolezzadi un indagato. Supponiamo ora che l’ispettore acquisisca una nuova prova: l’indagato ha una certa carat-teristica del colpevole. Se il 20% della popolazione possiede tale caratteristica, l’ispettore come modificherà lavalutazione sulla colpevolezza dell’indagato?

Primi elementi di inferenza statistica (ed. maggio 2012) 14 M. Di Marzio

Page 22: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

2. ESERCIZI SVOLTI

Soluzione Definiamo i seguenti eventi:

A = l’indagato è colpevole; B = l’indagato possiede la caratteristica del criminale.

Si ha:

P(A | B) =P(A ∩B)

P(B)=

P(B | A)P(A)P(B | A)P(A) + P(B | A)P(A)

=1× 0.6

1× 0.6 + 0.2× 0.4= 0.882.

Esercizio 2.13. Abbiamo un campione di 400 aziende classificate secondo il capitale sociale e il fatturato. Idati sono:

Fatturato

Capitale sociale < 5000 ≥ 5000

≤ 250 80 30

> 250 90 200

Vogliamo conoscere come sono legate queste due grandezze così da ricostruire alcuni dati mancanti nellanostra ricerca. Definiamo i seguenti eventi:

A = avere un capitale sociale inferiore o uguale a 250,

B = avere un fatturato maggiore o uguale a 5000.

a) Calcolare

P(A), P(A), P(B), P(B), P(A ∩B), P(A ∪B), P(A|B), P(B|A), P(A|B).

b) Verificare se e perché A e B sono incompatibili.

c) Verificare se A e B sono indipendenti.

Soluzione Per utilizzare la tavola introdotta prima dobbiamo calcolare i totali marginali e poi calcolare lefrequenze relative. La tavola con le frequenze marginali sarà:

Fatturato

Capitale sociale < 5000 ≥ 5000

≤ 250(A) 80 30 110

> 250(A) 90 200 290

170 230 400

a) Usando la concezione classica di probabilità: ‘casi favorevoli su casi possibili’ si ottiene:

P(A) =110

400= 0.275; P(A) = 1− 0.275 = 0.725;

P(B) =230

400= 0.575; P(B) = 1− 0.575 = 0.425;

P(A ∩B) =30

400= 0.075;

P(A ∪B) = P(A) + P(B)− P(A ∩B) = 0.275 + 0.575− 0.075 = 0.775;

P(A|B) =P(A ∩B)

P(B)=

30

230= 0.13;

P(B|A) =P(A ∩B)

P(A)=

30

110= 0.273.

P(A|B) = 1− P(A|B) = 1− 0.13 = 0.87;

M. Di Marzio 15 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 23: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

oppure

P(A|B) =P(A ∩B)

P(B)=

200

230= 0.87.

Si possono ottenere i medesimi risultati utilizzando il teorema delle probabilità totali.b) Se A e B sono incompatibili P(A ∪ B) = P(A) + P(B), cioè P(A ∩ B) = 0 ma, come si è visto prima,P(A ∩B) = 0.075, così gli eventi sono compatibili.c) Se A e B sono indipendenti, si ha

P(A | B) = P(A) e P(B | A) = P(B),

maP(A | B) = 0.130 = P(A) = 0.275 e P(B | A) = 0.273 = P(B) = 0.575.

Esercizio 2.14. In una catena di montaggio si eseguono due operazioni in sequenza. L’esito della prima nondipende da quello della seconda. Le probabilità che le operazioni riescano senza difetti sono rispettivamente0.9 e 0.8. Calcolare la probabilità che:

a) nessuna delle due operazioni riesca;

b) almeno una delle due operazioni non riesca;

c) riesca esattamente una delle due.

Soluzione Poniamo:

Ri = l’operazione i -esima riesce; Ri = l’operazione i -esima non riesce.

a) Si deve calcolareP(R1 ∩ R2).

Poiché gli eventi sono indipendenti avremo:

P(R1 ∩ R2) = P(R1)× P(R2)

maP(Ri) = 1− P(Ri),

per cui:P(R1 ∩ R2) = P(R1)× P(R2) = (1− 0.9)× (1− 0.8) = 0.1× 0.2 = 0.02

b) Dobbiamo calcolare la probabilità che non ne riesca almeno una, cioè: o non riesce una, o non riescel’altra, o non riescono entrambe ossia:

P(R1 ∪ R2).

Soluzione 1 Per il teorema delle probabilità totali avremo che:

P(R1 ∪ R2) = P(R1) + P(R2)− P(R1 ∩ R2) = 0.1 + 0.2− 0.02 = 0.28.

Soluzione 2 Si consideri che

R1 ∪ R2 = R1 ∩R2 (I legge di De Morgan)

alloraP(R1 ∪ R2) = 1− P(R1 ∩R2) = 1 − (0.9 × 0.8) = 0.28.

c) Ne riesce solo una, o l’una o l’altra, in simboli:

P(R1 ∪R2)− P(R1 ∩R2).

Soluzione 1 Per il teorema delle probabilità totali scriviamo

P(R1 ∪R2) = P(R1) + P(R2)− P(R1 ∩R2) = 0.9 + 0.8− (0.9× 0.8) = 0.98

per cui la probabilità cercata sarà:

P(R1 ∪R2)− P(R1 ∩R2) = 0.98− (0.9× 0.8) = 0.26.

Primi elementi di inferenza statistica (ed. maggio 2012) 16 M. Di Marzio

Page 24: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

2. ESERCIZI SVOLTI

Soluzione 2 R1 ∪R2 = R1 ∩ R2 (II legge di De Morgan), negando si ottiene:

R1 ∪R2 = R1 ∩ R2

che può essere scritto comeR1 ∪R2 = R1 ∩ R2

allora:P(R1 ∪R2) = 1− P(R1 ∩ R2) = 1− 0.02 = 0.98,

e quindiP(R1 ∪R2)− P(R1 ∩R2) = 0.98− (0.9× 0.8) = 0.26.

Esercizio 2.15. A e B sono tali che

P(A) = 2/7, P(B) = 1/3, P(A ∩ B) = 11/21.

Calcolare:

a) P(A ∪B); b) P(A ∩B); c) P(A ∩B); d) P(A ∪ B); e) P(A ∪ B).

Soluzione a) Sappiamo che P(A ∩ B) = P(A ∪B) per cui P(A ∪B) = 11/21.Ma

P(A ∪B) = P(A ∪B) = 1− P(A ∪B) = 1− 11/21 = 10/21.

b) Per il teorema delle probabilità totali, per cui P(A ∪B) = P(A) + P(B)− P(A ∩B), così

10

21=

2

7+

1

3− P(A ∩B) =

2

7+

1

3− 10

21=

3

21.

c) Poiché(A ∩B) = B − (A ∩B)

alloraP(A ∩B) = P(B)− P(A ∩B) = 1/3− 3/21 = 4/21.

d) Poiché(A ∪ B) = B ∪ (A ∩B) e B ∩ (A ∩B) = ∅,

alloraP(A ∪ B) = P(B) + P(A ∩B) = 2/3 + 3/21 = 17/21.

e) Per il teorema delle probabilità totali si ha:

P(A ∪ B) = P(A) + P(B)− P(A ∩ B)

=

(1− 2

7

)+

(1− 1

3

)−(11

21

)=

5

7+

2

3− 11

21=

18

21.

Esercizio 2.16. Guglielmo e Robin si sfidano al tiro con l’arco. La probabilità che Guglielmo centri ilbersaglio è 0.35, mentre la probabilità che Robin non faccia centro è 0.6. Sapendo che la probabilità chealmeno uno dei due sfidanti centri il bersaglio è pari a 0.75, calcolare la probabilità che entrambi faccianocentro.

Soluzione Definiamo i seguenti due eventi:

G = Guglielmo colpisce il bersaglio; R = Robin colpisce il bersaglio.

In simboli abbiamoP(G) = 0.35; P(R) = 0.6; P(G ∪R) = 0.75.

Dobbiamo calcolare P(G ∩R). Per il teorema delle probabilità totali si ha:

P(G ∪R) = P(G) + P(R)− P(G ∩R)

e in numeri0.75 = 0.35 + (1− 0.6)− P(G ∩R)

da cui:P(G ∩R) = −0.75 + 0.35 + 0.4 = 0.

M. Di Marzio 17 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 25: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Esercizio 2.17. Il direttore marketing di una società che produce telefonini sta analizzando le chance dimercato di un nuovo modello. In precedenza solo il 35% dei telefonini ha avuto successo. Il direttore sainoltre che in precedenza l’ 85% dei telefonini che erano stati di successo sul mercato avevano avuto giudiziopositivo dalla sezione marketing, mentre lo stesso giudizio era stato dato solo al 15% dei telefonini che sisarebbero rivelati fallimentari. Il direttore vuole conoscere la probabilità di successo del nuovo modello sapendoche lo stesso ha avuto giudizio positivo.

Soluzione Siamo quindi di fronte agli eventi:

S = telefonino di successo; S = telefonino non di successo;F = giudizio positivo; F = giudizio negativo.

Ricaviamo subitoP(S) = 0.35; P(S) = 0.65; P(F |S) = 0.85; P(F |S) = 0.15.

Da cui:

P(S|F ) =P(S)P(F |S)

P(S)P(F |S) + P(S)P(F |S)

=0.35× 0.85

0.35× 0.85 + 0.65× 0.15=

0.2975

0.2975 + 0.0975

=0.2975

0.3950= 0.7532.

ChiaramenteP(S|F ) = 1− 0.7532 = 0.2468.

Possiamo concludere che il giudizio dell’esperto è molto importante poiché un telefonino qualsiasi avrà successocon probabilità 0.35 ma se l’esperto si è pronunciato favorevolmente la probabilità di successo sale a 0.7532.

Esercizio 2.18. Una multinazionale gestisce le vendite dei suoi prodotti attraverso tre uffici A, B e C. Ladirezione della multinazionale, al fine di valutare la situazione finanziaria generale della struttura, rileva perciascuno degli uffici la percentuale di vendite regolate attraverso la concessione di crediti e la percentuale dicrediti di fornitura rimasti insoluti. I dati raccolti sono riportati di seguito:

Crediti Crediti insoluti

A 0.4 0.05

B 0.35 0.02

C 0.25 0.03

Sapendo che un cliente della multinazionale non ha adempiuto al pagamento del credito concessogli a frontedi un acquisto effettuato, determinare la probabilità che l’operazione in questione sia stata gestita dall’ufficioA.

Soluzione Gli eventi da considerare per la risoluzione del problema in questione sono:

I = credito insoluto;CA = vendite dell’ufficio A regolate con concessione di crediti;CB = vendite dell’ufficio B regolate con concessione di crediti;CC = vendite dell’ufficio C regolate con concessione di crediti.

Ed è agevole ricavare che:

P(CA) = 0.40; P(CB) = 0.35; P(CC) = 0.25

P(I |CA ) = 0.05; P(I|CB) = 0.02; P(I|CC) = 0.03.

La probabilità che il credito insoluto sia un credito di fornitura concesso dall’ufficio A è dato da:

P(CA|I) =P(CA)P(I|CA)∑i P(Ci)P(I|Ci)

, i = A,B,C

dunque:

P(CA |I ) = 0.40× 0.05

0.40× 0.05 + 0.35× 0.02 + 0.25× 0.03= 0.58.

Primi elementi di inferenza statistica (ed. maggio 2012) 18 M. Di Marzio

Page 26: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3Variabili casuali semplici

Indice3.1 Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Distribuzioni di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3 Famiglie parametriche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.4 Funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.5 Variabili casuali identicamente distribuite . . . . . . . . . . . . . . . . . . . . . . 253.6 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.7 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.8 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.9 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.10 Coefficiente di variazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.11 Disuguaglianza di Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.12 Variabili casuali standardizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.1 Variabili casualiGli esiti di un esperimento casuale possono anche essere costituiti da valori non numerici detti categorie.

Esempio 3.1. Di seguito sono mostrati alcuni esempi di spazi fondamentali composti da categorie:

Ω1 = mediocre, buono, ottimo; Ω2 = verde, giallo, rosso, viola; Ω3 = successo, insuccesso.

Ovviamente gli esperimenti possono essere oggetto di calcolo solo se i relativi spazi fondamentali sono insieminumerici. Così, nel caso contrario, si rende necessaria una preliminare trasformazione numerica delle categorie.Per trasformare in numeri gli esiti usiamo una funzione, detta variabile casuale (v.c.), che associa un numeroreale ad ogni evento elementare ω ∈ Ω. Di solito la v.c. è indicata con una lettera latina maiuscola, ad es.X, mentre un suo valore, detto anche modalità, è indicato in minuscolo, ad es. x. Così scriviamo

X : Ω → R.

Esempio 3.2. Nella tabella che segue sono riassunti i passi per la costruzione di vv.cc. definite su esiti non numerici.

ESPERIMENTO ESITO V.C. MODALITÀ

Ispezione macchina Difettosa (d)Non difettosa (nd) X=

0 se d1 se nd 0, 1

Rilevazione metereologicaSereno (s)

Nuvoloso (n)Pioggia (p)

Y =

1 se s2 se n3 se p

1, 2, 3

M. Di Marzio 19 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 27: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3.1. Variabili casuali

Così i valori della tavola possono essere riassunti con la seguente notazione

X(d) = 0, X(nd) = 1, Y (s) = 1, Y (n) = 2, Y (p) = 3.

Per rendere generale il concetto di v.c., diciamo che anche sugli esiti numerici sono definite vv.cc., solo chein questo caso esse sono funzioni identità, cioè funzioni tali che f(x) = x.

Esempio 3.3. Nella tabella viene riportata la costruzione di una v.c. che descrive un esperimento con esiti quanti-tativi che, evidentemente, è una funzione identità.

ESPERIMENTO ESITO V.C. MODALITÀ

Numero figli 0, 1, 2 X=

0 se 01 se 12 se 2

0, 1, 2

Qui avremoX(0) = 0, X(1) = 1, X(2) = 2.

In generale, data la v.c. X, l’evento X ∈ B definito sull’asse dei reali corrisponde nello spazio fondamentale Ωall’evento ω ∈ Ω : X(ω) ∈ B. Così, definita una v.c. X, lo studio dell’esperimento casuale viene condottonon più sugli esiti ω ma sulle modalità x = X(ω).Ovviamente Due vv. cc. X e Y definite sullo stesso spazio fondamentale Ω si dicono uguali se per ogniω ∈ Ω abbiamo X(ω) = Y (ω).In particolare la conoscenza di come le probabilità sono distribuite tra le modalità equivale a sapere comele probabilità sono distribuite tra gli esiti. Così da ora in avanti un esperimento casuale verrà studiato soloindirettamente, tramite la descrizione dell’associata v.c..Una v.c. X è detta discreta se assume un insieme finito o infinito numerabile di modalità; è detta continuase assume un insieme infinito non numerabile (intervallo continuo) di modalità. Si noti infine che le modalitàsono classificabili come eventi incompatibili poichè chiaramente ad ogni esito dell’evento casuale si verificauna e una sola modalità di una data v. c..

Esempio 3.4. Le vv.cc. dell’esempio 3.2 e 3.3 sono tutte vv.cc. discrete. Esempi di vv.cc. continue sono: il tempo,la temperatura, l’intensità della corrente elettrica.

Il concetto di v.c. è generalizzato da quello di funzione di v.c.. Sia g una funzione definita sui valori di unav.c. X. Ovviamente la funzione di v.c. Y = g(X) è anch’essa una v.c. poichè Y assumerà il genericovalore y a seconda che si verifichino oppure no i valori di X che, una volta trasformati da g, valgano y.

Esempio 3.5. La v.c. X descriva il numero di puntini risultante dal lancio di un dado. Sia data la funzioneg : 1, 2, ..., 6 → 1, 2 tale che

g(x) =

1 se 1 ≤ x < 32 altrimenti.

Y = g(X), è una funzione di v.c..

Due importanti funzioni di v.c. che ricorreranno molto spesso nella trattazione successiva sono la v.c. scartoe la v.c. standardizzata, rispettivamente:

X − µX ;X − µX

σX,

dove µX e σX sono due particolari numeri studiati nelle sezioni 3.8 e 3.9. La seconda funzione è di particolareimportanza, ad essa è dedicata la sezione 3.12. Altre importanti funzioni di v.c. sono le trasformazioni linearee quadratica, rispettivamente:

Y = aX + b ; Y = X2

dove a e b sono due numeri reali.

Primi elementi di inferenza statistica (ed. maggio 2012) 20 M. Di Marzio

Page 28: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3. VARIABILI CASUALI SEMPLICI

3.2 Distribuzioni di probabilitàDato un insieme di numeri reali B, spesso si vuole calcolare P(X ∈ B). Ricordando che le modalità costitu-iscono eventi incompatibili, una strategia ovvia consiste nel sommare le probabilità associate alle modalitàappartenenti a B. Ad esempio, per una v. c. discreta, assumendo che B sia un intervallo [a, b], si scrive∑

i:a≤xi≤b

P(X = xi)

Dove l’espressione i : a ≤ xi ≤ b indica l’insieme degli indici appartenenti alle modalità comprese nell’inter-vallo [a, b]. Così è fondamentale conoscere una funzione (pdf) che specifichi come la probabilità è distributatra le modalità di X.Se X è discreta, la sua funzione di distribuzione di probabilità, detta pdf, è una legge pX che associaai valori di X una probabilità non nulla, cioè un numero appartenente all’intervallo (0, 1]. Così, per esempio,se X ha S modalità, si ha:

pX : xi, i = 1, 2, ..., S → (0, 1],

inoltre la somma delle probabilità distribuite tra le modalità è pari a 1. In formule:

i) pX(xi) = P(X = xi);

ii) pX(x) = 0 se x /∈ xi, i = 1, 2, ..., S;

iii)∑S

i=1 pX(xi) = 1.

La seconda e la terza proprietà sono espressioni della stesso fatto. Infatti dire ‘è impossibile che X assumavalori diversi da quelli compresi nell’insieme xi, i = 1, 2, ..., S’ equivale a dire ‘è certo che X assuma unodei valori compresi nell’insieme xi, i = 1, 2, ..., S’.Se X è continua, la sua pdf, detta funzione di densità di probabilità, è una funzione continua fX cheassocia la probabilità ad intervalli del tipo [a, b] di qualsiasi lunghezza tramite un integrale definito:

P(a ≤ X ≤ b) =

∫ b

a

fX(x)dx,

dove

i) fX(x) > 0 se x appartiene all’insieme delle immagini di X, fX(x) = 0 altrimenti;

ii)∫ +∞−∞ fX(x)dx = 1.

Vediamo ora come l’espressione∫ b

afX(x)dx è simile a quella del caso discreto descritto all’inizio del paragrafo.

Infatti il simbolo∫

indica una sommatoria di una infinità non numerabile di elementi. Inoltre fX(x)dx

rappresenta l’area di un rettangolo dalla base infinitesima dx e altezza fX(x). Allora∫ b

afX(x)dx è una somma

nel continuo delle aree di tali intervallini centrati su x per tutte le x comprese tra a e b ed è rappresentabilecome area sottesa alla curva di fX(x) nell’intervallo [a, b]. In questo senso fX(x)dx approssima la probabilitàdi un intervallino infinitamente stretto centrato su x e l’integrale la probabilità associata all’intervallo [a, b].È importante osservare che nel caso continuo la probabilità che una v.c. assuma un particolare valore è 0;infatti

P(X = a) =

∫ a

a

fX(x)dx = 0.

Pertanto, poichéa ≤ X ≤ b = (a < X < b) ∪ a ∪ b,

si haP(a ≤ X ≤ b) = P(a < X < b) + P(X = a) + P(X = b),

e quindi nel caso continuo

P(X ∈ [a, b]) = P(X ∈ (a, b)) = P(X ∈ [a, b)) = P(X ∈ (a, b]),

cioè la probabilità dell’intervallo non cambia se gli estremi dell’intervallo sono inclusi oppure no.La figura 3.1 riassume la costruzione di vv.cc. discrete e continue e delle relative pdf.

Esempio 3.6. Nel seguito viene riportata la distribuzione di probabilità della v.c. discreta X= numero di teste in 3lanci di moneta bilanciata.

M. Di Marzio 21 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 29: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3.2. Distribuzioni di probabilità

Figura 3.1: Rappesentazioni di vv.cc. discrete e continue con relative pdf.

X 0 1 2 3

pX(x) 1/8 3/8 3/8 1/8

Si ha:pX(−1) = 0; pX(1.5) = 0; pX(4) = 0;

e3∑

x=0

pX(x) =1

8+

3

8+

3

8+

1

8= 1.

Esempio 3.7. La v.c. continua X ha la seguente pdf

fX(x) =

1/4 se 2 ≤ x ≤ 60 altrimenti.

Si ha

P(1 ≤ X ≤ 3) =

∫ 3

1

fX(x)dx =

∫ 2

1

0dx+

∫ 3

2

1

4dx =

x

4

∣∣∣∣32

=3

4− 2

4=

1

4,

e

P(3 ≤ X ≤ 4) =

∫ 4

3

1

4dx =

x

4

∣∣∣∣43

=4

4− 3

4=

1

4.

Inoltre ∫ 6

2

1

4dx =

x

4

∣∣∣∣62

=6

4− 2

4= 1.

Esempio 3.8. Si consideri la v.c. continua X con pdf

fX(x) =

e−x se x ≥ 00 altrimenti.

Si ha quindi

P(0 ≤ X ≤ 10) =

∫ 10

0

e−xdx = −e−x

∣∣∣∣100

= 1− e−10.

e ∫ +∞

0

e−xdx = −e−x

∣∣∣∣+∞

0

= 1.

Circa le pdf di funzioni di v.c., si noti come, ricordando la loro definizione (sez. 3.1), la pdf di una funzione div.c. Y = g(X) resta definita a partire da quella di X. Così a seconda se X sia discreta o continua, scriviamo

P(Y = y) =∑

i:y=g(xi)

pX(xi), P(Y ∈ B) =

∫x:g(x)∈B

fX(x) dx

dove B rappresenta un intervallo di valori di Y .

Esempio 3.9. Di seguito due pdf di funzioni di v.c. discreta.

• Con riferimento all’esempio 3.5 la funzione di v.c. Y = g(X) ha la seguente pdf:

pY (1) = pX(1) + pX(2) = 2/6 e pY (2) = pX(3) + pX(4) + pX(5) + pX(6) = 4/6.

• La v.c. X abbia la seguente pdf

Primi elementi di inferenza statistica (ed. maggio 2012) 22 M. Di Marzio

Page 30: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3. VARIABILI CASUALI SEMPLICI

X −2 1 2 4

pX(x) 1/10 2/10 3/10 4/10

si consideri la funzione reale g(x) = x2. Di seguito la pdf della v.c. Y = g(X).

Y 1 4 16

pY (y) 2/10 4/10 4/10

3.3 Famiglie parametricheSi consideri una v.c. X la cui pdf dipende da un insieme di valori caratteristici θ = (θ1, θ2, ..., θk). Perindicare tale relazione di dipendenza della pdf da θ scriveremo rispettivamente pX(·; θ) e fX(·; θ) per le pdfdi vv.cc. discrete e continue. La quantità θ è detta parametro della pdf. Quindi, indicato con Θ ⊆ Rk lospazio parametrico, cioè l’insieme dei possibili valori che il parametro θ può assumere, la collezione

pX(·, θ) : θ ∈ Θ ⊆ Rk

definisce al variare di θ una famiglia parametrica di pdf nel caso discreto. Analogamente, nel caso continuola famiglia parametrica di pdf sarà definita da

fX(·, θ) : θ ∈ Θ ⊆ Rk.

Esempio 3.10. Sia X una v.c. discreta la cui pdf, che dipende da un numero intero positivo n (scriveremo n ∈ Z+),è data da:

pX(x) = pX(x;n) =

1/n se x = 1, 2, ..., n

0 altrimenti.

Allora, al variare di n, la collezionepX(·;n) : n ∈ Z+,

definisce una famiglia parametrica di pdf.

Esempio 3.11. Sia X una v.c. continua la cui pdf, che dipende da un parametro λ > 0, è definita da:

fX(x) = fX(x;λ) =

λe−λx se x ≥ 0

0 altrimenti.

Allora, al variare di λ, la collezionefX(·;λ) : λ > 0

definisce una famiglia parametrica di pdf.

3.4 Funzioni di ripartizioneSpesso si vuole conoscere la probabilità che la v.c. X assuma un valore inferiore o uguale ad un certo a ∈ R.Tale probabilità viene definita probabilità cumulata. La funzione di ripartizione della v.c. X, indicata con

FX(a) = P(X ≤ a),

offre la probabilità cumulata di X in corrispondenza di ogni a ∈ R.Se la v.c. X è discreta si ha:

FX(a) =∑

i:xi≤a

pX(xi).

Poiché la distribuzione di una v.c. discreta assegna probabilità positiva a modalità tra loro distinte, lafunzione di ripartizione è costante al di fuori di esse e ha discontinuità (salti) in loro corrispondenza; l’entitàdel salto su xi è pari a pX(xi).Se la v.c. è continua, si ha:

FX(a) =

∫ a

−∞fX(x)dx,

e la funzione di ripartizione assume la forma di una funzione continua e ovunque derivabile.Ora possiamo dare una definizione alternativa, e molto semplice, di vv. cc. discrete e continue. Infattidiciamo che una v.c. X è discreta se FX è una funzione a scalini, continua se invece FX è funzione continua.Sia nel caso discreto che in quello continuo la funzione di ripartizione:

M. Di Marzio 23 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 31: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3.4. Funzioni di ripartizione

1. è non decrescente, ossia FX(a) ≤ FX(b) per a < b ;

2. FX(−∞) = limx→−∞ FX(x) = 0 ;

3. FX(+∞) = limx→+∞ FX(x) = 1.

La funzione di ripartizione rende semplice il calcolo di probabilità di eventi che sono intervalli o anche unionio intersezioni di intervalli sulla base delle tre seguenti identità:

i) P(X ≤ a) = FX(a);

ii) P(X > a) = 1− FX(a);

iii) P(a < X ≤ b) = FX(b)− FX(a).

Si aggiunga che, ai fini del calcolo della probabilità dell’evento X ∈ E, è molto più semplice usare le regolequi sopra piuttosto che sommare le singole probabilità associate a tutti valori di X inclusi in E (che, moltospesso, hanno addirittura cardinalità infinita non numerabile).

Esempio 3.12. Di seguito sono riportati i valori della funzione di ripartizione in corrispondenza dei valori assuntidalla v.c. X dell’esempio 3.6

X 0 1 2 3

pX(x) 1/8 3/8 3/8 1/8

FX(x) 1/8 4/8 7/8 1

Quindi si ha:

FX(−1000) = 0; FX(1.5) = 4/8; FX(2.3) = 7/8; FX(10000) = 1.

Per la v.c. X introdotta nell’esempio 3.7 la funzione di ripartizione è invece così definita

FX(a) =

∫ a

2

1

4dx =

a− 2

4,

e risultaFX(−10) = 0; FX(1) = 0; FX(4) = 1/2; FX(50) = 1.

Infine, la funzione di ripartizione della v.c. X introdotta nell’esempio 3.8 è

FX(a) =

∫ a

0

e−xdx = 1− e−a,

e risultaFX(−200) = 0; FX(−1) = 0; FX(4) = 1− e−4; FX(50) = 1− e−50 ≃ 1.

Dalle definizioni di funzione di ripartizione e funzione di densità si evince facilmente che esiste una regola perpassare dalla funzione di ripartizione alla funzione di densità. Distinguiamo i casi discreto e continuo.

⋄ Caso Discreto Se X è una v.c. discreta, e se ne conosce la funzione di ripartizione, la relativa pdf èdata dalla differenza tra due valori successivi della funzione di ripartizione:

pX(xj) = FX(xj)− FX(xj−1)

= [pX(x1) + pX(x2) + ...+ pX(xj)]− [pX(x1) + pX(x2) + ...+ pX(xj−1)].

⋄ Caso Continuo Se X ha pdf continua che assume valori tra a e b, e si conosce la sua funzione diripartizione FX(x) =

∫ x

afX(u)du, allora per il teorema fondamentale del calcolo integrale si ha che la

pdf è uguale alla derivata della funzione di ripartizione, ossia per ogni x ∈ (a, b) risulta

fX(x) = F′X(x).

Primi elementi di inferenza statistica (ed. maggio 2012) 24 M. Di Marzio

Page 32: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3. VARIABILI CASUALI SEMPLICI

Esempio 3.13. Si consideri la v.c. X dell’esempio 3.6. Si ha

pX(2) = FX(2)− FX(1) =7

8− 4

8=

3

8.

Se X è una v.c. continua che assume valori nell’intervallo (2, 8) con funzione di ripartizione

FX(x) =

0 se x ≤ 2

x−26

se 2 < x < 8

1 se x ≥ 8

allora per ogni valore di x appartenente all’intervallo (2, 8),

fX(x) = F′X(x) = 1/6,

mentre, per x ≤ 2 o x ≥ 8 fX(x) = 0. Se X è una v.c. continua che assume valori in [0,+∞) con funzione diripartizione FX(x) = 1− e−x, allora la sua funzione di densità nel punto x = 3 è pari a

fX(3) = F′X(3) = e−3.

3.5 Variabili casuali identicamente distribuiteIn questa sezione introduciamo una fondamentale definizione per la statistica, e cioè quella di vv. cc. identi-camente distribuite. Due vv. cc. X e Y si dicono identicamente distribuite se, dato un qualsiasi insiemedi numeri reali E,

P(X ∈ E) = P(Y ∈ E),

o, in altri termini, se FX(a) = FY (a) per ogni numero reale a. Si noti che il concetto di identica distribuzioneè diverso da quello di uguaglianza, cioè FX = FY non implica affatto che X = Y .

Esempio 3.14. Si abbia come esperimento casuale il lancio di tre monete, e su di esso siano definite le due vv. cc.

X = numero di teste osservate; Y = numero di croci osservate.

Risulta evidente che per ogni k = 0, 1, 2, 3 abbiamo P(X = k) = P(Y = k). Così X e Y sono identicamente distribuite,ma addirittura per nessun elemento ω dello spazio fondamentale Ω abbiamo X(ω) = Y (ω) e quindi non sono uguali.

3.6 ModaCome le distribuzioni statistiche, anche le pdf sono descritte tramite valori sintetici aventi generalmente unasemplice espressione ma un forte contenuto informativo. Tra i principali valori sintetici abbiamo: moda,quantili, valore atteso, varianza, scarto quadratico medio e coefficiente di variazione.Moda, valore atteso e mediana indicano la posizione della distribuzione, costituendone altrettante definizionidi centro. Invece varianza, scarto quadratico medio e coefficiente di variazione indicano in che misura lamassa della probabilità è dispersa intorno al valore atteso.Della moda ci occupiamo in questa sezione. Data una v.c. X, si definisce moda quella modalità in cui pX (o,nel caso continuo, fX), raggiunge il suo massimo. Una pdf è detta multimodale se raggiunge il suo massimoin più di un punto.

3.7 Quantiliq ∈ (0, 1). Data una v.c. X discreta, la generica sua modalità xi per cui FX(xi) = q, si definisce quantiledi ordine q. Si noti quindi che nel caso discreto non esiste sempre un quantile per qualsiasi q ∈ [0, 1]. Seinvece X è una v.c. continua, il quantile di ordine q è definito come quella modalità ξ tale che

FX(ξ) = q .

Esempio 3.15. Il quantile di ordine 0.3 dell’esempio 3.6 è pari a 1; mentre il quantile di ordine 0.3 dell’esempio3.7 vale 3.2; infine il quantile di ordine 0.5 dell’esempio 3.8 è pari a 0.693.

Il quantile ha nomi specifici a seconda della forma di q: se q è espresso in decimi è anche detto decile, se q èespresso in centesimi è detto centile, infine se q è espresso in multipli di 0.25 è detto quartile. Decili, centilie quartili hanno un numero d’ordine.

M. Di Marzio 25 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 33: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3.8. Valore atteso

Esempio 3.16. Il terzo decile è quel numero ξ tale che FX(ξ) = 0.3, oppure il quarantunesimo centile è quel numeroξ tale che FX(ξ) = 0.41, infine il terzo quartile è quel numero ξ tale che FX(ξ) = 0.75.

Il secondo quartile1 si chiama mediana. Quindi la mediana è un numero che ha metà massa alla sua destrae metà massa alla sua sinistra. Ciò giustifica l’uso del termine ‘mediana’.Infine si consideri un numero α ∈ (0, 1), si definisce quantile superiore di ordine α, e si indica con ξα, quelnumero ξ tale che

1− FX(ξ) = α .

La parola superiore indica che l’area α si trova a destra di ξ non a sinistra come accade per il quantile.

Esempio 3.17. Il quantile superiore di ordine 1/8 dell’esempio 3.6 è pari a 2; mentre il quantile superiore di ordine0.3 dell’esempio 3.7 vale 4.8; infine il quantile superiore di ordine 0.5 dell’esempio 3.8 è pari a 0.693.

3.8 Valore attesoIl valore atteso di una v.c. X, indicato con µX o E[X], rappresenta il centro della distribuzione intorno alquale sono dislocati i valori di X. Se la v.c. X è discreta e assume s modalità, il suo valore atteso è dato dallasomma dei prodotti di ciascuna modalità xi per la sua probabilità pX(xi), quindi è una media ponderatadelle modalità, dove i coefficienti di ponderazione sono le probabilità:

µX = E[X] =

s∑i=1

xipX(xi).

Similmente, il valore atteso di una v.c. continua è:

µX = E[X] =

∫ +∞

−∞xfX(x) dx.

Evidentemente l’operatore valore atteso E2 si usa indifferentemente per vv.cc. discrete o continue, cosìpermettendo una trattazione unificata.

Esempio 3.18. Determinare il valore atteso della v.c. X con pdf

fX(x) =

1/12 se 2 < x < 140 altrimenti .

Si ha

E[X] =

∫ 14

2

xfX(x) dx

=

∫ 14

2

x1

12dx =

1

12

x2

2

∣∣∣142

= 8 .

Ricordando quanto detto nelle sezioni precedenti, resta naturalmente definito il valore atteso di una funzionedi v.c. Y = g(X). In particolare E[g(X)] sarà pari a

s∑i=1

g(xi)pX(xi) o

∫ +∞

−∞g(x)fX(x) dx

a seconda che X sia discreta con s modalità, oppure continua.

Esempio 3.19. Calcoliamo il valore atteso della v.c. Y dell’esempio 3.5:

E[Y ] = E[g(X)] =

6∑i=1

g(xi)pX(xi) = 1× 1

6+ 1× 1

6+ 2× 1

6+ 2× 1

6+ 2× 1

6+ 2× 1

6=

10

6.

Segue il calcolo dei valori attesi di alcune trasformazioni lineari di vv.cc..1Anche detto quinto decile oppure cinquantesimo centile.2Il simbolo E deriva dal termine inglese Expectation.

Primi elementi di inferenza statistica (ed. maggio 2012) 26 M. Di Marzio

Page 34: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3. VARIABILI CASUALI SEMPLICI

i) Dato un numero a ∈ R,µa = a;

questo può essere facilmente compreso se si pensa ad a come all’unica realizzazione possibile per unav.c. chiamata costante. Risulta allora evidente che il valore atteso di una costante a non può che esserela costante stessa.

ii) Data una v.c. X, discreta o continua, si consideri la funzione Y = aX, allora:

µY = aµX .

Infatti poichè una costante moltiplicativa a può essere ‘portata fuori’ sia dalla sommatoria sia dall’in-tegrale (a seconda che X sia discreta o continua) (sezz. A.5 e A.14), abbiamo

µY = E[aX] = aE[X] = aµX .

iii) Se invece Y = X + a, allora:µY = µX + a;

dimostriamo tale proprietà per il caso discreto (X ha s modalità), il caso continuo è del tutto simile.Per quanto già appreso circa il valore atteso di una funzione di v.c. abbiamo

E[Y ] = E[g(X)] =

s∑i=1

g(xi)pX(xi) =

s∑i=1

(xi + a)pX(xi)

ovviamente la sommatoria può essere espressa come somma di due somme, inoltre ‘portando fuori a’,e ricordando che la somma delle probabilità è 1, otteniamo

E[Y ] =s∑

i=1

xipX(xi) +s∑

i=1

apX(xi) =s∑

i=1

xipX(xi) + a = µX + a.

Ma per la proprietà in questione il valore atteso della v.c. scarto g(X) = X − µ è nullo.

iv) Se Y = a+ bX con a e b numeri reali, allora:

µY = a+ bµX ;

questo si evince per diretta applicazione delle proprietà precedenti.

Esempio 3.20. Si consideri la v.c. X tale che E[X] = 2. Sia Y = 2X + 3. Si ha allora:

E[Y ] = E[2X + 3] = 2E[X] + 3 = 2× 2 + 3 = 7.

3.9 VarianzaLa varianza di una v.c. X, indicata con σ2

X oppure Var[X], misura il valore atteso degli scostamenti di Xda µX , ed è quindi indicativa della dispersione dei valori di X intorno al centro della distribuzione. Comemisura dello scostamento si adotta la funzione di v.c. g(X) = (X − µX)2, così la varianza è data da E[g(x)].Così, se X è una v.c. discreta con s modalità, si ha

σ2X = Var[X] =

s∑i=1

(xi − µX)2pX(xi),

Se invece X è una v.c. continua si ha

σ2X = Var[X] =

∫ +∞

−∞(x− µX)2fX(x)dx.

Come l’operatore E, Var è utilizzato indifferentemente per vv.cc. discrete e continue, così permettendo unatrattazione unificata.Ricaviamo ora una formulazione differente della varianza. Abbiamo appena appreso che

Var[X] = E[(X − µX)2]

M. Di Marzio 27 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 35: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3.9. Varianza

da cui è facile dedurre la seguente formulazione alternativa:

Var[X] = E[X2]− µ2X .

Infatti

Var[X] = E[(X − µX)2]

= E[X2 + µ2X − 2XµX ]

= E[X2] + E[µ2X ]− E[2µ2

X ]

= E[X2] + µ2X − 2µ2

X

= E[X2]− µ2X .

La terza uguaglianza deriva dalla seconda applicando la regola per cui il valore atteso di una somma è datodalla somma dei valori attesi, si veda la sezione 11.1. Lo scarto quadratico medio (s.q.m.) di una v.c. Xè definito come la radice quadrata della varianza presa con il segno positivo:

σX =√σ2X .

Lo s.q.m., come la varianza, misura la dispersione della distribuzione della v.c. intorno al suo valore atteso.Però, a differenza di essa, risulta espresso nella stessa unità di misura del carattere: questa proprietà moltoimportante è uno dei principali motivi del suo frequentissimo impiego. Se non c’è possibilità di equivoco sullav.c. in uso, si può scrivere σ, σ2 e µ in luogo di σX , σ2

X e µX .

Esempio 3.21. Si calcoli la varianza della v.c. introdotta nell’esempio 3.6. Otteniamo

Var[X] =3∑

x=0

(x− E[x])2pX(x) =

(0− 3

2

)21

8+

(1− 3

2

)23

8+

(2− 3

2

)23

8+

(3− 3

2

)21

8

=9

4× 1

8+

1

4× 3

8+

1

4× 3

8+

9

4× 1

8=

3

4= 0.75.

Esempio 3.22. Sia X una v.c. continua con pdf

fX(x) =

1/9 se 1 < x < 100 altrimenti.

Si ha allora

E[X] =

∫ 10

1

xfX(x) dx =

∫ 10

1

1

9x dx =

1

9

x2

2

∣∣∣∣101

=1

18(100− 1) = 5.5,

ma essendo X2 è una funzione di X, il suo valore atteso sarà

E[X2] =

∫ 10

1

x2fX(x) dx =

∫ 10

1

1

9x2dx =

1

9

x3

3

∣∣∣∣101

=1

27(1000− 1) = 37,

si ottieneVar[X] = E[X2]− µ2

X = 37− (5.5)2 = 6.75.

Segue il calcolo delle varianze e s.q.m. di alcune trasformazioni lineari di vv.cc..

i) Dato un numero a ∈ R,σ2a = 0;

σa = 0

questo può essere facilmente compreso se si pensa ad a come all’unica realizzazione possibile per unav.c. chiamata costante. Risulta allora evidente che la varianza di a è nulla.

ii) Data una v.c. X, discreta o continua, si consideri la funzione Y = aX, allora:

σ2Y = a2σ2

X ;

σY = aσX .

Primi elementi di inferenza statistica (ed. maggio 2012) 28 M. Di Marzio

Page 36: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3. VARIABILI CASUALI SEMPLICI

Infatti

σ2Y = E[(Y − E[Y ])2] = E[(aX − aE[X])2]

= E[a2(X − E[X])2]

ma poichè sia dalla sommatoria sia dall’integrale (a seconda che X sia discreta o continua) una costantemoltiplicativa a può essere ‘portata fuori’ (sezz. A.5 e A.14), si ha

σ2Y = a2E[(X − E[X])2] = a2σ2

X .

iii) Se invece Y = X + a, allora:σ2Y = σ2

X ;

σY = σX .

Infatti

σ2Y = E[(Y − E[Y ])2] = E[(X + a− E[X + a])2]

= E[(X + a− E[X]− a)2] = E[(X − E[X])2]

= σ2X .

iv) Se Y = a+ bX con a e b numeri reali, allora:

σ2Y = b2σ2

X ;

σY = bσX

questo si evince per diretta applicazione delle proprietà precedenti.

3.10 Coefficiente di variazione

Quando si vuole confrontare la variabilità di due vv.cc. non è corretto effettuare il confronto tramite varianzao s.q.m. poiché il valore di questi ultimi è influenzato dalla media del carattere o dalla unità di misura, lequali, invece, non dovrebbero giocare alcun ruolo nel confronto delle variabilità. Così differenti medie o unitàdi misura rendono spesso inutile l’uso di varianza o s.q.m., come negli esempi che seguono.

Esempio 3.23. L’intuito ci suggerisce che 3 kg di s.q.m. tra i pesi dei neonati indica una variabilità di gran lungamaggiore di 4 kg di s.q.m. di tra i pesi delle madri.Sapere che lo s.q.m. della distribuzione del reddito in Giappone vale 1000 Yen mentre in Italia vale 1000 Euro, non èsufficiente per affermare che la variabilità del reddito nelle due nazioni è identica.

Allora si deve ricorrere a un indice che non risenta nè dell’influenza dell’intensità media nè dell’influenzadell’unità di misura. Un indice di tal genere è il coefficiente di variazione:

CV [X] =σX

µX

Esempio 3.24. Si considerino due vv.cc. X e Y . si vuole giudicare quale tra fX e fY presenta più variabilità agiudicare dai seguenti dati.

µX = 2 , σ2X = 16 ; µY = 6 , σ2

Y = 81 .

Concludiamo che in fX c’è più variabilità poichè CV[X] = 2 mentre CV[Y ] = 1.5. Di certo il semplice confronto travarianze avrebbe favorito di gran lunga la conclusione opposta.

Un vantaggio del coefficiente di variazione è che esso è un numero puro, cioè non è espresso in termini di unitàdi misura. Purtroppo è però inapplicabile se la media è nulla o negativa. Infine un ulteriore inconveniente èche risulta troppo ‘sensibile’, e quindi poco indicativo se la media è vicina allo zero.

Data una v.c. X e un numero a, si definisca la funzione Y = aX. Allora X e Y hanno lo stesso coefficientedi variazione:

CV[X] =aσX

aµX=

σX

µX= CV[Y ].

M. Di Marzio 29 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 37: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3.11. Disuguaglianza di Chebyshev

3.11 Disuguaglianza di Chebyshev

Siano dati una v.c. X e un numero reale positivo t; definiamo evento raro l’insieme dei valori di X la cuidistanza dalla media µX , misurata come |x− µX |, valga almeno t, cioè

x : |x− µX | ≥ t = (−∞, µX − t] ∪ [µX + t,+∞).

Spesso è utile determinare la probabilità dell’evento raro, cioè

P(|X − µX | ≥ t) ,

chiaramente questa probabilità determina anche la probabilità dell’evento complementare come

P(|X − µX | < t) = 1− P(|X − µX | ≥ t).

Ovviamente occorre conoscere la pdf di X, ad esempio nel caso continuo abbiamo

P(|X − µX | ≥ t) =

∫ µX−t

−∞fX(x) dx+

∫ +∞

µX+t

fX(x) dx.

Purtroppo a volte non è possibile determinare la pdf di una v.c., ma se ne conoscono solo valore atteso evarianza. La disuguaglianza di Chebyshev consente in questi casi di determinare valori massimi (risp. minimi)delle probabilità di eventi rari (risp. dei complementi degli eventi rari).Sia X una v.c. con valore atteso µX e varianza σ2

X , allora per ogni numero reale t > 0, si ha la seguentedisuguaglianza di Chebyshev

P(|X − µX | ≥ t) ≤ σ2X

t2.

Dato un numero reale k e posto t = kσX , se ne ottiene una formulazione più semplice

P(|X − µX | ≥ kσX) ≤ 1

k2,

ossia la probabilità che la v.c. X si discosti dal suo valore atteso di almeno k unità di s.q.m. è al più ugualea 1/k2. D’altro canto se si considera il complemento dell’evento raro si ha

P(|X − µX | ≥ kσX) ≤ 1

k2⇔ P(|X − µX | < kσX) ≥ 1− 1

k2,

così la probabilità che X si discosti dal suo valore atteso meno di k unità di s.q.m. è almeno pari a 1− 1/k2.La disuguaglianza di Chebyshev è importante sia perché è valida per qualunque variabile casuale, sia perchèper applicarla basta conoscere valore atteso e varianza, non necessariamente la funzione di densità. Da ultimosi osservi che, affinché tale disuguaglianza sia informativa, è necessario che κ sia scelto maggiore di 1.

Esempio 3.25. Supponiamo che una banca riceva in media 500 clienti al giorno con una varianza di 100. Si vuolecalcolare la probabilità che nella giornata di domani, la banca riceverà tra i 300 ed i 700 clienti. A tale scopo sia X ilnumero dei clienti che la banca riceverà domani.Allora la probabilità cercata è P(300 < X < 700). Poiché si conosce che E[X] = 500 e Var[X] = 100, e poiché

P(300 < X < 700) = P(−200 < X − 500 < 200)

= P(|X − 500| < 200)

= 1− P(|X − 500| ≥ 200),

dalla disuguaglianza di Chebyshev discende che

P(|X − 500| ≥ 200) ≤ 100

2002= 0.0025.

Si ha pertantoP(300 < X < 700) = P(|X − 500| < 200) ≥ 1− 0.0025 = 0.9975.

Primi elementi di inferenza statistica (ed. maggio 2012) 30 M. Di Marzio

Page 38: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

3. VARIABILI CASUALI SEMPLICI

3.12 Variabili casuali standardizzateUn’importante trasformazione lineare di vv.cc. è la standardizzazione. Data una v.c. X, la v.c. X∗

ottenuta sottraendo ad X il suo valore atteso e dividendo tale differenza per lo s.q.m. è definita v.c. Xstandardizzata. Formalmente:

X∗ =X − E[X]√

Var[X].

Per la v.c. X∗ si ha:E[X∗] = 0 e Var[X∗] = 1.

Infatti

E[X∗] = E

[X − E[X]√

Var[X]

]=

E[X]− E[X]√Var[X]

= 0,

Var[X∗] = Var

[X − E[X]√

Var[X]

]=

Var[X]

(√

Var[X])2=

Var[X]

Var[X]= 1.

Per effetto della standardizzazione il centro della distribuzione di X diventa 0 e gli scarti dalla media di Xvengono espressi in unità di s.q.m.. Si noti che, esprimendo di quante unità di s.q.m. X differisce dal suovalore atteso, la v.c. X∗ è indipendente dall’unità di misura di X.

Esempio 3.26. L’ammontare di pioggia in una data area è descritto da una v.c. X con E[X] = 1 cm e Var[X] =4 cm2. Assumiamo che all’ i-esima rilevazione di X risulti xi = 5 cm. Poiché x∗

i = (5− 1)/2 = 2, la distanza di xi

dalla media è pari a due volte la deviazione standard di X.

L’operazione di standardizzazione risulta molto utile qualora si vogliano confrontare vv.cc. con distribuzionidifferenti.

Esempio 3.27. Uno studente ha conseguito 26 all’esame di statistica e 30 all’esame di geografia. Assumiamo chela media e lo s.q.m. dei voti di tutti gli studenti siano rispettivamente pari a 22 e 4 per l’esame di statistica mentrequeste quantità sono rispettivamente pari a 28 e 4 per l’esame di geografia. Standardizzando si vede che il voto dellostudente è più elevato della media di (26−22)/4 = 1 unità di s.q.m. per l’esame di statistica e di (30−28)/4 = 0.5 perl’esame di geografia: il risultato ottenuto dallo studente all’esame di statistica è quindi relativamente migliore rispettoa quello ottenuto all’esame di geografia.

M. Di Marzio 31 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 39: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

4Esercizi svolti

Esercizio 4.1. L’esperimento consiste nel lanciare due volte una moneta. Se la v.c. è il numero di testeuscite nei due lanci, qual è:

a) il suo dominio;

b) la legge di associazione;

c) la sua immagine?

Soluzione a) Ω = TT, TC,CT,CC. b) Contare il numero di teste. c) X = 0, 1, 2.

Esercizio 4.2. L’esperimento consiste nel lanciare due volte un dado. Se la v.c. è il numero di puntini neidue lanci, qual è:

a) il suo dominio;

b) la legge di associazione;

c) la sua immagine?

Soluzione a) In Ω abbiamo 36 eventi elementari:

Ω = (1, 1), (1, 2), (1, 3), ..., (6, 4), (6, 5), (6, 6).

b) Contare il numero di puntini.c) X = 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12.

Esercizio 4.3. Per ciascuno dei seguenti casi si dica se la variabile è discreta o continua:

a) la frequenza cardiaca;

b) il tempo tra due decolli di aerei;

c) la statura di un individuo;

d) la quantità di denaro incassata.

Soluzione a) Discreta. b) Continua. c) Continua. d) Discreta.

Esercizio 4.4. Consideriamo il lancio di 3 monete e le vv.cc. X = n. di teste uscite; Y = n. di croci uscite;Z = n. di coppie consecutive di teste. Si vince 2 per ogni testa e si paga 1 per ogni croce; definiamo W =guadagno netto nel lancio delle 3 monete. Determinare le pdf di X, Z, Y e W .

Soluzione Di seguito l’elenco degli esiti elementari (che sono equiprobabili) con i relativi valori delle vv. cc.

Primi elementi di inferenza statistica (ed. maggio 2012) 32 M. Di Marzio

Page 40: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

4. ESERCIZI SVOLTI

Risultati X Y Z W Probabilità

TTT 3 0 2 6 1/8

TTC 2 1 1 3 1/8

TCT 2 1 0 3 1/8

CTT 2 1 1 3 1/8

TCC 1 2 0 0 1/8

CTC 1 2 0 0 1/8

CCT 1 2 0 0 1/8

CCC 0 3 0 -3 1/8

Da questa tavola ricavano le distribuzioni di probabilità sommando le probabilità degli esiti elementarifavorevoli alla modalità considerata. Cosi, ad esempio, X = 1 = TCC ∪ CTC ∪ CCT. Per cui

P(X = 1) = P (TCC) + P (CTC) + P (CCT ) = 3/8

.

X pX(x)

0 1/8

1 3/8

2 3/8

3 1/8

1

Z pZ(z)

0 5/81 2/82 1/8

1

Y pY (y)

0 1/81 3/82 3/8

3 1/8

1

W pW (w)

-3 1/80 3/83 3/8

6 1/8

1

Esercizio 4.5. Data la funzione di ripartizione della v.c. discreta X

X 0 1 2 3 4 5

FX(xi) 0 0.2 0.5 0.6 1 1

Determinare la funzione di distribuzione di probabilità in corrispondenza di ciascuna delle modalità xi.

Soluzione Poiché la funzione di ripartizione della v.c. X fornisce la probabilità cumulata di X in corrispon-denza di ogni a ∈ R e nel caso discreto FX (a) =

∑i:xi≤a

pX(xi), la pdf di X risulta:

X 0 1 2 3 4 5

pX(xi) 0 0.2 0.3 0.1 0.4 0

Esercizio 4.6. Si consideri la funzione

g(x) =

815

(12

)x se x = 0, 1, 2, 3

0 altrimenti.

a) Verificare che g(x) è una pdf.

b) Determinare i valori della funzione di ripartizione della v.c X.

Soluzione a) Osserviamo innanzitutto che

0 ≤ g(x) ≤ 1 ∀ x ∈ 0, 1, 2, 3,

M. Di Marzio 33 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 41: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

eg(x) = 0 ∀ x /∈ 0, 1, 2, 3.

Occorre ora verificare che3∑

x=0

g(x) = 1.

Poiché

3∑x=0

g(x) =8

15

(1

2

)0

+8

15

(1

2

)+

8

15

(1

2

)2

+8

15

(1

2

)3

=8

15+

4

15+

2

15+

1

15= 1,

si conclude che g(x) è una funzione di distribuzione di probabilità.b) Poiché X è una v.c. distreta, la sua funzione di ripartizione è data da

G(a) =∑

i:xi≤a

g(xi),

si ha pertanto

X 0 1 2 3

g(x) 8/15 4/15 2/15 1/15

G(xi) 8/15 12/15 14/15 1

Esercizio 4.7. Determinare i valori delle costanti k1 e k2 tali che le funzioni seguenti siano funzioni didensità di probabilità:

a)

g(x) =

k1x se 0 < x < 4

0 altrimenti.

b)

h(x) =

k2x

2 se 0 < x < 2

0 altrimenti.

Soluzione a) Per determinare k1, utilizziamo la proprietà∫ 4

0g(x)dx = 1. Poiché∫ 4

0

g(x)dx =

∫ 4

0

k1xdx =k12x2

∣∣∣∣40

=k12(16− 0) = 8k1,

si ha ∫ 4

0

g(x)dx = 1 ⇒ 8k1 = 1 ⇒ k1 =1

8.

b) Per determinare k2, utilizziamo la proprietà∫ 2

0h(x)dx = 1. Poiché∫ 2

0

h(x)dx =

∫ 2

0

k2x2dx =

k23x3

∣∣∣∣20

=k23(8− 0) =

8k23

,

risulta ∫ 2

0

h(x)dx = 1 ⇒ 8k23

= 1 ⇒ k2 =3

8.

Esercizio 4.8. Sia X una v.c. discreta con funzione di ripartizione

X 1 2 3 4 5

FX(xi) 1/15 3/15 6/15 10/15 1

Primi elementi di inferenza statistica (ed. maggio 2012) 34 M. Di Marzio

Page 42: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

4. ESERCIZI SVOLTI

Determinare la pdf di X.

Soluzione Poiché X è una v.c. discreta, per ogni valore x risulta

pX(x) = FX(x)− FX(x− 1).

Pertanto si ha

pX(1) = FX(1) =1

15

pX(2) = FX(2)− FX(1) =3

15− 1

15=

2

15

pX(3) = FX(3)− FX(2) =6

15− 3

15=

3

15

pX(4) = FX(4)− FX(3) =10

15− 6

15=

4

15

pX(5) = FX(5)− FX(4) = 1− 10

15=

5

15.

Si conclude pertanto che la pdf della v.c. X è data da

pX(x) =

x/15 se x = 1, 2, 3, 4, 5

0 altrimenti.

Esercizio 4.9. Sia X una v.c. continua con funzione di ripartizione definita da

FX(x) =

−(x+ 1)e−x + 1 se x ≥ 0

0 altrimenti.

Determinare la pdf di X.

Soluzione Poiché X è una v.c. continua, per ogni valore x vale la relazione seguente

fX(x) = F′X(x).

Si ha pertanto che per x = 0, fX(x) = 0; per x ≥ 0 si ha invece

fX(x) = −e−x − (x+ 1)(−e−x) + 0 = −e−x + xe−x + e−x = xe−x.

La pdf di X è allora definita da

fX(x) =

xe−x se x ≥ 0

0 altrimenti.

Esercizio 4.10. Calcolare il valore atteso, la varianza e lo scarto quadratico medio della v.c. X = n. diipoteche approvate da una banca in una settimana.

N. ipoteche Probabilità

0 0.10

1 0.10

2 0.20

3 0.30

4 0.15

5 0.10

6 0.05

M. Di Marzio 35 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 43: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Soluzione

µX = E[X] =S∑

i=1

xipX(xi)

= (0× 0.1) + (1× 0.1) + (2× 0.2) + (3× 0.3) + (4× 0.15) + (5× 0.1) + (6× 0.05)

= 0 + 0.1 + 0.4 + 0.9 + 0.6 + 0.5 + 0.3 = 2.8;

σ2X =

N∑i=1

(xi − E[xi])2pX(xi)

= (0− 2.8)20.10 + (1− 2.8)20.10 + (2− 2.8)20.20 + (3− 2.8)20.30+

+ (4− 2.8)20.15 + (5− 2.8)20.10 + (6− 2.8)20.05

= 0.784 + 0.324 + 0.128 + 0.012 + 0.216 + 0.484 + 0.512 = 2.46;

σ =√2.46 = 1.57.

Esercizio 4.11. Data la v.c. X con funzione di densità di probabilità

fX(x) =

1/12 se 2 < x < 14

0 altrimenti,

determinare:

a) E[9X];

b) Var[X + 5].

Soluzione a) Poiché

E[X] =

∫ 14

2

xfX(x)dx =

∫ 14

2

1

12xdx =

1

12

x2

2

∣∣∣∣142

=1

24(196− 4) = 8,

e E[aX] = aE[X] per un qualsiasi numero reale a,

E[9X] = 9E[X] = 9× 8 = 72.

b) Ricordiamo cheVar[X] = E[X2]− (E[X])2.

Poichè

E[X2] =

∫ 14

2

x2fX(x)dx =

∫ 14

2

1

12x2dx =

1

12

x3

3

∣∣∣∣142

=1

36(2744− 8) = 76,

si ottieneVar[X] = 76− 64 = 12.

Poiché Var[X + a] = Var[X] per un qualsiasi numero reale a,

Var[X + 5] = Var[X] = 12.

Esercizio 4.12. Si consideri la v.c. X con E[X] = 3 e E[X2 − 4X] = 5. Sia Y = 2X + 1. Determinare:

a) E[Y ];

b) Var[Y ].

Soluzione a)E[Y ] = E[2X + 1] = 2E[X] + 1 = 2× 3 + 1 = 7.

b) Si osservi che

E[X2 − 4X] = E[X2]− 4E[X] = 5 ⇒ E[X2] = 5 + 4E[X] = 5 + 4× 3 = 17.

Da cui si ottieneVar[X] = E[X2]− (E[X])2 = 17− 9 = 8,

e quindiVar[Y ] = Var[2X + 1] = 4Var[X] = 4× 8 = 32.

Primi elementi di inferenza statistica (ed. maggio 2012) 36 M. Di Marzio

Page 44: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

5Principali variabili casuali discrete

Indice5.1 Tre esperimenti casuali fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . 375.2 Variabile casuale binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.3 Variabile casuale geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.4 Variabile casuale ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 405.5 Variabile casuale di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.1 Tre esperimenti casuali fondamentaliTantissimi fenomeni aleatori sono ben descritti da uno di tre esperimenti casuali: il bernoulliano, l’ipergeo-metrico e il poissoniano. Ciascuna delle vv.cc. discrete che verranno introdotte descrivono aspetti di questiesperimenti.Un esperimento casuale si dice bernoulliano se ha due possibili esiti, genericamente chiamati successo (s)e insuccesso (i), con rispettive probabilità indicate come

P(s) = π e P(i) = 1− π.

Si parla di n prove bernoulliane quando un esperimento bernoulliano viene ripetuto n volte e la probabilitàπ è la medesima in ogni prova.

Esempio 5.1. Un classico caso di esperimento bernulliano ripetuto consiste nel lanciare diverse volte una moneta.Qui gli esiti incompatibili sono chiaramente testa e croce.

L’esperimento ipergeometrico consiste nell’estrarre senza reinserimento un oggetto da una popolazionedi oggetti di numerosità finita T . La popolazione è costituita da S elementi di tipo successo, ed I di tipoinsuccesso, così T = S + I. Inoltre tutti gli elementi hanno la stessa probabilità di essere estratti alla primaestrazione, che é 1/T .

Esempio 5.2. Il controllo in accettazione di una fornitura contiene un classico caso di esperimento ipergeometrico.Infatti da un numero finito di T pezzi se ne estraggono n. Un pezzo può essere difettoso (successo) o non difettoso(insuccesso).

Un esperimento casuale si dice poissoniano se si osserva il numero di accadimenti di un evento all’internodi un prefissato intervallo t di tempo o spazio con le seguenti caratteristiche:

1) i numeri di accadimenti in due separati intervalli t1 e t2 sono indipendenti;

2) sono teoricamente possibili anche infiniti accadimenti quantunque piccolo sia l’intervallo di osservazionet, ma per valori di t molto piccoli una singola occorrenza è più probabile di due o più;

3) esiste un tasso λ di occorrenza media dei successi per unità di tempo, noto ed empiricamente determi-nato. Allora si deduce che il numero di accadimenti atteso nell’unità di tempo t è λt.

Esempio 5.3. Due classici esperimenti poissoniani sono: a) osservazione del numero di difetti o non conformità inun’unità di prodotto quando non ci sono fattori sistematici a provocarli; b) osservazione del numero di chiamate chearrivano ad un centralino durante un prefissato periodo t.

M. Di Marzio 37 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 45: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

5.2. Variabile casuale binomiale

0 2 4 6 70

0.05

.1

0.15

0.2

x

p(x

;n,π

)

n=7π=0.5

0 20 40 500

0.04

0.08

x

p(x

;n,π

)

n=50π=0.3

0 20 40 500

0.05

0.1

0.15

x

p(x

;n,π

)

n=50π=0.1

Figura 5.1: Distribuzioni binomiali con diversi valori dei parametri n e π.

5.2 Variabile casuale binomialeLa v.c. binomiale conta il numero di successi in n prove bernoulliane. In formule

X : Ω → [0, 1, ..., n]

dove Ω è uno spazio prodotto. In particolare

Ω =

n fattori︷ ︸︸ ︷(s, i)× (s, i)...× (s, i) =

2n esiti︷ ︸︸ ︷(iii...i), (iii...s), ..., (iss...s), (sss...s).

Quindi lo spazio fondamentale è costituito da 2n esiti, ovvero tutte le possibili sequenze di lunghezza n incui compaiono le modalità di un carattere dicotomico.La v.c. X binomiale ha la seguente pdf con parametri n e π

pX(x;n, π) =

(nx

)πx(1− π)n−x se x = 0, 1, ..., n

0 altrimenti,

e si scrive X ∼ B(n, π). Qui Θ = [1, 2, ..., n]× (0, 1).Valore atteso e varianza sono rispettivamente

E[X] = nπ e Var[X] = nπ(1− π).

Il caso particolare con B(1, π), cioè

pX(x;π) = πx(1− π)1−x x ∈ 0, 1 π ∈ [0, 1].

è detto distribuzione di Bernoulli. Qui valore atteso e varianza sono pari a

E[X] = π e Var[X] = π(1− π).

Spieghiamo adesso l’espressione di pX(x;n, π), cioè la probabilità di x successi in n prove.L’evento ‘x successi in n prove’ è formato dall’insieme delle

(nx

)possibili sequenze di lunghezza n ognuna

contenenti x successi 1. Poichè le n prove sono esperimenti casuali indipendenti, allora gli eventi associatia prove differenti sono indipendenti. Di conseguenza, applichiamo il teorema delle probabilità composte pereventi indipendenti per ottenere la probabilità della generica sequenza favorevole caratterizzata da n elementie x successi:

P(10001101.....1010) = π(1− π)(1− π)(1− π)ππ(1− π)π.....π(1− π)π(1− π)

= πx(1− π)(n−x);

infine, si noti che le(nx

)sequenze sono tra loro incompatibili ed equiprobabili, così, applicando il terzo assioma

della probabilità, si ha:

pX(x;n, π) = πx(1− π)n−x + πx(1− π)n−x + ...+ πx(1− π)n−x︸ ︷︷ ︸(nx) addendi

=

(n

x

)πx(1− π)n−x.

1Combinazioni di n posti in gruppi di x.

Primi elementi di inferenza statistica (ed. maggio 2012) 38 M. Di Marzio

Page 46: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

5. PRINCIPALI VARIABILI CASUALI DISCRETE

Esempio 5.4. Un dado regolare viene lanciato 10 volte. Calcoliamo la probabilità di ottenere 4 numeri maggiori ouguali a 5. Si ha immediatamente

pX(4; 10, 2/6) =

(10

4

)(2/6)4(1− 2/6)10−4 = 0.228.

Dalla figura 5.1 notiamo che la distribuzione binomiale è simmetrica se π = 0.5, inoltre al crescere di n essatende ad assumere la forma di una curva normale (sez. 7.2) con media nπ e varianza nπ(1 − π) per effettodel teorema centrale del limite (sezione 11.5). Sempre dalla figura 5.1 ricaviamo che tale convergenza dipX(·;n, π) alla normale sarà tanto più lenta quanto più π è diverso da 0.5.

5.3 Variabile casuale geometricaSi consideri l’esperimento che consiste nel ripetersi di una prova bernoulliana fino al primo successo. La v.c.geometrica conta il numero di insuccessi che si verificano prima del primo successo. Formalmente abbiamo

X : Ω → [0, 1, 2, ...,+∞)

doveΩ = s, is, iis, iiis, iiiis, iiiiis, ....

Se X è geometrica e la probabilità dell’insuccesso è 1− π, allora la sua distribuzione di probabilità sarà

pX(x;π) =

π(1− π)x se x = 0, 1, ...

0 altrimenti,

e si scrive X ∼ G(π). Qui Θ = (0, 1). Il valore atteso e la varianza sono:

E[X] =1− π

πe Var [X] =

1− π

π2.

La funzione di ripartizione della v.c. geometrica è FX(k) = 1− (1− π)k+1 per ogni k intero positivo. Ciò èevidente se si considera che

FX(k) = P(X ≤ k) = 1− P(X > k),

ma P(X > k) è la probabilità che le prime k + 1 prove siano insuccessi, cioè (1− π)k+1.Infine la probabilità che siano necessarie almeno k + 1 estrazioni per ottenere il primo successo è uguale allaprobabilità che le prime k prove siano risultate tutte degli insuccessi, in formule:

P(X ≥ k) = (1− π)k.

Esempio 5.5. Un’urna contiene 10 palline nere e 5 palline bianche. Viene estratta una pallina alla volta conreinserimento fino a quando esce una pallina nera. Calcolare

a) la probabilità di estrarre esattamente 4 palline;

b) la probabilità di estrarre almeno 3 palline.

Dato che π = 10/15, abbiamoa)

P(X = 3) =

(5

15

)310

15= 0.0242;

b)

P(X ≥ 2) = 1− P(X < 2) = 1−[10

15+

5

15

10

15

]= 0.11.

Si osservi che la probabilità che escano almeno 3 palline corrisponde alla probabilità che nelle prime 2 prove escanoesattemente 2 palline bianche.

La figura 5.2 riporta alcuni esempi di distribuzione geometrica. Come appare intuitivo, al diminuire di πla distribuzione geometrica tende ad appiattirsi ed ingrossare la coda. Infatti se la probabilità del successodiminuisce, sequenze di insuccessi relativamente più lunghe diventano più probabili. Si osservi che per π = 0.8si hanno probabilità significativamente diverse da zero fino a 3, per π = 0.4 questo accade fino a 8, infineper π = 0.1 questo accade fino a oltre 40. Infine, poiché se x = 0 allora π(1 − π)x = π, e se x > 0 alloraπ(1 − π)x < π, ne consegue che la moda è sempre nel punto 0. Un’ importante proprietà di cui gode la

M. Di Marzio 39 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 47: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

5.4. Variabile casuale ipergeometrica

0 10 20 30 40 500

0.02

0.04

0.06

0.08

0.1

x

p(x

;π)

π=0.1

0 5 10 150

0.1

0.2

0.3

0.4

x

p(x

;π)

π=0.4

0 1 2 3 4 50

0.2

0.4

0.6

0.8

x

p(x

,π)

π=0.8

Figura 5.2: Distribuzioni geometriche con diversi valori del parametro π.

distribuzione geometrica è quella dell’ assenza di memoria. Una v.c. X che misura i tempi di attesa delprimo successo si definisce priva di memoria se

P(X ≥ t+ s|X ≥ t) = P(X ≥ s) .

Così se per il primo successo si è già atteso fino a t, questo non cambia la probabilità di attendere ancoraun tempo pari a s. In altre parole: la probabilità che trascorra ancora un periodo di lunghezza s dopo che ètrascorso un periodo di lunghezza t è uguale alla probabilità che l’attesa duri in tutto s2.Per dimostrare che la v.c. geometrica è priva di memoria ricordiamo che per questa vale P(X ≥ k) = (1−π)k,allora

P(X ≥ t+ s|X ≥ t) =P(X ≥ t+ s ∩X ≥ t)

P(X ≥ t)

=P(X ≥ t+ s)

P(X ≥ t)

=(1− π)t+s

(1− π)t

= (1− π)s

= P(X ≥ s).

5.4 Variabile casuale ipergeometricaSi considerino n prove di un esperimento ipergeometrico. La v.c. ipergeometrica conta il numero deglioggetti di tipo successo verificatisi nelle n prove. In formule

X : Ω → [0, 1, ..., n]

doveΩ = tutte le combinazioni di T oggetti presi a gruppi di n.

Posto I = T − S, la v.c. ipergeometrica ha la seguente pdf di parametri T, S, n

pX(x;T, S, n) =

(Sx

)(I

n−x

)(Tn

) se x = 0, 1, ..., n

0 altrimenti,

e si scrive X ∼ I(T, S, n). Qui Θ = [1, 2, ..., T ] × [1, 2, ..., S] × [1, 2, ..., n]. Valore atteso e varianza sonorispettivamente pari a

E[X] = n× S

T; e Var[X] = n× S

T× T − S

T× T − n

T − 1.

Si noti la similitudine con media e varianza della pdf binomiale. Ponendo π = S/T , si potrebbe dire che l’unicadifferenza è nella varianza. Infatti la varianza della ipergeometrica è corretta con il fattore (T − n)/(T − 1)

2Nella pratica l’assenza di memoria è un requisito difficile da riscontrare. Infatti l’esperienza comune suggerisce che tantopiù lungo è il tempo trascorso, tanto più corta sarà l’attesa resuidua.

Primi elementi di inferenza statistica (ed. maggio 2012) 40 M. Di Marzio

Page 48: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

5. PRINCIPALI VARIABILI CASUALI DISCRETE

0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

x

p(x

;T,n

,S)

T=10n=5S=4

0 1 2 3 40

0.1

0.2

0.3

0.4

0.5 T=10 n=7 S=4

x

p(x

;T,n

,S)

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

x

p(x

;T,n

,S) T=10

n=6 S=6

Figura 5.3: Distribuzioni ipergeometriche con diversi valori dei parametri T , n e S.

dovuto al fatto che la popolazione è finita. Chiaramente, se T → +∞ quando sia S/T sia n sono fissati,allora le prove divengono indipendenti e la geometrica tende a coincidere con la binomiale. Questo si vedegià dal fatto che

limT→∞

T − n

T − 1= 1 .

Poiché gli individui della popolazione hanno per ipotesi tutti la stessa probabilità di essere estratti, tuttele possibili n-ple sono equiprobabili, così alla formula ipergeometrica si perviene applicando la concezioneclassica della probabilità: al numeratore abbiamo il numero di casi favorevoli, mentre al denominatore ilnumero dei casi possibili. In particolare:

⋄ Denominatore: poiché si tratta di un esperimento ipergeometrico, il numero di casi possibili è dato daTCn (sez. B.2). Infatti tutte le possibili n-ple senza reiserimento, dove si conta il numero di successi,differiscono solo per la presenza di almeno un oggetto e quindi sono combinazioni.

⋄ Numeratore: il numero di casi favorevoli si ottiene con il seguente ragionamento:

a) Si calcola il numero di modi in cui x esiti favorevoli si possono estrarre dagli S esiti favorevolipresenti nel collettivo. Questo, poichè l’estrazione è senza reinserimento, sarà pari a SCx.

b) Si calcola il numero di modi in cui n − x esiti non favorevoli si possono estrarre dagli I esiti nonfavorevoli presenti nel collettivo. Questo, poichè l’estrazione è senza reinserimento, sarà pari aICn−x.

c) L’accostamento di una qualsiasi combinazione delle SCx con una qualsiasi delle ICn−x combi-nazioni costituisce un caso favorevole, così il numero di tutti i casi favorevoli è dato dal prodottoSCx ×I Cn−x.

In definitiva:

pX(x;T, S, n) =SCx ×I Cn−x

TCn=

(Sx

)(I

n−x

)(Tn

) .

Esempio 5.6. Un chimico ha commesso 25 errori in 500 esperimenti indipendenti tra loro. Un secondo chimicocontrolla casualmente 7 di questi esperimenti. Qual è la probabilità che individui 2 errori?Indichiamo con X il numero di errori trovati dal secondo chimico. X si distribuisce come una ipergeometrica conS = 25, T = 500, n = 7, x = 2 e I = T − S = 475.Quindi

P(X = 2) = pX(2; 500, 25, 7) =

(252

)(4757−2

)(5007

) ≃ 0.04.

La figura 5.3 riporta alcuni esempi di distribuzione ipergeometrica. In alcuni casi la probabilità è nulla. Ciòsi verifica quando il campione è più numeroso degli elementi ‘insuccesso’ presenti nella popolazione. Infattise T = 10, n = 7, e S = 4 allora si deve avere almeno un successo poiché n = 7 e I = 6. Così come seT = 10, n = 6, e S = 6 è impossibile avere meno di due successi poiché n = 6 e I = 4.

5.5 Variabile casuale di PoissonSi consideri un esperimento poissoniano con parametri λ e t. La v.c. di Poisson conta gli esiti cheaccidentalmente si manifestano nell’intervallo continuo t. In formule

X : Ω → [0, 1, ...,+∞)

M. Di Marzio 41 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 49: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

5.5. Variabile casuale di Poisson

dove Ω è l’insieme di tutti i possibili conteggi di accadimenti nel periodo t, ossia:

Ω = 0, 1, 2....

La v.c. di Poisson ha distribuzione di probabilità pari a

pX(x;λt) =

e−λt(λt)x

x!se x = 0, 1, ...

0 altrimenti,

e si scrive X ∼ P(λt). Qui Θ = (0,+∞). Inoltre:

0 2 4 6 8 100

0.1

0.2

0.3

x

p(x

;λt)

λt=2

0 5 10 150

0.1

0.2

x

p(x

;λt)

λt=5

0 5 10 15 20 25 30 35 400

0.08

0.08

x

p(x

;λt)

λt=20

Figura 5.4: Distribuzioni di Poisson con diversi valori del parametro λ.

E[X] = Var[X] = λt.

Esempio 5.7. Supponiamo che, in media, in ogni 3 pagine di un libro c’è un errore tipografico. Se il numero dierrori tipografici in una singola pagina si descrive come una v.c. di Poisson, calcolare la probabilità di avere almenoun errore su una pagina del libro.Poiché il problema riguarda una pagina, allora il nostro modello è una v.c. di Poisson con parametro λt = 1/3, quindi

P(X = n) = pX(n; 1/3) =(1/3)ne−1/3

n!,

così calcoliamo comeP(X ≥ 1) = 1− P(X = 0) = 1− e−1/3 ≃ 0.28.

Nella figura 5.4 sono riportate alcune distribuzioni di Poisson. Come si vede, la Poisson è asimmetrica conuna lunga coda a destra. Inoltre, dato un certo valore di t, al crescere di λ tende alla normale con media evarianza λt per effetto del teorema centrale del limite (sezione 11.5).

Primi elementi di inferenza statistica (ed. maggio 2012) 42 M. Di Marzio

Page 50: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

6Esercizi svolti

Esercizio 6.1. Un’azienda produce DVD che hanno probabilità 0.02 di essere difettosi, indipendentementel’uno dall’altro. La confezione di vendita contiene 20 pezzi presi a caso dalla produzione totale. La garanziaafferma che se è presente più di un pezzo difettoso la scatola verrà sostituita.

a) Che percentuale di confezioni si prevede ritornerà?

b) Se compro 5 confezioni con che probabilità ne dovrò restituire una?

Soluzione Se X è il numero di pezzi difettosi in una scatola da 20 dischetti, X ∼ B(20, 0.02). Così:a)

P(X > 1) = 1− P(X = 0)− P(X = 1)

= 1− pX(0; 20, 0.02)− pX(1; 20, 0.02)

= 1− 20!

0! (20− 0)!0.020 (1− 0.02)

20−0 − 20!

1! (20− 1)!0.021 (1− 0.02)

20−1= 0.06;

b) ogni scatola viene resa con probabilità pari a circa 0.06. Allora se compriamo 5 scatole la probabilità direnderne una sarà:

pX(1; 5, 0.06) =5!

1! (5− 1)!0.061 (1− 0.06)

5−1= 0.234.

Esercizio 6.2. Un’azienda deve verificare i propri ordini di vendita. Così vengono osservati n ordini presia caso. Secondo l’esperienza pregressa, la probabilità di avere un ordine errato è pari a 0.1. Come risultacomprensibile, gli esiti di osservazioni diverse non si influenzano stocasticamente. Si calcoli:

a) la probabilità di osservare 3 ordini errati su 4.

b) la probabilità di osservare almeno 3 ordini errati su 4.

c) la probabilità di osservare meno di 3 ordini errati su 4.

Soluzione Chiaramente si tratta di prove bernoulliane, dove X conta il numero di difetti, ossia X ∼ B(n, 0.1).Alloraa)

P(X = 3) = pX(3; 4, 0.1) =4!

3! (4− 3)!0.13 (1− 0.1)

4−3.

b) Si ha X ≥ 3, allora scriviamo:

P(X ≥ 3) = P(X = 3) + P(X = 4).

P(X = 3) = 0.0036, come sappiamo.Resta quindi da calcolare P(X = 4):

P(X = 4) = pX(4; 4, 0.1) =4!

4! (4− 4)!(0.1)

4(1− 0.1)

0=

4!

4!0!(0.1)

4(1− 0.1)

0= 0.0001.

M. Di Marzio 43 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 51: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Per cui:P(X ≥ 3) = pX(3; 4, 0.1) + pX(4; 4, 0.1) = 0.0036 + 0.0001 = 0.0037.

c) Il valore di X deve essere inferiore a 3.Poiché n = 4 e π = 0.1, scriviamo:

P(X < 3) = pX(0; 4, 0.1) + pX(1; 4, 0.1) + pX(2; 4, 0.1);

pX(0; 4, 0.1) =4!

0! (4− 0)!(0.1)

0(1− 0.1)

4= 0.6561;

pX(1; 4, 0.1) =4!

1! (4− 1)!(0.1)

1(1− 0.1)

3= 0.2916;

pX(2; 4, 0.1) =4!

2! (4− 2)!(0.1)

2(1− 0.1)

2= 0.0486;

da cui P(X < 3) = 0.9963.Una soluzione alternativa consiste nel considerare l’evento complemento

P(X < 3) = 1− P(X ≥ 3) = 1− 0.0037 = 0.9963.

Esercizio 6.3. Si assuma che una coppia decida di avere figli fino a che non abbia una femmina. Se laprobabilità di avere una femmina è pari a 0.45, qual è la probabilità di avere 4 figli?

Soluzione Si applica la legge geometrica, dove il successo è dato dalla nascita della figlia femmina. Cosìdato che X ∼ G(0.45) abbiamo:

pX(3, 0.45) = 0.5530.45 = 0.0748.

Esercizio 6.4. Un ispettore è alla ricerca di saldature non conformi in una tubatura. La probabilità che unasaldatura sia difettosa è pari a 0.05 e le saldature distano 10 metri. L’ispettore, ormai stanco, decide di fareuna pausa al prossimo difetto riscontrato. Qual è la probabilità che l’ispettore debba camminare ancora per500 metri prima della pausa?

Soluzione Consideriamo i seguenti eventi:

C = Saldatura conforme; NC = Saldatura non conforme; A = Pausa dopo 500 metri.

Per cui:P(C) = 0.95 e P(NC) = 0.05.

Poiché, 100 metri contengono 10 saldature, così fare una pausa dopo 500 metri significa trovare 49 saldatureconformi e la 50-esima non conforme, quindi siccome X ∼ G(0.05) otteniamo

pX(49; 0.05) = 0.95490.05 = 0.0040.

Esercizio 6.5. Un dirigente deve formare un gruppo di lavoro selezionando tre membri in un ufficio da 6uomini e 4 donne. Scrive i loro nomi su dei foglietti identici, li mette in un’urna e poi estrae una sequenzadi 3 bigliettini. Calcolare:

a) la probabilità che estragga 2 donne;

b) il numero di donne atteso nel campione.

Soluzione a) Poiché gli esiti sono due e incompatibili, poichè inoltre si tratta di estrazione senza ripetizione,ricorrono le condizioni dell’esperimento ipergeometrico, ossia X ∼ I(10, 4, 3). Usiamo la seguente simbologia:F = numero di donne nel gruppo di 10;M = numero di uomini nel gruppo di 10;n = ampiezza del campione;x = numero di donne contenute nel campione.Avremo:

P(X = x) =

(Fx

)(M

n−x

)(M+F

n

) =

4!2!(4−2)!

6!1!(6−1)!

10!3!(10−3)!

=6× 6

120=

36

120= 0.30.

b)

E[X] = nF

M + F=

3× 4

10= 1.2.

Primi elementi di inferenza statistica (ed. maggio 2012) 44 M. Di Marzio

Page 52: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

6. ESERCIZI SVOLTI

Esercizio 6.6. Supponiamo di voler esaminare il numero di clienti che raggiungono una banca in un’ora.Ipotizziamo che in media ci siano 180 arrivi in un’ora. Ci chiediamo:

a) Qual è la probabilità di due arrivi in un minuto di tempo?

b) Qual è la probabilità di più di due arrivi in un minuto di tempo?

Soluzione Si può notare che ricorrono gli estremi dell’esperimento poissoniano, infatti ciascun arrivo è unevento discreto che si verifica in un particolare istante di tempo, nell’intervallo continuo di un’ora, ed è unevento indipendente perché l’arrivo di un cliente in un intervallo non dipende dall’arrivo di qualsiasi altrocliente in qualsiasi altro intervallo.Indichiamo con:t = l’intervallo di tempo considerato nel problema, cioè un minuto;X = il numero di successi per intervallo di tempo t;λ = il numero atteso di successi nell’intervallo di tempo usato come unità di misura, che nel nostro caso èl’ora.Allora, tenendo presente che l’unità di misura a cui λ si riferisce è l’ora, si ha:

t = 1/60; λ = 180

quindi X ∼ P(3).a) Se

P(X = x) =e−λt (λt)

x

x!,

allora

P(X = 2) =e−

18060 (180/60)

2

2!=

9

(2.71828)3(2)

= 0.2240.

b) Calcoliamo qual è la probabilità che arrivino più di 2 clienti, cioè:

P(X > 2) = P(X = 3) + P(X = 4) + P(X = 5) + ...

In questo caso risulta più agevole il calcolo dell’evento complementare, ossia individuare qual è la probabilitàche arrivino non più di 2 clienti, cioè P(X ≤ 2) e poi sottrarlo a 1:

P(X > 2) = 1− P(X ≤ 2) = 1− [ P(X = 0) + P(X = 1) + P(X = 2)].

Allora

P(X = 0) =e−180/60 (180/60)

0

0!=

1

(2.71828)3 = 0.0497;

P(X = 1) =e−180/60 (180/60)

1

1!=

3

(2.71828)3 = 0.1494;

P(X > 2) = 1− P(X ≤ 2) = 1− [P(X = 0) + P(X = 1) + P(X = 2)]

= 1− [0.0497 + 0.1494 + 0.2240]

= 1− 0.423 = 0.577.

M. Di Marzio 45 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 53: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

7Principali variabili casuali continue

Indice7.1 Esperimenti casuali descritti da variabili casuali continue . . . . . . . . . . . . 467.2 Variabile casuale normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467.3 Variabile casuale normale standard . . . . . . . . . . . . . . . . . . . . . . . . . . 477.4 Variabile casuale uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497.5 Variabile casuale esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

7.1 Esperimenti casuali descritti da variabili casuali continueA differenza del caso discreto, dove spesso gli esperimenti casuali generano esiti qualitativi del tipo successo,gli esperimenti descritti da vv.cc. continue hanno come esiti valori numerici. Così nel caso continuo, le vv.cc.non trasformano in numeri grandezze qualitative, ma sono semplici funzioni identiche applicate a numeri,cioè lasciano gli esiti numerici esattamente quali essi sono. Di conseguenza, come si vedrà tra poco, per lav.c. normale avremo che Ω = R, per la uniforme Ω = [a, b] e infine per la esponenziale Ω = [0,∞).

7.2 Variabile casuale normaleLa v.c. X : R → R è detta normale se, dati due reali −∞ < µ < ∞, e 0 < σ < ∞, ha pdf

fX(x;µ, σ) =1

σ√2π

e−(x− µ)

2

2σ2 −∞ < x < ∞.

Qui Θ = R × R+. Si dimostra che E[X] = µ e Var[X] = σ2. Circa la funzione di ripartizione, purtroppol’integrale

F (a) =

∫ a

−∞

1√2πσ

e−(x−µ)2

2σ2 dx,

non ha soluzione esplicita, così non esiste una espressione algebrica per la funzione di ripartizione della v.c.normale, che quindi viene calcolata tramite approssimazioni.In figura 7.1 sono rappresentate la pdf e la funzione di ripartizione di una v.c. normale. La distribuzionenormale ha un ruolo centrale nell’ambito della statistica poichè si presta a descrivere il comportamento dinumerosi fenomeni reali dove un valore è il più probabile e gli altri valori sono tanto meno probabili quanto piùsi discostano da quest’ultimo. I caratteri antropometrici (peso, altezza) sono ben approssimabili dal modellonormale, così come numerose caratteristiche qualitative dei processi produttivi industriali. L’importanzadella distribuzione normale è anche dovuta al fatto che la distribuzione di numerose vv.cc. di interesse perla statistica può, sotto ipotesi non troppo restrittive, essere ben approssimata dalla distribuzione normalegrazie al teorema centrale del limite.Per indicare che la v.c. X ha pdf normale si scrive X ∼ N

(µ, σ2

).

La pdf della v.c. normale descrive una curva di forma campanulare, simmetrica che viene definita curvanormale. Data la simmetria della curva, moda, media e mediana coincidono. La curva normale è asintoticarispetto all’asse delle ascisse e presenta due punti di flesso in corrispondenza di µ+ σ e µ− σ.

Primi elementi di inferenza statistica (ed. maggio 2012) 46 M. Di Marzio

Page 54: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

7. PRINCIPALI VARIABILI CASUALI CONTINUE

−4 −2 0 2 40

0.1

0.2

0.3

0.4

x

f(x;

µ,σ

)

−4 −2 0 2 40

0.2

0.4

0.6

0.8

1

x

F(x

;µ,σ

)

Figura 7.1: Una funzione di densità di una v.c. normale con relativa funzione di ripartizione.

Le variazioni del solo parametro µ determinano traslazioni lungo l’asse reale come mostrato in figura 7.2.Le variazioni del solo parametro σ determinano, invece, variazioni nella forma che risulta più appuntita econ code leggere per valori più piccoli di σ e più appiattita e con code pesanti per valori di σ maggiori. Unesempio è riportato in figura 7.3.

7.3 Variabile casuale normale standardSappiamo che ogni coppia dei parametri µ e σ individua una distinta distribuzione normale. Comunquetutte queste possono essere trasformate in un’unica distribuzione normale attraverso l’operazione di stan-dardizzazione (sez. 3.12). Infatti, data una qualsiasi v.c. normale X con valore atteso µ e varianza σ2 lav.c.

Z =X − µ

σ

ha ancora distribuzione normale, ovviamente con valore atteso 0 e varianza 1. In simboli Z ∼ N (0, 1). Lafunzione di densità della v.c. normale standardizzata Z è data da:

fZ(z) =1√2π

e−z2

2 −∞ < z < ∞.

Spesso, per indicare la funzione di densità e la funzione di ripartizione della normale standard, si usanorispettivamente i simboli ϕ e Φ. Un esempio di standardizzazione di vv.cc. normali è contenuto in figura7.4. Segue ora una fondamentale uguaglianza che spiega la notevole importanza pratica della v.c. normalestandardizzata.Se X ∼ N (µ, σ2), allora per ogni numero reale a si ha

FX(a) = P(X ≤ a) = P

(X − µ

σ≤ a− µ

σ

)= P

(Z ≤ a− µ

σ

)= Φ

(a− µ

σ

).

Pertanto dati due numeri reali a e b, con a < b, dall’uguaglianza precedente si deduce che per una qualsiasiv.c. X ∼ N (µ, σ2) la probabilità può essere calcolata tramite la funzione di ripartizione della normalestandardizzata come segue

P(a < X < b) = Φ

(b− µ

σ

)− Φ

(a− µ

σ

).

Circa il calcolo dei valori della funzione di ripartizione, si è visto che

Φ(z) =

∫ z

−∞

1√2π

e−t2

2 dt,

non ha soluzione in forma chiusa, così si ricorre ad apposite tavole che aiutano a calcolarlo.Le tavole forniscono i valori della funzione di ripartizione Φ(z) = P(−∞ < Z < z). Si tenga inoltre presenteche per la simmetria della curva normale si ha

Φ(−z) = 1− Φ(z).

M. Di Marzio 47 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 55: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

7.3. Variabile casuale normale standard

−6 −4 −2 0 2 4 60

0.1

0.2

0.3

0.4

x

f(x;

µ,σ)

Figura 7.2: Distribuzioni normali con differenti valori di µ: −3, 0, 3.

−6 −4 −2 0 2 4 60

0.2

0.4

0.6

0.8

x

f(x;

µ,σ)

Figura 7.3: Distribuzioni normali con differenti valori di σ: 0.6, 1, 3.

Figura 7.4: Standardizzazione di vv.cc. normali.

Esempio 7.1. Il diametro X di un lotto di viti prodotte in serie si distribuisce normalmente con media µ = 2 cm edeviazione standard σ = 0.5 cm. Si è interessati a determinare la frazione di viti con diametro superiore a 1 cm. A talescopo, osserviamo innanzitutto che determinare la frazione di viti con diametro superiore a 1 significa determinare laprobabilità che X assuma valori nell’intervallo (1,+∞), e quindi il valore dell’area colorata in figura 7.5. Ricorrendoall’operazione di standardizzazione si può scrivere

P(X > 1) = P

(X − µ

σ>

1− 2

0.5

)= P(Z > −2).

Si osservi cheP(X > 1) = 1− P(X ≤ 1) = 1− P

(X − µ

σ≤ 1− 2

0.5

)= 1− P(Z ≤ −2),

Primi elementi di inferenza statistica (ed. maggio 2012) 48 M. Di Marzio

Page 56: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

7. PRINCIPALI VARIABILI CASUALI CONTINUE

1 2 1

f(x;

µ,σ

)

x

Figura 7.5: L’area ombreggiata indica la quantità P(X > 1).

e poichéΦ(−2) = 1− Φ(2)

si haP(X > 1) = 1− (1− Φ(2)) = Φ(2)

e dalla tavola in cui sono riportati i valori della funzione di ripartizione della v.c. normale standardizzata si vede cheΦ(2) = 0.97725.

Infine indichiamo il centile superiore di ordine α1 della normale standardizzata con zα, cioè zα è quel numeroche soddisfa l’equazione

P(Z ≥ zα) = α.

7.4 Variabile casuale uniformeDati due reali a e b, tali che b > a, la v.c. X : (a, b) → (a, b) è detta uniforme se ha pdf

fX(x; a, b) =

1

b− ase a < x < b

0 altrimenti,

e si scrive X ∼ U(a, b). Qui Θ = (a, b) : a ∈ R, b ∈ R, b > a. Si dimostra facilmente che

E[X] =b+ a

2e Var[X] =

(b− a)2

12.

Quindi una v.c. X ha distribuzione uniforme in un intervallo (a, b) se la funzione di densità di X è costantein (a, b).Si può pervenire alla formulazione della pdf uniforme attraverso il seguente ragionamento. Ricordando chefX(x) misura quanto è verosimile che X assuma un valore prossimo a x, si ipotizzi che tale misura è la stessaper ogni x ∈ (a, b), allora fX sarà pari a una costante k > 0 per ogni x ∈ (a, b). Ora, essendo l’area sotto unapdf pari a 1, il valore di k si ottiene dividendo l’area per la lunghezza della base b− a.Se X ∼ U(a, b), dati due reali c, d ∈ (a, b) tali che c < d è immediato verificare che

P(c < X < d) =d− c

b− a,

ossia la probabilità che la v.c. assuma valori nell’intervallo (c, d) interno all’intervallo (a, b) è data dal rapportotra le ampiezze dei due intervalli, o in altri termini la probabilità che la v.c. uniforme assuma valori in unsottointervallo è proporzionale alla lunghezza del sottointervallo stesso. Si ha infatti

P(c < X < d) =

∫ d

c

fX(x) dx =

∫ d

c

1

b− adx

=x

b− a

∣∣∣∣dc

=d

b− a− c

b− a

=d− c

b− a.

1Si ricordi che α è espresso in centesimi compresi tra 0 e 1

M. Di Marzio 49 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 57: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

7.5. Variabile casuale esponenziale

Per quanto detto, la funzione di ripartizione è data da:

FX(x; a, b) =x− a

b− a,

infatti

FX(x) =

∫ x

a

fX(u) du =

∫ x

a

1

b− adu

=u

b− a

∣∣∣∣xa

=x− a

b− a.

In figura 7.6 sono rappresentate la pdf e la funzione di ripartizione della v.c. X ∼ U(a, b). La distribuzione

x

f(x;a

,b)

1 b−a

a b 0

0.2

0.4

0.6

0.8

1

x

F(x

;a,b

)

a b

Figura 7.6: Pdf e funzione di ripartizione di una v.c. uniforme.

uniforme è un modello probabilistico adatto a rappresentare esperimenti che danno luogo ad eventi equiprob-abili o esperimenti su cui non si hanno informazioni sufficienti per stabilire se determinati risultati siano piùprobabili rispetto ad altri.Un altro naturale impiego del modello uniforme sta nell’estrazione di numeri casuali compresi in (a, b).Questo perché sotto la distribuzione uniforme tutti gli intervalli di uguale lunghezza compresi tra a e b sonoequiprobabili.

Esempio 7.2. Ogni mattina un individuo giunge presso una stazione degli autobus alle ore 7:00. Se un autobusarriva presso la stazione ad un orario casuale tra le 7:00 e le 7:30, qual è la probabilità che l’individuo aspetti l’autobusper più di 10 minuti?Se l’autobus arriva alla stazione X minuti dopo le 7:00, allora X è una v.c. uniforme sull’intervallo (0, 30). Laprobabilità cercata è allora data da

P(10 < X < 30) =30− 10

30= 2/3 ≃ 0.6666.

7.5 Variabile casuale esponenzialeUna v.c. X : [0,+∞) → [0,+∞) è detta esponenziale se ha pdf

fX(x;λ) =

λe−λx se x ≥ 0

0 altrimenti,

e si scrive X ∼ E(λ). Qui Θ = (0,+∞). Si dimostra inoltre che

E[X] =1

λe Var[X] =

1

λ2.

La funzione di ripartizione della v.c. esponenziale è data da

FX(x;λ) = 1− e−λx,

Primi elementi di inferenza statistica (ed. maggio 2012) 50 M. Di Marzio

Page 58: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

7. PRINCIPALI VARIABILI CASUALI CONTINUE

infatti

FX(x) =

∫ x

0

fX(u) du =

∫ x

0

λe−λu du = −e−λu

∣∣∣∣x0

= 1− e−λx.

Come la v.c. discreta geometrica, l’esponenziale misura l’attesa del verificarsi di un dato evento casuale.

0 1 2 3 4 5 6 70

0.2

0.4

0.6

0.8

1

x

f(x;λ

)

λ = 1

λ = 0.5

0 1 2 3 4 5 6 70

0.2

0.4

0.6

0.8

1

x

F(x

;λ) λ = 1

λ = 0.5

Figura 7.7: Pdf e funzione di ripartizione di vv.cc. esponenziali per diversi valori di λ : 0.5, 1.

Se per la geometrica l’attesa è espressa da un numero di esiti, in questo caso è misurata da lunghezze digrandezze continue come il tempo o lo spazio.

Esempio 7.3. Per una rete di computer il tempo X (ore) necessario per la prima connessione degli utenti hadistribuzione esponenziale con λ = 25 connessioni per ora. Supponiamo di essere interessati alla probabilità che nonvi siano connessioni in un intervallo di 6 minuti. Poiché 6 min = 0.1 ore, la probabilità cercata è

P(X > 0.1) = 1− P(X ≤ 0.1) = 1− (1− e−25×0.1) ≃ 0.082.

Una proprietà che caratterizza la v.c. esponenziale, e la accomuna alla v.c. geometrica, è la proprietàdell’assenza di memoria. Ricordiamo che una v.c. X si definisce priva di memoria se:

P(X ≥ t+ s|X ≥ t) = P(X ≥ s),

Per dimostrare l’assenza di memoria, si ricordi che la funzione di ripartizione della v.c. esponenziale èFX(x) = 1− e−λx, allora

P(X ≥ t+ s|X ≥ t) =P(X ≥ t+ s ∩X ≥ t)

P(X ≥ t)

=P(X ≥ t+ s)

P(X ≥ t)

=1− FX(t+ s)

1− FX(t)

=1− 1− e−λ(t+s)1− 1− e−λt

= e−λs = 1− FX(s)

= P(X ≥ s).

Esempio 7.4. Il tempo di vita X (anni) di un certo tipo di televisore è una v.c. esponenziale con media 10. Se unindividuo ha acquistato questo tipo di televisore più di 10 anni fa, qual è la probabilità che il suo televisore durerà peralmeno altri 10 anni? Se X è una v.c. esponenziale, allora E[X] = 1/λ, quindi il parametro della distribuzione deltempo di vita del televisore è λ = 1/10. Per la proprietà di assenza di memoria della v.c. esponzenziale, la probabilitàcercata è data da

P(X > 20|X > 10) = P(X > 10) = 1− (1− e−(1/10)10) ≃ 0.37.

M. Di Marzio 51 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 59: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

8Esercizi svolti

Esercizio 8.1. In uno zuccherificio le confezioni di zucchero vengono realizzate automaticamente e il pesoX di ogni confezione è una v.c. normale con µ = 500 g e σ = 2 g. Calcolare la probabilità che il peso di unaconfezione

a) sia inferiore a 504 g;

b) sia almeno pari a 498 g;

c) sia compreso tra 495 g e 506 g;

d) sia compreso tra 501 g e 503 g.

Soluzione Poiché X ∼ N (500, 4), la v.c. Z = (X − 500)/2 è una v.c. normale standardizzata, si ha:a)

P(X < 504) = P

(Z <

504− 500

2

)= Φ(2) = 0.9772.

b)

P(X ≥ 498) = P

(Z ≥ 498− 500

2

)= P(Z ≥ −1)

= 1− Φ(−1) = 1− (1− Φ(1)) = 1− (1− 0.8413)

= 0.8413.

c)

P(495 < X < 506) = P

(495− 500

2< Z <

506− 500

2

)= P(−2.5 < Z < 3)

= Φ(3)− Φ(−2.5) = Φ(3)− (1− Φ(2.5)) = 0.9987− (1− 0.9938)

= 0.9925.

d)

P(501 < X < 503) = P

(501− 500

2< Z <

503− 500

2

)= P(0.5 < Z < 1.5)

= Φ(1.5)− Φ(0.5) = 0.9332− 0.6915

= 0.2417.

Esercizio 8.2. Un questionario viene somministrato ad un gruppo di studenti. Sapendo che ad ogni rispostaesatta è attribuito un punto e che i punteggi realizzati dal gruppo di studenti si distribuiscono normalmentecon media µ = 80 e s.q.m. σ = 10, qual è il numero minimo di risposte esatte che uno studente deve fornireper posizionarsi entro il 10% dei migliori studenti del gruppo?

Soluzione Considerata la v.c. X ∼ N (80, 100), occorre determinare il valore x tale che P(X ≥ x) = 0.10 oP(X < x) = 0.90. Poiché

P(X < x) = P

(Z <

x− 80

10

)Primi elementi di inferenza statistica (ed. maggio 2012) 52 M. Di Marzio

Page 60: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

8. ESERCIZI SVOLTI

e poiché dalla tavola della funzione di ripartizione della normale standardizzata risulta Φ(1.28) = 0.8997,allora

x− 80

10≃ 1.28,

da cui x ≃ 92.8. Si conclude pertanto che lo studente dovrà rispondere correttamente ad almeno 93 domande.

Esercizio 8.3. Si analizza un processo che produce sacchetti per la spesa. Vogliamo conoscere qualcosa inpiù sulle sue caratteristiche analizzando alcuni dati relativi allo stesso. In particolare, sappiamo che sonostati scartati il 4.475% di sacchetti perché troppo resistenti, infatti essi sono tutti più resistenti di 7.55 kgper cm2, e il 13.567% perché troppo poco resistenti, infatti essi sono tutti meno resistenti di 3.35 kg percm2. Ammettendo che la resistenza abbia distribuzione normale, ci chiediamo quale modello normale megliorappresenta l’intera produzione e quindi il processo.

Soluzione Per identificare il modello normale che meglio rappresenta la popolazione prodotta, occorre stimareµ e σ. I dati riguardano due proposizioni probabilistiche:

P(X > 7.55) = 0.04475 e P(X < 3.35) = 0.13567.

Poiché i quantili della normale standard sono espressi in termini di µ e σ , troviamo i quantili corrispondentialle due probabilità. Bisogna risalire ai quantili associati alle aree:

1− 0.04475 = 0.9552 e 1− 0.13567 = 0.86433.

Dalle tavole della funzione di ripartizione della normale standard si ricava

z0.04475 = 1.7 e z0.86433 = −1.1.

Questi due valori permettono di costruire un sistema di due equazioni in due incognite:1.7 = 7.55−µ

σ

− 1.1 = 3.35−µσ

µ = 7.55− 1.7σ

− 1.1σ = 3.35− 7.55 + 1.7σ⇒

µ = 5

σ = 1.5

Esercizio 8.4. Si consideri la v.c. X ∼ U(a, b). Dimostrare che E[X] = (a+ b)/2.

Soluzione

E[X] =

∫ b

a

xfX(x)dx =

∫ b

a

x1

b− adx

=1

b− a

x2

2

∣∣∣∣ba

=b2

2(b− a)− a2

2(b− a)

=(b− a)(a+ b)

2(b− a)=

a+ b

2.

Esercizio 8.5. Un autobus parte dal capolinea ogni 30 minuti e la prima corsa è alle 7:30. Se una personanon conosce l’orario dell’autobus e arriva al capolinea alle 8 e X minuti, dove X ∼ U(0, 60), calcolare laprobabilità che debba aspettare

a) al più 10 minuti;

b) almeno 15 minuti.

Soluzione a) Il passeggero dovrà aspettare al più 10 minuti, se giunge al capolinea tra le 8:20 e le 8:30 o trale 8:50 e le 9:00 ossia se 20 < X < 30 o 50 < X < 60. Poiché per una v.c. X ∼ U(a, b), la probabilità diassumere valori in un sottointervallo (c, d) di (a, b) è data da

P(c < X < d) =d− c

b− a,

la probabilità cercata è data da

P(20 < X < 30) + P(50 < X < 60) =30− 20

60+

60− 50

60=

1

3≃ 0.3334.

b) Il passeggero dovrà aspettare almeno 15 minuti se giunge al capolinea tra le 8:00 e le 8:15 o tra le 8:30 ele 8:45. La probabilità cercata è allora

P(0 < X < 15) + P(30 < X < 45) =15

60+

45− 30

60=

1

2= 0.5

M. Di Marzio 53 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 61: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Esercizio 8.6. Il capo del personale di una grande industria ha stabilito che un operaio impiega tra gli 8 e i13 minuti per completare il suo compito in un processo di assemblaggio. Per saperne di più sul rendimentodell’operaio, ipotizzando che la distribuzione dei tempi di esecuzione sia uniforme, egli vuole determinarefX(x), E[X] e Var[X]. Inoltre, siccome una prestazione ottimale richiederebbe meno di 11 minuti, si vuolesapere quante operazioni sono effettuate entro i limiti di eccellenza.

Soluzione Evidentemente a = 8 e b = 13, si ha pertanto

fX(x; 8, 13) =

1

13−8 se 8 < x < 13

0 altrimenti.

Risulta inoltreE[X] =

b+ a

2=

21

2= 10.5,

e

Var[X] =(b− a)

2

12=

25

12= 2.08.

Infine, la probabilità cercata è

P(X < 11) =11− 8

13− 8=

3

5= 0.6

per cui il dipendente in questione lavora in condizioni di eccellenza solo per il 60% del proprio operato.

Esercizio 8.7. Sia X una v.c. uniforme in (a, b) con E[X] = 3/2 e Var[X] = 25/12. Determinare i valoridei parametri a e b.

Soluzione Poiché per una v.c. X ∼ U(a, b) risulta

E[X] =a+ b

2e Var[X] =

(b− a)2

12,

per determinare i valori dei parametri a e b risolviamo il seguente sistema di due equazioni in due incognitecon il vincolo a < b:

a+b2 = 3

2

(b−a)2

12 = 2512

a+ b = 3

(b− a)2 = 25⇒

b = 3− a

(3− 2a)2 = 25⇒

b = 3− a

4a2 − 12a− 16 = 0.

La soluzione dell’equazione 4a2 − 12a − 16 = 0 che soddisfa il vincolo 3 − a > a è data da a = −1. Si hapertanto

a = −1b = 4.

Esercizio 8.8. Una banca ha il problema di ottimizzare la ripartizione di risorse umane tra il front-office– che è a contatto con il cliente – e il back-office – che svolge il relativo lavoro d’ufficio. A tal fine risultaimportante conoscere i flussi di arrivo della clientela. Sapendo che si verificano in media 0.2 arrivi all’ora,ci si chiede qual è la probabilità che fino al prossimo arrivo trascorrano tra i 30 e i 45 minuti a partire da unistante qualsiasi.

Soluzione Si noti che in questo problema la probabilità del tempo fino al prossimo arrivo non dipende daquando c’è stato l’ultimo arrivo, quindi se si inizia a contare l’attesa dall’ultimo arrivo o da qualsiasi altromomento non cambia nulla. In questo senso allora risulta corretto applicare un modello senza memoria comel’esponenziale.Essendo E[X] = 1/λ = 0.2, la pdf della v.c. esponenziale da utilizzare ha allora la forma fX(x; 5) = 5e−5x.Poiché 30 minuti corrispondono a 0.5 ore e 45 minuti a 0.75 ore, ricordando che FX(x) = 1− e−λx si ottiene:

P(0.5 < X < 0.75) = FX(0.75)− FX(0.5) =[1− e−(5×0.75)

]−[1− e−(5×0.5)

]= (1− e−3.75)− (1− e−2.5) ≃ 0.9765− 0.9179 = 0.0586.

Esercizio 8.9. Il tempo X necessario per effettuare un’operazione presso lo sportello di un ufficio postale èuna v.c. esponenziale con varianza pari a 9 minuti. Calcolare

a) il tempo medio impiegato dai clienti per effetture un’operazione presso lo sportello;

b) la probabilità che un cliente impieghi più di 6 minuti per effettuare un’operazione;

Primi elementi di inferenza statistica (ed. maggio 2012) 54 M. Di Marzio

Page 62: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

8. ESERCIZI SVOLTI

c) la probabilità che un cliente impieghi più di 10 minuti per effettuare un’operazione, sapendo che si trovaallo sportello da più di 2 minuti.

Soluzione a) Poiché X è una v.c. esponenziale E[X] = 1/λ. Essendo Var[X] = 1/λ2 = 9, risulta

E[X] = 3.

b) Poiché E[X] = 1/λ = 3, il parametro della pdf di X è λ = 1/3. La probabilità cercata è allora:

P(X > 6) = 1− P(X ≤ 6) = 1−[1− e−(1/3×6)

]= e−2 ≃ 0.1353.

c) Poiché la v.c. esponenziale è priva di memoria si ha

P(X > 12|X > 2) = P(X > 10).

Pertanto la probabilità cercata è

P(X > 10) = 1− P(X ≤ 10) = 1−[1− e−(1/3×10)

]= e−10/3 ≃ 0.0357.

Esercizio 8.10. Da osservazioni effettuate sul traffico presso un incrocio stradale, è risultato che il tempoX in giorni intercorrente tra due incidenti può essere convenientemente descritto da una v.c. esponenziale.Sapendo che con probabilità pari a 0.02 non ci saranno incidenti nei prossimi due giorni, determinare il tempomedio intercorrente tra due incidenti.

Soluzione Poiché la v.c. X descrive il tempo intercorrente tra due incidenti, il tempo medio si determinaricavando il parametro λ della distribuzione di X. Poiché la probabilità di non avere incidenti nei due giornisuccessivi è data da

P(X > 2) = 1− P(X ≤ 2) = 1− (1− e−2λ) = e−2λ,

sapendo chee−2λ = 0.02,

e passando ai logaritmi, si ottiene

ln(e−2λ) = ln 0.02 ⇒ −2λ = −3.91202 ⇒ λ ≃ 1.96.

Si conclude quindi che presso l’incrocio in questione si verifica, in media, un incidente ogni 1/1.96 = 0.51giorni.

M. Di Marzio 55 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 63: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9Variabili casuali multiple

Indice9.1 Variabili casuali multiple e distribuzioni di probabilità congiunte . . . . . . . 569.2 Funzioni di variabile casuale multipla . . . . . . . . . . . . . . . . . . . . . . . . 589.3 Distribuzioni di probabilità marginali . . . . . . . . . . . . . . . . . . . . . . . . 599.4 Distribuzioni di probabilità condizionate . . . . . . . . . . . . . . . . . . . . . . 609.5 Variabili casuali indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639.6 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649.7 Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659.8 Indipendenza e incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669.9 Distribuzione normale doppia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

9.1 Variabili casuali multiple e distribuzioni di probabilità congiunteLe vv.cc. considerate finora – chiamate semplici – hanno origine dall’osservazione di un sigolo carattere adogni esito di un esperimento casuale. Se invece rileviamo le modalità di due o più caratteri, allora osserviamorealizzazioni di variabili casuali multiple.

Esempio 9.1. L’esperimento consista nel lanciare una moneta tre volte. Definiamo le due variabili casuali X= numero di teste; Y = numero di croci negli ultimi due lanci. Così ad ogni elemento dello spazio fondamentaleΩ = (T,C)× (T,C)× (T,C) è associata una coppia di numeri come segue:

Ω X Y

ω1 = TTT 3 0

ω2 = CTT 2 0

ω3 = TCT 2 1

ω4 = TTC 2 1

ω5 = CCT 1 1

ω6 = CTC 1 1

ω7 = TCC 1 2

ω8 = CCC 0 2

L’insieme di coppie (3, 0), (2, 0), (2, 1), (1, 1), (1, 2), (0, 2) costituisce l’immagine della v.c. multipla (X,Y ). In parti-colare (X,Y ) è detta v.c. doppia.

Nel presente capitolo saranno principalmente studiate le vv.cc. doppie, cioè funzioni che associano ad unesito di un esperimento casuale una coppia di numeri. E’ importante sottolineare che n vv.cc. qualsiasi nonformano una v.c. n-pla, perché ciò sia possibile tutte le vv.cc. devono essere definite sugli esiti di un unicoesperimento casuale. Infine si noti che le espressioni n variabili casuali e variabili casuale n-pla sono usatequasi sempre, ma sempre in questo testo, come sinonimi.

Primi elementi di inferenza statistica (ed. maggio 2012) 56 M. Di Marzio

Page 64: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9. VARIABILI CASUALI MULTIPLE

La v.c. doppia (X,Y ) è detta discreta (risp. continua) se entrambe le sue componenti sono discrete (risp.continue).La funzione di distribuzione di probabilità della v.c. doppia discreta (X,Y ) è quella funzione pXY cheassocia una probabilità ad ogni elemento del prodotto cartesiano tra l’immagine X e quella di Y ; la sommadelle probabilità deve essere pari a uno. Formalmente se X assume s modalità e Y assume t modalità,abbiamo:

pXY : x1, x2, ...xs × y1, y2, ...yt → (0, 1] es∑

i=1

t∑j=1

pXY (xi, yj) = 1.

inoltre pXY è nulla in corrispondenza di qualsiasi altro punto del piano. Le pdf delle vv.cc. doppie discretevengono espresse tramite tabelle in cui l’elemento di posto (i, j) è la probabilità della realizzazione (xi, yj).

Esempio 9.2. Con riguardo all’esempio 9.1, possiamo riassumere tutti gli esiti con le relative probabilità nellaseguente tabella

YX 0 1 2

0 0 0 1/8

1 0 2/8 1/8

2 1/8 2/8 0

3 1/8 0 0

Così, ad esempio

P(X = 2, Y = 1) = 2/8 , P(X < 3, Y > 1) = 2/8 , P(X > 2, Y < 1) = 1/8.

La somma delle probabilità è pari a 1:

0 + 0 + 1/8 + 0 + 2/8 + 1/8 + 1/8 + 2/8 + 0 + 1/8 + 0 + 0 = 1.

La funzione di densità di probabilità della v.c. doppia continua (X,Y ) è quella funzione fXY che associaun numero reale non negativo ad ogni elemento del prodotto cartesiano tra le immagini di X e Y , e tale chesu quest’ultimo insieme il suo integrale sia pari a uno. Analogamente al caso discreto, fuori da [a, b] × [c, d]fXY vale zero. Formalmente, se X assume valori in [a, b] e Y in [c, d], scriviamo

fXY : [a, b]× [c, d] → (0,+∞) e∫ +∞

−∞

∫ +∞

−∞fXY (x, y) dxdy = 1.

Così come nel caso unidimensionale, i valori di una pdf di v.c. doppia continua sono infiniti, e di conseguenzanon possono essere rappresentati tramite tabelle, ma solo graficamente.

Esempio 9.3. Si consideri la v.c. doppia (X,Y ) con funzione di densità

fXY (x, y) =

4xy se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 10 altrimenti.

La figura 9.1 ne contiene il grafico. L’immagine di (X,Y ) è [0, 1]× [0, 1], ovviamente risulta∫ +∞

−∞

∫ +∞

−∞fXY (x, y) dxdy =

∫ 1

0

∫ 1

0

4xy dxdy = 1.

Anche per il caso continuo possiamo, per esempio, calcolare

P(X ∈ [0, 0.5], Y ∈ [0, 0.5]) =

∫ 0.5

0

∫ 0.5

0

4xy dx dy

=

∫ 0.5

0

(2yx2

∣∣∣∣0.50

)dy

=

∫ 0.5

0

0.5y dy

=0.5

2y2

∣∣∣∣0.50

= 0.0625;

M. Di Marzio 57 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 65: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9.2. Funzioni di variabile casuale multipla

00.5

1

0

0.5

10

2

4

xyf(

x,y)

Figura 9.1: Grafico della pdf dell’esempio 9.3.

P(X ∈ [0.2, 0.5], Y ∈ [0, 0.3]) =

∫ 0.3

0

(∫ 0.5

0.2

4xy dx

)dy

=

∫ 0.3

0

(2yx2

∣∣∣∣0.50.2

)dy

=

∫ 0.3

0

(0.5y − 0.08y)dy

=

∫ 0.3

0

0.42y dy

=0.42

2y2

∣∣∣∣0.30

= 0.0189.

9.2 Funzioni di variabile casuale multipla

In analogia a quanto detto nella sezione 3.1 per le funzioni di una v.c., introduciamo ora le funzioni div.c. multipla. Si consideri la funzione g : Rn → R. Data la v.c. multipla (X1, X2, ..., Xn), ancheY = g(X1, X2, ..., Xn) è una v.c. la cui pdf pY si desume dalla relazione seguente

pY (y) = P(Y = y) =∑

x1,x2,...,xn:y=g(x1,x2,...,xn)

P(X1 = x1, X2 = x2, ..., Xn = xn).

Esempio 9.4. Un primo esempio di funzione di variabile casuale doppia è la somma g(X,Y ) = X+Y . Due funzionidella v.c. doppia (X,Y ) che spesso incontreremo sono:

g(X,Y ) = XY e g(X,Y ) = (X − µX)(Y − µY )

Esempio 9.5. Si consideri la v.c. che vale 1 se dal lancio di una moneta esce testa, e zero altrimenti. Il lancio ditre monete definisce la v.c. tripla (X1, X2, X3) dove ogni componente è una v.c. bernoulliana di parametro p = 0.5.Il numero di teste nel lancio delle tre monete è una funzione somma: Y = g(X1, X2, X3) = X1 +X2 +X3, la sua pdfassume i seguenti valori

pY (0) = pX1X2X3(0, 0, 0) = 1/8;

pY (1) = pX1X2X3(1, 0, 0) + pX1X2X3(0, 1, 0) + pX1X2X3(0, 0, 1) = 3/8;

pY (2) = pX1X2X3(1, 1, 0) + pX1X2X3(1, 0, 1) + pX1X2X3(0, 1, 1) = 3/8;

pY (3) = pX1X2X3(1, 1, 1) = 1/8;

Primi elementi di inferenza statistica (ed. maggio 2012) 58 M. Di Marzio

Page 66: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9. VARIABILI CASUALI MULTIPLE

Di conseguenza il valore atteso di una funzione di una v.c. doppia E[g(X,Y )], è così definitos∑

i=1

t∑j=1

g(xi, yj)pXY (xi, yj) o

∫ +∞

−∞

∫ +∞

−∞g(x, y)fXY (x, y) dx dy

a seconda se la v.c. doppia è discreta, dove X ha s modalità e Y ha t modalità, oppure è continua.

Esempio 9.6. Le due funzioni di v.c. doppia viste nell’esempio 9.4 hanno i seguenti valori attesi

E[XY ] =

∑s

i=1

∑tj=1 xiyjpXY (xiyj) se (X,Y ) è discreta∫∞

−∞

∫∞−∞ xyfXY dx dy se (X,Y ) è continua.

E[(X − µX)(Y − µY )] =

∑s

i=1

∑tj=1(xi − µX)(yj − µY )pXY (xiyj) se (X,Y ) è discreta∫∞

−∞

∫∞−∞(x− µX)(y − µY )fXY dx dy se (X,Y ) è continua.

Quest’ultimo valore atteso è detto covarianza (sez. 9.6).

Allo studio di alcune fondamentali funzioni di v.c. multipla è dedicato l’intero capitolo 11.

9.3 Distribuzioni di probabilità marginaliData la v.c. doppia discreta (X,Y ), si può definire la probabilità che X = xi (o Y = yj) sommando leprobabilità di tutti gli esiti che presentano la modalità xi (o yj), in formule

pX(xi) = P(X = xi) =t∑

j=1

pXY (xi, yj) e pY (yj) = P(Y = yj) =s∑

i=1

pXY (xi, yj).

E’ evidente che i valori pX(xi) : i = 1, 2, ..., s (risp. pY (yj) : j = 1, 2, ..., t) costituiscono l’immagine dellapdf di X (risp. Y ), pX (risp. pY ) è chiamata pdf marginale di X (risp. di Y ).Analogamente se (X,Y ) è continua, le pdf marginali sono

fX(x) =

∫ +∞

−∞fXY (x, y) dy e fY (y) =

∫ +∞

−∞fXY (x, y) dx.

Esempio 9.7. Nell’esempio 9.1 abbiamo le seguenti pdf marginali:

X pX(xi) =t∑

j=1

pXY (xi, yj)

0 1/8 = 0 + 0 + 1/8

1 3/8 = 0 + 2/8 + 1/8

2 3/8 = 1/8 + 2/8 + 0

3 1/8 = 1/8 + 0 + 0

Y pY (yj) =s∑

i=1

pXY (xi, yj)

0 2/8 = 0 + 0 + 1/8 + 1/8

1 4/8 = 0 + 2/8 + 2/8 + 0

2 2/8 = 1/8 + 1/8 + 0 + 0

nell’esempio 9.3 si ha

fX(x) =

∫ 1

0

4xy dy = 2x per x ∈ [0, 1] e fY (y) =

∫ 1

0

4xy dx = 2y per y ∈ [0, 1].

L’espressione marginale si può spiegare come segue. In una distribuzione doppia discreta, che riporta i totalidi riga e di colonna, i valori di pX (pY ), essendo proprio quei totali, si trovano ai margini della tabella.Una questione che potrebbe sorgere è questa: se conosciamo le pdf marginali, possiamo ricostruire la pdfcongiunta? Per esempio, se conosciamo fX(x) e fY (y), possiamo ottenere fXY (x, y)? In generale, la rispostaè no. Questo perchè di solito esistono molte pdf congiunte che hanno le stesse marginali.

Esempio 9.8. Si considerino le due vv. cc. doppie (X,Y ) e (Z,W ) con rispettive pdf congiunte:

fXY (0, 0) =1

12, fXY (1, 0) =

5

12, fXY (0, 1) =

3

12, fXY (1, 1) =

3

12

fWZ(0, 0) =1

6, fWZ(1, 0) =

1

3, fWZ(0, 1) =

1

6, fWZ(1, 1) =

1

3,

ora si noti che fXY (x, y) e fWZ(x, y), seppure differenti, hanno le stesse marginali. Infatti: fX(0) = fW (0) = 1/3;fX(1) = fW (1) = 2/3; fY (0) = fZ(0) = 1/2; fY (1) = fZ(1) = 1/2;

M. Di Marzio 59 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 67: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9.4. Distribuzioni di probabilità condizionate

9.4 Distribuzioni di probabilità condizionateData una realizzazione (xi, yj) della v.c. doppia discreta (X,Y ), se P(X = xi) > 0, per il teorema delleprobabilità composte abbiamo

P(Y = yj | X = xi) =P(X = xi ∩ Y = yj)

P(X = xi),

il membro di destra è un rapporto dove il numeratore è dato dalla pdf congiunta, mentre il denominatore èdato dalla pdf marginale di X. Questo rapporto tra pdf costituisce esso stesso un valore di una pdf chiamatapdf di Y condizionata all’evento X = xi. Esiste chiaramente anche la pdf di X condizionata all’eventoY = yj . In formule

pY |xi(yj) =

pXY (xi, yj)

pX(xi)e pX|yj

(xi) =pXY (xi, yj)

pY (yj).

E’ facile dimostrare che le la somma di tutti i valori assunti dalle pdf condizionate è pari a 1, come deveessere per una pdf:

t∑j=1

pY |xi(yj) =

∑tj=1 pXY (xi, yj)

pX(xi)=

pX(xi)

pX(xi)= 1

s∑i=1

pX|yj(xi) =

∑si=1 pXY (xi, yj)

pY (yj)=

pY (yj)

pY (yj)= 1.

Similmente se (X,Y ) è continua, abbiamo le densità condizionate così definite:

fY |x(y) =fXY (x, y)

fX(x)e fX|y(x) =

fXY (x, y)

fY (y),

anche qui ∫ ∞

−∞fX|y(x) dx =

∫ +∞

−∞

fXY (x, y)

fY (y)dx =

fY (y)

fY (y)= 1;∫ ∞

−∞fY |x(y) dy =

∫ +∞

−∞

fXY (x, y)

fX(x)dy =

fX(x)

fX(x)= 1.

Esempio 9.9. Data la pdf doppia dell’esempio 9.2, alcune distribuzioni di probabilità condizionate sono:

Y pY |0(yj)

0 0 = 01/8

1 0 = 01/8

2 1 = 1/81/8

Y pY |1(yj)

0 0 = 03/8

1 23= 2/8

3/8

2 13= 1/8

3/8

X pX|0(xi)

0 0 = 02/8

1 0 = 02/8

2 12= 1/8

2/8

3 12= 1/8

2/8

X pX|1(xi)

0 0 = 04/8

1 12= 2/8

4/8

2 12= 2/8

4/8

3 0 = 04/8

Esempio 9.10. Con riferimento all’esempio 9.3, le pdf condizionate sono

fY |x(y) =4xy

2x= 2y e fX|y(x) =

4xy

2y= 2x

rispettivamente per y ∈ [0, 1] e x ∈ [0, 1].

Primi elementi di inferenza statistica (ed. maggio 2012) 60 M. Di Marzio

Page 68: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9. VARIABILI CASUALI MULTIPLE

Esempio 9.11. Un laboratorio di analisi misura la presenza di alcool nel sangue di un gruppo di uomini (0) e donne(1), fermati casualmente mentre guidano. Le variabili studiate sono il livello di alcool nel sangue (Y ) e il sesso (X).Risulta la seguente distribuzione doppia di probabilità:

Y

X < 0.05 ≥ 0.05

0 0.50 0.15

1 0.30 0.05

dalla quale otteniamo che la probabilità di fermare casualmente un automobilista che presenta un livello di alcoolsuperiore al limite di 0.05 è

pY (≥ 0.05) = 0.15 + 0.05 = 0.20.

Vogliamo sapere se questa probabilità dipende dal sesso dell’automobilista.Supponiamo di fermare una donna, calcoliamo

pY |1(≥ 0.05) =pXY (xi, yj)

pX(xi)=

pXY (≥ 0.05, 1)

pX(1)=

0.05

0.35= 0.143.

Interpretazione: Mentre il 20% degli automobilisti fermati presentano nel sangue un livello di alcool superiore allo0.05, solo il 14.3% delle donne superano il limite. La dipendenza dal sesso appare di conseguenza fondata.Calcoliamo adesso la pdf della presenza dell’alcol nel sangue condizionata al sesso maschile:

pY |0(< 0.05) =pXY (< 0.05, 0)

pX(0)=

0.50

0.65= 0.77;

pY |0(≥ 0.05) =pXY (≥ 0.05, 0)

pX(0)=

0.15

0.65= 0.23.

Riassumendo, pY |0 può così rappresentarsi

y < 0.05 ≥ 0.05

pY |0 0.77 0.23

Il valore atteso di una distribuzione condizionata viene definito valore atteso condizionato. Formalmente,ipotizziamo che X e Y hanno una distribuzione di probabilità congiunta discreta, il valore atteso conzionatodi Y data X = xi è una funzione di xi così definita

E[Y | xi] = E[Y | X = xi] =t∑

j=1

yjpY |xi(yj), E[X|yj ] = E[X|Y = yj ] =

s∑i=1

xipX|yj(xi).

Similmente per le vv.cc. continue abbiamo

E[Y |x] = E[Y |X = x] =

∫ +∞

−∞y fY |x(y) dy, E[X|y] = E[X|Y = y] =

∫ +∞

−∞x fX|y(x) dx.

Esempio 9.12. Con riferimento all’esempio 9.9, segue il calcolo delle rispettive medie condizionate

E[Y |X = 0] = 0× 0 + 1× 0 + 2× 1 = 2;

E[Y |X = 1] = 0× 0 + 1× 2

3+ 2× 1

3=

4

3;

E[X|Y = 0] = 0× 0 + 1× 0 + 2× 1

2+ 3× 1

2=

5

2;

E[X|Y = 1] = 0× 0 + 1× 1

2+ 2× 1

2+ 3× 0 =

3

2.

Esempio 9.13. Date due vv.cc. continue con funzione di densità congiunta

fXY (x, y) =

e−y se 0 < x < 1 e y > 00 altrimenti,

Il grafico di questa densità congiunta è contenuto nella figura 9.2.

M. Di Marzio 61 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 69: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9.4. Distribuzioni di probabilità condizionate

00.5

1

00.5

1

0.2

0.4

0.6

0.8

1

xyf(

x,y)

Figura 9.2: Grafico della pdf dell’esempio 9.13.

Calcolare E[X | Y = 2].Usando la definizione abbiamo

E[X | Y = 2] =

∫ +∞

−∞xfX|Y (x | 2) dx

=

∫ 1

0

xfXY (x, 2)

fY (2)dx

=

∫ 1

0

xe−2

fY (2)dx.

Poiché

fY (2) =

∫ 1

0

fXY (x, 2)dx

=

∫ 1

0

e−2dx = e−2,

abbiamo

E[X | Y = 2] =

∫ 1

0

xe−2

e−2dx =

1

2x2

∣∣∣∣10

=1

2.

Si deve segnalare che il valore atteso condizionato non è un numero, come lo è il valore atteso semplice, mauna funzione reale di xi (risp. x) o yj (risp. y). Chiaramente se esso viene considerato prima di osservare X,allora sarà una funzione della v. c. Xi (risp. X) o Yj (risp. Y ).Una fondamentale proprietà del valore atteso condizionato, inteso come funzione di v.c., è la cosiddettaproprietà delle medie iterate:

E[E[Y | X]] = E[Y ];

di seguito lo dimostriamo per il caso discreto, per il caso continuo bisogna semplicemente considerare gliintegrali al posto delle sommatorie.Se X e Y sono due vv.cc. discrete che possono assumere rispettivamente s e t modalità, allora abbiamo che

E[E[Y | X]] =s∑

i=1

t∑j=1

yjpY |xi(yj)pX(xi),

Primi elementi di inferenza statistica (ed. maggio 2012) 62 M. Di Marzio

Page 70: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9. VARIABILI CASUALI MULTIPLE

inoltre, ricordando la definizione di pdf condizionata, scambiando le due sommatorie e richiamando ladefinizione di pdf marginale, otteniamo

E[E[Y | X]] =

s∑i=1

t∑j=1

yjpXY (xi, yj)

=t∑

j=1

yj

s∑i=1

pXY (xi, yj)

=t∑

j=1

yjpY (yj)

= E[Y ].

La varianza di una distribuzione condizionata viene definita varianza condizionata. Così ad esempio, datala v.c. doppia (X,Y ), la varianza di Y condizionata all’evento X = x, sarà indicata come Var[Y | X = x]. Inanalogia al caso non condizionato, la varianza condizionata può essere espressa come la seguente differenza:

Var[Y | X = x] = E[Y 2 | X = x]− (E[Y | X = x])2 .

Esempio 9.14. Con riferimento all’esempio 9.13 abbiamo visto che E[X | Y = 2] = 1/2 e inoltre

E[X2 | Y = 2] =

∫ 1

0

x2 e−2

e−2dx = 1/3

per cui

Var[X | y = 2] =1

3− 1

4= 0.889.

9.5 Variabili casuali indipendentiIn analogia al caso di eventi indipendenti (sez. 1.5), possiamo definire l’indipendenza tra le componenti divv.cc. multiple. Data una v.c. doppia discreta (X,Y ), X e Y sono indipendenti se la pdf congiunta è datadal prodotto delle rispettive marginali, cioè se e solo se per ogni coppia (xi, yj)

pXY (xi, yj) = pX(xi)pY (yj).

Analogamente, il caso di v.c. (X,Y ) continua richiede che, per ogni coppia (x, y)

fXY (x, y) = fX(x)fY (y).

Esempio 9.15. Con riferimento all’esempio 9.3, valutiamo se le vv.cc. X e Y sono indipendenti. La rispostaè affermativa poiché la pdf congiunta fXY (x, y) = 4xy è pari al prodotto delle marginali, che sono rispettivamentefX(x) = 2x e fY (y) = 2y.Anche le vv.cc. X e Y con pdf congiunta

fXY (x, y) =

6e−2x−3y se 0 ≤ x ≤ ∞ e 0 ≤ y ≤ ∞

0 altrimenti

sono indipendenti poiché la pdf congiunta fXY (x, y) = 6e−2x−3y è pari al prodotto delle marginali, che sono una pdfesponenziale di parametro λ = 3 e una pdf esponenziale di parametro λ = 2.

Esempio 9.16. Una fondamentale generalizzazione di queste definizioni porterà nel seguito a formulare la den-sità congiunta associata a un campione casuale di n elementi. Il campione casuale è definito come una v.c. n-pla(X1, X2, ..., Xn) le cui singole componenti sono vv.cc. indipendenti e identicamente distribuite. Così a causa del-l’indipendenza la pdf congiunta del campione è data dal prodotto delle marginali. Ma essendo le componenti identi-camente distribuite, le marginali sono tutte uguali, cioè pX1 = pX2 = ... = pXn = pX , allora per il caso discretoabbiamo

pX1X2...Xn(x1, x2, ..., xn) = pX1(x1)× pX2(x2)× ...× pXn(xn) =

n∏i=1

pX(xi).

Analogamente, per il caso continuo se la pdf marginale comune è fX si ha

fX1X2...Xn(x1, x2, ..., xn) = fX1(x1)× fX2(x2)× ...× fXn(xn) =

n∏i=1

fX(xi).

M. Di Marzio 63 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 71: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9.6. Covarianza

Per accertare l’indipendenza nel caso discreto bisogna verificare che pXY (xi, yj) = pX(xi)pY (yj) per tuttele coppie (xi, yj). Ma spesso le possibili coppie (xi, yj) sono molto numerose. D’altro lato, dimostrare ladipendenza può essere facile poiché basta trovare una sola coppia per cui non vale la regola del prodotto dellemarginali. Ad esempio, due vv.cc. discrete sono dipendenti se nella distribuzione doppia esiste anche unasola coppia (xi, yj) per cui pXY (xi, yj) = 0. Questo perché x e y sono valori possibili e quindi

pX(xi) > 0 e pY (yj) > 0,

il che implica che nel caso di indipendenza pXY (xi, yj) = pX(xi)pY (yj) > 0, ricavando che le vv.cc. sonodipendenti.

9.6 CovarianzaCosì come si può essere interessati alla misura della concordanza tra variabili statistiche, allo stesso modolo si può essere alla misura della concordanza tra componenti di una v.c. multipla. Data una v.c. doppia(X,Y ), una misura della concordanza tra le sue componenti X e Y è la covarianza.Se X e Y sono discrete con s e t modalità, allora la loro covarianza è definita come

σXY = Cov [X,Y ] =s∑

i=1

t∑j=1

(xi − µX)(yj − µY ) pXY (xi, yj).

Analogamente se X e Y sono continue

σXY = Cov [X,Y ] =

∫ ∞

−∞

∫ ∞

−∞(x− µX)(y − µY )fXY (x, y) dxdy

dove fXY (x, y) è la pdf della v.c. doppia (X,Y ). Utilizzando l’operatore valore atteso E possiamo denotarela covarianza con una simbologia comune ai casi discreto e continuo

Cov[X,Y ] = E[(X − µX)(Y − µY )].

E’ facile derivare una formulazione alternativa della covarianza, cioè

Cov[X,Y ] = E[XY ]− µXµY ,

infatti:

Cov[X,Y ] = E[(X − µX)(Y − µY )]

= E[XY − µXY −XµY + µXµY ]

= E[XY ]− µXµY − µXµY + µXµY

= E[XY ]− µXµY .

La terza uguaglianza deriva dalla seconda applicando la regola per cui il valore atteso di una somma è datodalla somma dei valori attesi, si veda la sezione 11.1. Ora se X = Y si ha

Cov[X,X] = E[X2]− µ2X = Var[X].

Alcune proprietà della covarianza sono:

1) Cov[X,Y ] = Cov[Y,X];

2) Se a è un numero reale, Cov[aX, Y ] = aCov[X,Y ];

3) Se a e b sono due numeri reali, Cov[X + a, Y + b] = Cov[Y,X];

4) Se a, b, c, d sono numeri reali, Cov[aX + b, cY + d] = acCov[Y,X].

Queste proprietà si dimostrano facilmente ricorrendo alle proprietà del valore atteso. Ad esempio, usando larelazione Cov[X,Y ] = E[XY ]− µXµY , dimostriamo la proprietà 4):

Cov[aX + b, cY + d] = E[(aX + b)(cY + d)]− E[aX + b]E[cY + d]

= E[acXY + bcY + adX + bd]− (aµX + b)(cµY + d)

= ac(E[XY ]− µXµY )

= acCov[X,Y ].

Come detto, la covarianza fornisce informazioni circa la relazione tra due vv.cc. X e Y , in particolare ci dicecome variano congiuntamente. Quindi, ricordando che la coviarianza è un valore atteso (del prodotto degliscarti) sono possibili i seguenti casi

Primi elementi di inferenza statistica (ed. maggio 2012) 64 M. Di Marzio

Page 72: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9. VARIABILI CASUALI MULTIPLE

a) Cov(X,Y ) > 0, X e Y variano in media nello stesso senso (correlazione positiva),

b) Cov(X,Y ) < 0, X e Y variano in media in senso opposto (correlazione negativa),

c) Cov(X,Y ) = 0, X e Y variano in media indifferentemente l’una dall’altra (incorrelazione).

9.7 Correlazione

Date le due vv.cc. X e Y , con 0 < σ2X < ∞ e 0 < σ2

Y < ∞, definiamo coefficiente di correlazione tra Xe Y , e lo indichiamo con ρXY , il seguente rapporto:

ρXY =Cov[X,Y ]

σXσY.

Si noti che ρXY può essere inteso come la covarianza tra X e Y standardizzati (sez. 3.12), cioè

ρXY = Cov[X∗, Y ∗] = Cov

[X − µX

σX,Y − µY

σY

].

Infatti, usando la proprietà 4) della covarianza otteniamo

Cov[X∗, Y ∗] = Cov

[X − µX

σX,Y − µY

σY

]= Cov

[X

σX− µX

σX,Y

σY− µY

σY

]=

1

σX

1

σYCov[X,Y ]

=Cov[X,Y ]

σXσY.

Il coefficiente di correlazione fornisce importanti informazioni su come X e Y variano congiuntamente. Inparticolare, ρXY misura la forza del legame lineare tra X e Y , cioè quanta parte della relazione tra X eY può essere spiegata dalla legge lineare Y = aX + b, dove a e b sono costanti. Inoltre, a differenza dellacovarianza, ρXY non è sensibile alle scale di misura, ed ha un minimo e un massimo. Di seguito alcune sueproprietà

a) −1 ≤ ρXY ≤ 1;

b) ρXY = −1 se Y = aX + b, con a < 0;

c) ρXY = 1 se Y = aX + b, con a > 0;

d) ρXY = 0 se Cov[X,Y ] = 0.

Dimostriamo la proprietà c). Se Y = aX + b e a > 0, allora:

ρXY =Cov[X,Y ]√

Var[X]√

Var[Y ]

=Cov[X, aX + b]√

Var[X]√

Var[aX + b]

=aCov[X,X + b]√Var[X]a

√Var[X]

=aCov[X,X]√

Var[X]a√Var[X]

=aVar[X]

aVar[X]

= 1.

M. Di Marzio 65 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 73: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9.8. Indipendenza e incorrelazione

9.8 Indipendenza e incorrelazione

Date le due vv.cc. discrete X e Y , il valore atteso del loro prodotto è dato da:

E[XY ] =s∑

i=1

t∑j=1

xiyj pXY (xi, yj).

Ma se X e Y sono indipendenti, allora pXY (xi, yj) = pX(xi)pY (yj), e quindi:

E[XY ] =s∑

i=1

t∑j=1

xiyj pXY (xi, yj)

=s∑

i=1

t∑j=1

xiyj pX(xi)pY (yj)

=s∑

i=1

xipX(xi)t∑

j=1

yjpY (yj)

= E[X]E[Y ].

Così abbiamo dimostrato che nel caso di indipendenza il valore atteso del prodotto XY è pari al prodottodei valori attesi di X e di Y . Nel caso continuo vale lo stesso risultato con una dimostrazione simile.Ora, è facile dimostrare che l’indipendenza implica l’incorrelazione, infatti utilizzando la formula appenaottenuta abbiamo che la covarianza di due vv.cc. indipendenti è:

Cov[X,Y ] = E[XY ]− E[X]E[Y ]

= E[X]E[Y ]− E[X]E[Y ]

= 0.

Invece l’incorrelazione non implica l’indipendenza. Si consideri l’esempio che segue dove due vv.cc. sonoincorrelate ma dipendenti.

Esempio 9.17. Sia X una v.c. tale che: P(X = −1) = P(X = 0) = P(X = 1) = 1/3, inoltre sia Y così definita

Y =

0 se X = 01 se X = 0.

Ora, XY = 0 e quindi E[XY ] = 0. Inoltre E[X] = 0. E quindi Cov[X,Y ] = E[XY ]− E[X]E[Y ] = 0. Ma X e Y sonochiaramente dipendenti poiché sono legate da una relazione funzionale deterministica.E’ infine facile ricavare dai dati di sopra la seguente distribuzione doppia di (X,Y ):

XY −1 0 1

0 1/3 0 1/3 2/3

1 0 1/3 0 1/3

1/3 1/3 1/3 1

Evidentemente qui pXY (xi, yj) = pX(xi)pY (yj) che è una ulteriore prova della dipendenza.

9.9 Distribuzione normale doppia

La v.c. doppia (X,Y ) è detta normale doppia (o bivariata) se ha pdf congiunta pari a

fXY (x, y;µX , µY , σX , σY , ρXY ) =

=1

2πσXσY

√1− ρ2XY

exp

− 1

2(1− ρ2XY )

[(x− µX

σX

)2

− 2ρXY

(x− µX

σX

)(y − µY

σY

)+

(y − µY

σY

)2],

dove (x, y) ∈ R2. Si dimostra che ρXY è il coefficiente di correlazione tra X e Y , circa gli altri parametri siconsideri che le distribuzioni marginali sono normali, in particolare X ∼ N(µX , σ2

X) e Y ∼ N(µY , σ2Y ).

Primi elementi di inferenza statistica (ed. maggio 2012) 66 M. Di Marzio

Page 74: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9. VARIABILI CASUALI MULTIPLE

Molto importante risulta la densità di Y condizionata a X = x; si verifica facilmente (esercizio 10.13) cheessa è una pdf normale con media µY +ρXY

σY

σX(x−µX) e varianza σ2

Y (1−ρ2XY ). Così per la normale doppiavale il fondamentale risultato per cui la media condizionata risulta funzione lineare di x, mentre la varianzacondizionata non dipende da x (tale ultima proprietà è chiamata omoschedasticità). Queste due importantiproprietà verranno invocate nella teoria della regressione statistica (sezioni 24.2, 24.3).Infine è facile dimostrare che se (X,Y ) è una v.c. doppia normale, allora, eccezionalmente, X e Y sonoindipendenti se e solo se sono incorrelate. Infatti se ρXY = 0 allora

fXY (x, y;µX , µY , σX , σY , 0) =1

2πσXσYexp

−1

2

[(x− µX

σX

)2

+

(y − µY

σY

)2],

che è esattamente il prodotto delle pdf marginali, così deduciamo che X e Y sono indipendenti. Inoltre,ricordando che l’indipendenza implica l’incorrelazione, se X e Y sono indipendenti, allora ρXY = 0.Nella figura 9.3 sono presentati tre casi di distribuzione normale doppia. Evidentemente, se la correlazioneè diversa da zero le osservazioni sono ammassate intorno a una diagonale. Tanto più la correlazione è fortetanto più esse tendono a concentrarsi intorno alla diagonale. In corrispondenza del valore limite |ρ| = 1 sitroverebbero addirittura tutte su di essa.

M. Di Marzio 67 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 75: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

9.9. Distribuzione normale doppia

−20

2

−2

0

20

0.05

0.1

0.15

xy

f(x,

y)

−2 −1 0 1 2

−2

−1

0

1

2

X

y

−20

2

−2

0

20

0.1

0.2

xy

f(x,y

)

−2 −1 0 1 2

−2

−1

0

1

2

x

y

−20

2

−2

0

20

0.1

0.2

xy

f(x,y

)

−2 −1 0 1 2

−2

−1

0

1

2

x

y

Figura 9.3: Grafici di normali bivariate. Tutte hanno parametri µX = 0, µY = 0, σX = 1, σY = 1; nella prima rigaρXY = 0, nella seconda ρXY = 0.8 e nella terza ρXY = −0.8. I pannelli di destra sono rappresentazionitramite curve di livello.

Primi elementi di inferenza statistica (ed. maggio 2012) 68 M. Di Marzio

Page 76: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

10Esercizi svolti

Esercizio 10.1. Le variabili casuali X e Y hanno la seguente distribuzione di probabilità congiunta

Y

X 1 2 3

1 a 2a 3a

2 b c d

Trovare a, b, c e d sapendo che X e Y sono indipendenti e che 2pX(1) = pX(2).

Soluzione Siccome deve essere pX(1)+pX(2) = 1, allora pX(1)+2pX(1) = 1 per cui si ricava che pX(1) = 1/3e pX(2) = 2/3. Da cui 6a = 1/3 e quindi a = 1/18.Inoltre poiché X e Y sono indipendenti

pXY (x, y) = pX(x)pY (y).

Così, ad esempio, sappiamo che:a = pXY (1, 1) = pX(1)× pY (1)

e quindi

1/18 = 1/3× pY (1) ⇒ pY (1) = 3/18

2/18 = 1/3× pY (2) ⇒ pY (2) = 6/18

3/18 = 1/3× pY (3) ⇒ pY (3) = 9/18.

Infine

b = 3/18− 1/18 = 2/18

c = 6/18− 2/18 = 4/18

d = 9/18− 3/18 = 6/18.

Esercizio 10.2. Le variabili casuali X e Y hanno la seguente distribuzione di probabilità congiunta

Y

X 1 2 3

1 1/3 a 1/6

2 b 1/4 c

Dimostrare che X e Y sono indipendenti, qualunque siano i valori che a, b e c possono assumere.

M. Di Marzio 69 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 77: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Soluzione Dimostriamolo per assurdo. Se c’è indipendenza, allora abbiamo che

pX(1)× pY (1) = 1/3 e pX(1)× pY (3) = 1/6.

Il che implica che pY (1) = 2pY (3). Poniamo pY (3) = W . Allora, la distribuzione marginale di Y sarà:

pY (1) = 2W ; pY (2) = 1− 3W ; pY (3) = W.

Da ciò si deduce la distribuzione marginale di X espressa in termini di W . Sempre ipotizzando l’indipendenza,si ha che 2WpX(1) = 1/3, da cui pX(1) = 1/(6W ), e quindi

pX(2) = 1− 1/(6W ) =6W − 1

6W.

Così nel caso di indipendenza

1/4 =(1− 3W )(6W − 1)

6W,

da cui possiamo ricavare una equazione di secondo grado nel modo seguente

1/4 =6W − 1− 18W 2 + 3W

6W⇒ 3

2W = −18W 2 + 9W − 1 ⇒ −18W 2 +

15

2W − 1 = 0.

Risolvendo l’equazione troviamo che essa ammette solo radici immaginarie. Così non esistono valori di Wche permettono l’indipendenza.

Esercizio 10.3. La v.c. X assume i valori 0, 1, 2, 3 mentre la v.c. Y i valori 0, 1, 2. Inoltre la distribuzionedi probabilità congiunta è della forma

pXY (x, y) = c |x− y| .

a) Determinare il valore di c;

b) calcolare P(X = Y );

c) calcolare P(| X − 1 |≤ 1);

d) calcolare P(X + Y ≤ 3);

e) X e Y sono indipendenti?

Soluzione E’ immediato costruire la distribuzione di probabilità congiunta

Y

X 0 1 2

0 0 c 2c

1 c 0 c

2 2c c 0

3 3c 2c c

Da cui si evince che:a) c = 1/14;b)

P(X = Y ) = P(0, 0 ∪ 1, 1 ∪ 2, 2)= P(0, 0) + P(1, 1) + P(2, 2)= 0;

c)

P(| X − 1 |≤ 1) = P(0, 0 ∪ 0, 1 ∪ 0, 2 ∪ 1, 0 ∪ 1, 1 ∪ 1, 2 ∪ 2, 0 ∪ 2, 1 ∪ 2, 2)= pX(0) + pX(1) + pX(2)

= 3c+ 2c+ 3c

= 8c;

Primi elementi di inferenza statistica (ed. maggio 2012) 70 M. Di Marzio

Page 78: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

10. ESERCIZI SVOLTI

d)

P(X + Y ≤ 3) = P(0, 0 ∪ 0, 1 ∪ 0, 2 ∪ 1, 0 ∪ 1, 1 ∪ 1, 2 ∪ 2, 0 ∪ 2, 1 ∪ 3, 0)= 3c+ 2c+ 3c = 0 + c+ 2c+ c+ 0 + c+ 0 + 3c

= 11c;

e) X e Y non sono indipendenti. Infatti

pXY (0, 0) = 0 = 6c× 3c.

Esercizio 10.4. Un’urna contiene tre palle rosse e due verdi. Si estraggono due palle a caso una dopo l’altrai) reinserendo la prima e ii) senza reinserire la prima. Definiamo le seguenti vv.cc.

X =

1 se la prima è rossa0 se la prima è verde; Y =

1 se la seconda è rossa0 se la seconda è verde.

Per i casi i) e ii) definire

a) distribuzioni di probabilità congiunte,

b) distribuzioni di probabilità condizionate,

c) valori attesi condizionati.

Soluzione a) Le distribuzioni di probabilità congiunte, con e senza reinserimento, sono rispettivamente

XY 0 1

0 425

625

1 625

925

XY 0 1

0 220

620

1 620

620

b) Nel caso di reinserimento le densità condizionate sono

X pX|0(xi)

0 25

1 35

X pX|1(xi)

0 25

1 35

Y pY |0(yi)

0 25

1 35

Y pY |1(yi)

0 25

1 35

mentre nel caso di mancato reinserimento si ha

X pX|0(xi)

0 14

1 34

X pX|1(xi)

0 12

1 12

Y pY |0(yi)

0 14

1 34

Y pY |1(yi)

0 12

1 12

c) Infine, le medie condizionate sono nel caso di reinserimento e non reinserimento rispettivamente pari a

E[X|Y ] =

35 y = 0

35 y = 1;

E[Y |X] =

35 x = 0

35 x = 1;

e E[X|Y ] =

34 y = 0

12 y = 1;

E[Y |X] =

34 x = 0

12 x = 1.

Esercizio 10.5. La densità congiunta di X,Y è data da

fXY (x, y) =

2e−(x+2y) se 0 ≤ x < +∞ e 0 ≤ y < +∞0 altrimenti.

a) Calcolare P(X > 1, Y < 1);

b) calcolare P(X < a);

c) X e Y sono indipendenti?

M. Di Marzio 71 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 79: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Soluzione a)

P(X > 1, Y < 1) =

∫ 1

0

∫ ∞

1

2e−(x+2y) dxdy

=

∫ 1

0

2e−2y

(−e−x

∣∣∣∣∞1

)dy

= e−1

∫ 1

0

2e−2ydy

= e−1(1− e−2);

b)

P(X < a) =

∫ a

0

∫ ∞

0

2e−(x+2y) dydx

=

∫ a

0

e−xdx

= 1− e−a;

c) X e Y sono indipendenti poiché la densità congiunta è il prodotto di due densità esponenziali, con parametririspettivamente 2 e 1.

Esercizio 10.6. La densità congiunta di X,Y è data da

fXY (x, y) =

152 x(2− x− y) se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1

0 altrimenti.

a) Si calcolino le pdf marginali;

b) si calcoli la densità condizionata di X dato Y = y.

Soluzione a) Le densità marginali sono rispettivamente:

fX(x) =

∫ 1

0

15

2x(2− x− y) dy =

15

2x(1.5− x)

fY (y) =

∫ 1

0

15

2x(2− x− y) dx =

15

2(2/3− y/2).

b) Abbiamo

fX|y(x) =fXY (x, y)∫∞

−∞ fXY (x, y) dx

=15/2x(2− x− y)∫ 1

015/2x(2− x− y) dx

=x(2− x− y)

2/3− y/2.

Esercizio 10.7. La densità congiunta di X,Y è data da

fXY (x, y) =

e−x/ye−y

yse 0 ≤ x < +∞ e 0 ≤ y < +∞

0 altrimenti.

Calcolare il valore atteso condizionato di X su Y , cioè E[X|Y = y].

Primi elementi di inferenza statistica (ed. maggio 2012) 72 M. Di Marzio

Page 80: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

10. ESERCIZI SVOLTI

Soluzione Iniziamo con il calcolare la densità condizionata fX|y(x)

fX|y(x) =fXY (x, y)

fY (y)=

fXY (x, y)∫∞−∞ fXY (x, y) dx

=(1/y)e−x/ye−y∫∞

0(1/y)e−x/ye−y dx

=(1/y)e−x/y∫∞

0(1/y)e−x/y dx

=e−x/y

y,

come si vede, la densità condizionata è semplicemente la pdf esponenziale con parametro 1/y. Quindi ilvalore atteso condizionato sarà esattamente il valore atteso di questa esponenziale, cioè y. In formule

E[X|Y = y] =

∫ ∞

0

x

ye−x/y dx = y.

Esercizio 10.8. La distribuzione doppia di X,Y è la seguente

fXY (x, y) =

227x

2y se x ∈ [0, 3] e y ∈ [−1, 2]

0 altrimenti.

a) Dimostrare che fXY (x, y) è una densità congiunta;

b) calcolare le densità marginali;

c) X e Y sono indipendenti?

Soluzione a) Bisogna dimostrare che ∫ 2

−1

∫ 3

0

2

27x2ydxdy = 1.

Abbiamo che ∫ 2

−1

∫ 3

0

2

27x2y dxdy =

∫ 2

−1

(2

27yx3

3

∣∣∣∣30

)dy

=

∫ 2

−1

2

3ydy =

y2

3

∣∣∣∣2−1

=

(4

3− 1

3

)= 1.

b) Le densità marginali sono rispettivamente

fX(x) =

∫ 2

−1

2

27x2ydy =

2

27x2

(y2

2

∣∣∣∣2−1

)=

2

27x2

(4

2− 1

2

)=

1

9x2;

fY (y) =

∫ 3

0

2

27x2ydx =

2

27y

(x3

3

∣∣∣∣30

)=

2

27y27

3=

2

3y.

c) X e Y sono indipendenti perché

fX(x)× fY (y) =

(1

9x2

)(2

3y

)=

2

27x2y = fXY (x, y).

M. Di Marzio 73 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 81: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Esercizio 10.9. La densità congiunta di X,Y è data da

fXY (x, y) =

k(xy) se x ∈ [0, 1] e y ∈ [0, 1]0 altrimenti,

dove k è una costante.

a) Calcolare il valore di k tale che fXY (x, y) sia una funzione di densità congiunta;

b) calcolare le densità marginali;

c) X e Y sono indipendenti?

Soluzione a) Procediamo similmente all’esercizio precendente calcolando il seguente integrale

k

∫ 1

0

∫ 1

0

xydxdy = k

∫ 1

0

y

(x2

2

∣∣∣∣10

)dy

= k

∫ 1

0

y

2dy = k

(y2

4

∣∣∣∣10

)= k

1

4.

Quindi otteniamo che k = 4.b) Le densità marginali sono rispettivamente

fX(x) =

∫ 1

0

4(xy)dy

= 4x

∫ 1

0

ydy = 4x

(y2

2

∣∣∣∣10

)= 2x;

fY (y) =

∫ 1

0

4(xy)dx

= 4y

∫ 1

0

xdx = 4y

(x2

2

∣∣∣∣10

)= 2y.

c) X e Y sono indipendenti perché

fX(x)fY (y) = (2x)(2y) = 4xy = fXY (x, y).

Esercizio 10.10. La densità congiunta di X,Y è data da

fXY (x, y) =

ke−(ax+by) se 0 ≤ x < +∞ e 0 ≤ y < +∞

0 altrimenti,

dove a, b, k sono delle costanti.

a) Calcolare il valore di k tale che fXY (x, y) sia una funzione di densità congiunta;

b) calcolare le densità marginali;

c) X e Y sono indipendenti?

Soluzione a) Procediamo calcolando il seguente integrale

k

∫ ∞

0

∫ ∞

0

e−axe−bydxdy = k

∫ ∞

0

(−e−ax

ae−by

∣∣∣∣∞0

)dy

= k1

a

∫ ∞

0

e−bydy = k1

a

(−e−by

b

∣∣∣∣∞0

)=

k

ab.

Quindi otteniamo che k = ab.b) Le densità marginali sono rispettivamente

fX(x) =

∫ ∞

0

e−axe−bydy = ae−ax;

fY (y) =

∫ ∞

0

e−axe−bydx = be−by.

c) X e Y sono indipendenti perché

fX(x)fY (y) = (ae−ax)(be−bx) = abe−(ax+by) = fXY (x, y).

Primi elementi di inferenza statistica (ed. maggio 2012) 74 M. Di Marzio

Page 82: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

10. ESERCIZI SVOLTI

Esercizio 10.11. La densità congiunta di X,Y è data da

fXY (x, y) =

1 + xy

4se − 1 ≤ x ≤ 1 e − 1 ≤ y ≤ 1

0 altrimenti,

dove k è una costante.

a) Calcolare le densità marginali;

b) X e Y sono indipendenti?

c) Calcolare il valore atteso di X su Y .

Soluzione a) Le densità marginali sono rispettivamente

fX(x) =

∫ 1

−1

1

4(1 + xy)dy =

1

4

(y +

y2x

2

∣∣∣∣1−1

)=

1

4

[(1 +

x

2

)−(−1 +

x

2

)]=

1

2,

fY (y) =

∫ 1

−1

1

4(1 + xy)dx =

1

4

(x+

x2y

2

∣∣∣∣1−1

)=

1

4

[(1 +

y

2

)−(−1 +

y

2

)]=

1

2.

b) X e Y non sono indipendenti perché

fX(x)fY (y) =1

2

1

2= fXY (x, y).

c) Dato che

fX|y(x) =fXY (x, y)

fY (y)=

1 + xy

2,

il valore atteso di X condizionato a Y = y è il seguente

E[X|y] =∫ 1

−1

xfX|y(x)dx =

∫ 1

−1

x1 + xy

2dx =

1

2

∫ 1

−1

x+ x2ydx

=1

2

(x2

2+

x3

3y

∣∣∣∣1−1

)=

1

2

[(1

2+

y

3

)−(1

2− y

3

)]=

y

3.

Esercizio 10.12. L’ufficio acquisti di un’azienda ha rilevato l’ammontare X (centinaia di euro) delle for-niture richieste nell’ultimo mese ed il ritardo medio Y (giorni) nelle relative consegne. Sulla base dei datiraccolti si è costruita la pdf doppia seguente:

X

Y [10, 14) [14, 18) [18, 22) [22, 26)

7 5/45 4/45 0 1/45 10/45

8 6/45 3/45 4/45 0 13/45

9 0 0 6/45 2/45 8/45

10 0 0 6/45 8/45 14/45

11/45 7/45 16/45 11/45 1

a) Costruire la pdf marginale della v.c. X;

b) costruire la distribuzione della v.c. Y condizionata all’intervallo [14, 18) di X;

c) costruire la distribuzione della v.c. X condizionata all’evento Y = 9;

d) calcolare i valori attesi condizionati E[Y |X = xj ] per j = 1, 2, 3, 4;

e) determinare la probabilità che il ritardo nella consegna di una fornitura sia pari a 8;

M. Di Marzio 75 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 83: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

f) determinare la probabilità che una consegna pervenuta con ritardo y = 10 giorni rispetto al tempoconcordato sia di ammontare [18, 22) ;

g) determinare la probabilità che una fornitura di ammontare [22, 26) pervenga all’azienda con un ritardodi 7 giorni.

Soluzione a) La distribuzione marginale del carattere X è:

X [10, 14) [14, 18) [18, 22) [22, 26)

pX(xi) 11/45 7/45 16/45 11/45

b) La distribuzione di Y condizionata all’intervallo di modalità [14, 18) di X è:

Y 7 8 9 10

pY |[14,18)(yj) 4/7 3/7 0 0

c) La distribuzione della v.c. X condizionata alla modalità y3 = 9 di Y è:

X [10, 14) [14, 18) [18, 22) [22, 26)

pX|9(xi) 0 0 6/8 2/8

d) I valori attesi condizionati E[Y |X = xj ] per j = 1, 2, 3, 4 sono:

E[Y |X = x1] = 7.545; E[Y |X = x2] = 7.4286; E[Y |X = x3] = 9.125; E[Y |X = x4] = 9.545.

e) La probabilità che il ritardo nella consegna di una fornitura sia pari a 8 è

pY (8) =13

45.

f) La probabilità che una consegna pervenuta con ritardo y = 10 sia di ammontare compreso in [18, 22) è

pX|10([18, 22)) =pXY ([18, 22), 10)

pY (10)=

6/45

14/45=

6

14.

g) La probabilità che una fornitura di ammontare compreso in [22, 26) pervenga all’azienda con un ritardoy = 7 giorni è

pY |[22,26)(7) =pXY ([22, 26) , 7)

pX ([22, 26))=

1/45

11/45=

1

11.

Esercizio 10.13. Se la v.c. (X,Y ), ha distribuzione normale doppia, dimostrare che la densità condizionatadi Y su X = x è

fY |x(y;µX , µY , σX , σY , ρXY ) =1

σY

√2π√1− ρ2XY

exp

−[y − µY − ρXY

σY

σX(x− µX)

]2.

Soluzione Ricordando la definizione di pfd condizionata abbiamo

fY |x(y;µX , µY , σX , σY , ρXY ) =fXY (x, y;µX , µY , σX , σX , ρXY )

fX(x;µX , σX)

=

1

2πσXσY

√1−ρ2

XY

exp

− 1

2(1−ρ2XY )

[(x−µX

σX

)2

− 2ρXY

(x−µX

σX

)(y−µY

σY

)+

(y−µY

σY

)2]1

σX

√2π

exp

− 1

2

(x−µX

σX

)2

Primi elementi di inferenza statistica (ed. maggio 2012) 76 M. Di Marzio

Page 84: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

10. ESERCIZI SVOLTI

=1

σY

√2π√1− ρ2XY

exp

(x−µX

σX

)2

2(1− ρ2XY )+

ρXY

1− ρ2XY

(x− µX

σX

)(y − µY

σY

)−

(y−µY

σY

)2

2(1− ρ2XY )+

1

2

(x− µX

σX

)2

=1

σY

√2π√1− ρ2XY

exp

1

2

(x− µX

σX

)2(1− 1

1− ρ2XY

)+

ρXY

1− ρ2XY

(x− µX

σX

)(y − µY

σY

)− 1

2(1− ρ2XY )

(y − µY

σY

)2

=1

σY

√2π√1− ρ2XY

exp

−ρ2XY

2(1− ρ2XY )

(x− µX

σX

)2

+ρXY

1− ρ2XY

(x− µX

σX

)(y − µY

σY

)− 1

2(1− ρ2XY )

(y − µY

σY

)2

=1

σY

√2π√

1− ρ2XY

exp

−ρ2XYσ2Y

σ2X(x− µX)2 + 2ρXY

σY

σX(x− µX)(y − µY )− (y − µY )

2

2(1− ρ2XY )σ2Y

=1

σY

√2π√1− ρ2XY

exp

−[y − µY − ρXY

σY

σX(x− µX)

]2.

M. Di Marzio 77 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 85: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11Funzioni di variabili casuali

Indice11.1 Somma di variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7811.2 Distribuzioni del minimo e del massimo di variabili casuali . . . . . . . . . . . 8011.3 Variabili casuali che derivano dalla normale . . . . . . . . . . . . . . . . . . . . 8211.4 Somme di particolari variabili casuali indipendenti . . . . . . . . . . . . . . . . 8311.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

11.1 Somma di variabili casualiTutta la statistica si basa sul concetto di funzione di più variabili casuali (sez. 9.2). In questo capitolo nestudieremo alcune tra le più importanti. In particolare in questa sezione presentiamo il calcolo di valoreatteso e varianza della v.c. somma. In seguito daremo risposte più complete, infatti vedremo che in casiparticolari si può ottenere (sez. 11.4) o approssimare (sez. 11.5) addirittura la pdf della somma.Spesso è utile conoscere valore atteso e varianza della somma di vv.cc. per ciascuna delle quali già siano notivalore atteso e varianza.

Esempio 11.1. Supponiamo che gli incassi giornalieri di ciascuno dei 100 punti vendita di un supermercato sianorappresentati da vv.cc. indipendenti con media 25 e varianza 20 (migliaia di euro). Di conseguenza il totale degliincassi giornalieri della catena si rappresenta come una v.c.

∑100i=1 Xi dove Xi rappresenta l’incasso del punto vendita

i. Ovviamente, a fini previsivi, siamo interessati a valore atteso e varianza dell’incasso totale.

Date n vv.cc. X1, X2, ..., Xn, si consideri la v.c. somman∑

i=1

Xi

il valore atteso di tale somma è dato dalla somma dei valori attesi

E

[n∑

i=1

Xi

]=

n∑i=1

E[Xi]

Dimostriamo questa legge, detta additività del valore atteso, solo nel caso di una v.c. doppia continua, glialtri casi si deducono facilmente. Così dobbiamo dimostrare che

E[X + Y ] = E[X] + E[Y ]

infatti applicando la definizione di valore atteso di una funzione di v.c. doppia (sez. 9.2) abbiamo

E[X + Y ] =

∫ ∞

−∞

∫ ∞

−∞(x+ y)fXY (x, y) dxdy

=

∫ ∞

−∞x

[∫ ∞

−∞fXY (x, y) dy

]dx+

∫ ∞

−∞y

[∫ ∞

−∞fXY (x, y) dx

]dy

=

∫ ∞

−∞x fX(x) dx+

∫ ∞

−∞y fY (y) dy

= E[X] + E[Y ].

Primi elementi di inferenza statistica (ed. maggio 2012) 78 M. Di Marzio

Page 86: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11. FUNZIONI DI VARIABILI CASUALI

Esempio 11.2. Un’impresa ha partecipato a tre gare d’appalto sottoponendo preventivi di 10, 20 e 40 euro. Gli esitidelle gare sono indipendenti e le probabilità di successo sono rispettivamente 0.2, 0.8 e 0.3. Qual è il profitto totaleche l’azienda si aspetta?Il profitto totale è una v.c. S = X1 +X2 +X3, e quindi

E[S] = E[X1] + E[X2] + E[X3].

Poiché se non si vince l’appalto il ricavo sarà nullo, allora

E[S] = 10× 0.2 + 0× 0.8

+ 20× 0.8 + 0× 0.2

+ 40× 0.3 + 0× 0.7 = 30.

Certamente, se tutte le medie sono uguali e pari a µ, risulta

E

[n∑

i=1

Xi

]=

n∑i=1

E[Xi] =

n∑i=1

µ = nµ.

Esempio 11.3. Nell’esempio 11.1 abbiamo che E[S] = 100× 25 = 2500.

Circa la varianza della somma, si dimostra che

Var

[n∑

i=1

Xi

]=

n∑i=1

n∑j=1

Cov[Xi, Xj ]

=n∑

i=1

Var[Xi] +n∑

i=1

n∑j=1

i =j

Cov[Xi, Xj ]

ricordando che Cov[Xi, Xi] = Var[Xi]. Ma se X1, X2, ..., Xn sono indipendenti le covarianze sono nulle poichél’indipendenza implica l’incorrelazione (sez. 9.8). Allora per vv.cc. indipendenti si ha:

Var

[n∑

i=1

Xi

]=

n∑i=1

Var [Xi] .

Se inoltre X1, X2, ..., Xn hanno tutte la stessa varianza σ2

n∑i=1

Var [Xi] =

n∑i=1

σ2 = nσ2.

Esempio 11.4. Nell’esempio 11.1 abbiamo che Var[S] = 100× 20 = 2000.

Dimostriamo la formula della varianza di una somma di variabili casuali nel caso di due sole vv.cc. X e Y .Sapendo che Var[W ] = E[W 2]− (E[W ])2, per W = X + Y abbiamo

Var[X + Y ] = E[(X + Y )2]− (E[X + Y ])2

= E[X2 + Y 2 + 2XY ]− (E[X] + E[Y ])2

= E[X2] + E[Y 2] + 2E[XY ]− (E[X])2 − (E[Y ])2 − 2E[X]E[Y ]

= E[X2]− (E[X])2 + E[Y 2]− (E[Y ])2 + 2E[XY ]− 2E[X]E[Y ]

= Var[X] + Var[Y ] + 2Cov[X,Y ].

Chiaramente Var[X − Y ] = Var[X] + Var[Y ]− 2Cov[X,Y ].Si osservi che Var[X] misura la dispersione della v.c. X intorno al suo valore medio, mentre Var [

∑ni=1 Xi]

misura la dispersione congiunta delle vv.cc. X1, X2, ..., Xn intorno ai loro valori medi, infatti essa comprendeanche le covarianze.

Esempio 11.5. Sapendo che le vv.cc. X1, X2, X3 sono tali cheE[X1] = 2 e Var[X1] = 1; E[X2] = 1 e Var[X2] = 4; E[X3] = 0 e Var[X3] = 9, calcolare media e varianza di

T = X1 + 4X2 + 2X3

M. Di Marzio 79 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 87: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11.2. Distribuzioni del minimo e del massimo di variabili casuali

a) nel caso in cui X1, X2, X3 sono a due a due indipendenti;b) se Cov[3X1, 4X2] = −6; Cov[X1,X3] = 2.5; Cov[2X2, X3] = −2.

a) AbbiamoE[T ] = E[X1 + 4X2 + 2X3] = E[X1] + 4E[X2] + 2E[X3] = 6;

Var[T ] = Var[X1 + 4X2 + 2X3] = Var[X1] + 16Var[X2] + 4Var[X3] = 1 + 64 + 36 = 101;

b) si noti anzitutto che il valore atteso non cambia. Ora, se Cov[3X1, 4X2] = −6 allora 12Cov[X1, X2] = −6 per cuiCov[X1, X2] = −0.5. Analogamente, se Cov[2X2, X3] = −2, allora Cov[X2, X3] = −1, per cui:

Var[T ] = Var[X1 + 4X2 + 2X3] = Var[X1] + 16Var[X2] + 4Var[X3]

+ 4× 2× Cov[X1, X2] + 2× 2× Cov[X1, X3] + 4× 2× 2× Cov[X2, X3] =

= 1 + 64 + 36− 4 + 10− 16 = 91.

Supponiamo di avere n vv.cc. X1, X2, ..., Xn, ognuna con media µi e m vv.cc. Y1, Y2, ..., Ym, ognuna conmedia νi. La proprietà che segue è detta additività della covarianza:

Cov

[ n∑i=1

Xi,m∑j=1

Yj

]=

n∑i=1

m∑j=1

Cov[Xi, Yj ],

per dimostrare questo, ricordiamo che nella sezione 11.1, l’additività del valore atteso permette di scrivere

E

[ n∑i=1

Xi

]=

n∑i=1

µi, E

[ m∑j=1

Yj

]=

m∑j=1

νj ,

allora

Cov

[ n∑i=1

Xi,m∑j=1

Yj

]= E

[( n∑i=1

Xi −n∑

i=1

µi

)( m∑j=1

Yj −m∑j=1

νj

)]

= E

[ n∑i=1

(Xi − µi)m∑j=1

(Yj − νj)

]

= E

[ n∑i=1

m∑j=1

(Xi − µi)(Yj − νj)

]

=n∑

i=1

m∑j=1

E[(Xi − µi)(Yj − νj)]

=

n∑i=1

m∑j=1

Cov[Xi, Yj ].

Si noti che per passare dalla terzultima alla penultima equazione abbiamo ancora sfruttato l’additività delvalore atteso.

11.2 Distribuzioni del minimo e del massimo di variabili casualiDate n vv.cc. X1, X2, ..., Xn indipendenti e identicamente distribuite, aventi pdf continua fX , siano

Y1 = min(X1, X2, ..., Xn) e Yn = max(X1, X2, ..., Xn).

Dalla definizione di Y1 risulta che la funzione di ripartizione del minimo è

FY1(y) = P(Y1 ≤ y)

= 1− P(Y1 > y)

= 1− P(X1 > y ∩X2 > y ∩ ... ∩Xn > y),

poiché Y1 è maggiore di y se e solo se Xi > y, ∀i = 1, 2, ..., n. Poiché le vv.cc. X1, X2, ..., Xn sono indipendentisi ottiene

FY1(y) = 1−n∏

i=1

P(Xi > y)

= 1−n∏

i=1

[1− FXi(y)],

Primi elementi di inferenza statistica (ed. maggio 2012) 80 M. Di Marzio

Page 88: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11. FUNZIONI DI VARIABILI CASUALI

ed essendo le vv.cc. X1, X2, ..., Xn identicamente distribuite

FY1(y) = 1− [1− FX(y)]n.

Ricordando che la pdf di una v.c. continua può essere definita come derivata della funzione di ripartizione,si ottiene

fY1(y) = F′Y1(y) = n[1− FX(y)]n−1fX(y).

Dalla definizione di Yn risulta che la funzione di ripartizione del massimo è

FYn(y) = P(Yn ≤ y)

= P(X1 ≤ y ∩X2 ≤ y ∩ ... ∩Xn ≤ y),

in quanto Yn è minore o uguale a y se e solo se ogni v.c. Xi, i = 1, 2, ..., n, è minore o uguale a y. Pertanto

FYn(y) =n∏

i=1

FXi(y),

poiché le vv.cc. X1, X2, ..., Xn sono indipendenti; ma essendo anche identicamente distribuite, risulta

n∏i=1

FXi(y) = [FX(y)]n.

La pdf della v.c. Yn è allora definita da

fYn(y) = F′Yn

(y) = n[FX(y)]n−1fX(y).

Esempio 11.6. Siano X1, X2, ..., Xn n vv.cc. indipendenti uniformemente distribuite nell’intervallo [0, θ]. Deter-minare le pdf delle vv.cc.

a) Yn = maxX1, X2, ..., Xn;b) Y1 = minX1, X2, ..., Xn.

Soluzione a) Ciascun elemento del campione ha pdf e funzione di ripartizione pari a

fX(x; θ) =

se 0 ≤ x ≤ θ

0 altrimenti,

e

FX(u) =

∫ u

0

fX(x; θ) dx =

∫ u

0

1

θdx =

x

θ

∣∣∣∣u0

=u

θ.

Se Yn = yn, allora xi = yn per uno solo degli i ∈ 1, 2, ..., n, mentre per le restanti n− 1 osservazioni si ha xi ≤ yn.Così la funzione di ripartizione del massimo è pari alla probabilità che ogni elemento del campione sia minore o ugualead esso. Quindi, tenendo conto dell’indipendenza, possiamo scrivere:

FYn(yn) = FX(yn)n

derivando si ottiene la funzione di densità:

F′Yn

(yn) = fYn(yn) = n(FX(yn))n−1fX(yn) = n

(ynθ

)n−1 1

θ=

n(yn)n−1

θn.

b) Se Y1 = y1, xi = y1 per uno solo degli i ∈ 1, 2, ..., n e inoltre

P(Xi ≥ y1) = 1− FX(y1) = 1− y1θ.

Ricordando che Y1 può essere una qualsiasi delle n vv.cc. X1, X2, ..., Xn, si ottiene che la funzione di ripartizione delminimo, con ragionamento analogo al precedente, è

FY1(y1) = 1− FX(y1)n

infine, derivando si ottiene:

fY1(y1) = n(1− y1

θ

)n−1 1

θ= n

(θ − y1

θ

)n−11

θ=

n(θ − y1)n−1

θn.

M. Di Marzio 81 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 89: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11.3. Variabili casuali che derivano dalla normale

11.3 Variabili casuali che derivano dalla normaleOra si introducono alcune variabili casuali che rivestono un ruolo importantissimo nella statistica inferenziale,ossia la v.c. chi-quadrato, la v.c. t di Student e la v.c. F di Fisher. Esse sono definibili più o menodirettamente come funzioni di vv.cc. normali.Siano X1, X2, ..., Xr r vv.cc. indipendenti e tutte con distribuzione normale standard, allora la v.c. sommadei quadrati

X2r =

r∑i=1

X2i

è detta v.c. chi-quadrato con r gradi di libertà; qui X è la lettera greca χ in maiuscolo.

0 5 10 150

0.2

0.4

0.6

0.8

1

r=1

r=2

r=3 r=4

r=6

Figura 11.1: Funzioni di densità della v.c. X2r per diversi valori di r.

Si può dimostrare cheE[X2

r] = r e Var[X2r] = 2r.

la pdf della v.c. X2r non viene riportata poiché non di interesse per questo corso, comunque, come si vede

dalla figura 11.1, essa è asimmetrica ma tende alla normale N (r, 2r) all’aumentare dei gradi di libertà. Inanalogia a quanto appreso per la v.c. normale standard (sez. 7.3), indichiamo con χ2

α,r la quantità chesoddisfa l’equazione

P(X2r > χ2

α,r) = α.

Se X e Y sono vv.cc. indipendenti e rispettivamente normale standard e chi-quadrato con r gradi di libertà,allora la v.c.

Tr =X√Y/r

è detta t di Student con r gradi di libertà. La pdf della v.c. Tr non viene riportata, si tratta comunquedi una funzione simmetrica rispetto allo 0, di forma campanulare come la normale ma con code più alte;inoltre, come si può vedere dalla figura 11.2, al crescere dei gradi di libertà r tende alla normale standard.Tale convergenza, a differenza degli altri casi, è quasi completa già per piccoli valori di n. Infatti, come regolagenerale, la convergenza alla normale è tanto più veloce tanto più simmetrica è la distribuzione di partenza.In analogia a quanto appreso per le vv.cc. normale standard e chi-quadrato, indichiamo con tα,r la quantitàche soddisfa l’equazione

P(Tr > tα,r) = α.

Se X e Y sono vv.cc. indipendenti chi-quadrato rispettivamente con r1 e r2 gradi di libertà, allora la v.c.

Fr1,r2 =X/r1Y/r2

è detta F di Fisher con r1 e r2 gradi di libertà. La pdf della v.c. Fr1,r2 non viene riportata, comunque,come si può vedere dalla figura 11.3, è definita solo per valori positivi, è asimmetrica, ma come la χ2, alcrescere dei gradi di libertà, si trasforma in una distribuzione normale. In analogia a quanto appreso perle vv.cc. normale standard, chi-quadrato e t di Student, indichiamo con fα,r1,r2 la quantità che soddisfal’equazione

P(Fr1,r2 > fα,r1,r2) = α.

Primi elementi di inferenza statistica (ed. maggio 2012) 82 M. Di Marzio

Page 90: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11. FUNZIONI DI VARIABILI CASUALI

−5 0 50

0.1

0.2

0.3

0.4

0.5

x

f(x)

r=4r=∞r=1

Figura 11.2: Funzioni di densità della v.c. Tr per diversi valori di r.

0 1 2 3 40

0.2

0.4

0.6

0.8

1

x

f(x)

r1=10, r

2=4

r1=10,r

2=50

r1=10,r

2=300

Figura 11.3: Funzioni di densità della v.c. Fr1,r2 per alcune coppie (r1, r2).

11.4 Somme di particolari variabili casuali indipendenti

Se di n vv.cc. conosciamo non solo medie e varianze, ma sappiamo che hanno tutte la stessa pdf, anche secon parametri diversi, esistono casi in cui la famiglia parametrica a cui apprtiene la pdf della somma è lastessa a cui appartengono le singole vv.cc. sommate. Seguono alcuni dei casi più importanti.

⋄ Somma di vv.cc. binomiali Se n vv.cc. indipendenti X1, X2, ..., Xn hanno distribuzione binomialedi parametri rispettivamente (m1, π), (m2, π), ..., (mn, π), senza alcun calcolo possiamo concludere chela v.c. somma

∑ni=1 Xi ha distribuzione binomiale con parametri (

∑ni=1 mi, π). Infatti, Xi rappresenta

il numero di successi in mi prove dove P(successo) = π. Allora siccome le vv.cc. X1, X2, ..., Xn sonoindipendenti, ne segue che S rappresenta il numero di successi in

∑ni=1 mi prove indipendenti, ognuna

delle quali dà successo con probabilità π. Così S è una v.c. binomiale di parametri∑n

i=1 mi e π.

⋄ Somma di vv.cc. di Poisson Date n vv.cc. di Poisson indipendenti X1, X2, ..., Xn ognuna con dis-tribuzione di Poisson con parametri rispettivamente λ1t1, λ2t2, ..., λntn, la v.c.

∑ni=1 Xi si distribuisce

come una v.c. di Poisson con parametro∑n

i=1 λiti.

⋄ Somma di vv.cc. normali Siano X1, X2, . . . , Xn, n vv.cc. normali indipendenti aventi rispettiva-mente parametri (µ1, σ

21), (µ2, σ

22), ..., (µn, σ

2n), allora la v.c.

∑ni=1 Xi ha distribuzione normale con

parametri∑n

i=1 µi e∑n

i=1 σ2i .

⋄ Somma di vv.cc. chi-quadrato Date n vv.cc. chi-quadrato indipendenti X1, X2, ..., Xn rispettiva-mente con parametri r1, r2, ..., rn, la variabile casuale somma

∑ni=1 Xi si distribuisce ancora come una

v.c. chi-quadrato con parametro∑n

i=1 ri. Questo è ovvio, infatti ogni v.c. chi-quadrato è una sommadi vv.cc. normali standard indipendenti elevate al quadrato, così la somma di vv.cc. chi-quadrato èuna somma di somme di quadrati di normali standard.

M. Di Marzio 83 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 91: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11.5. Teorema centrale del limite

0 1 2 3 4 5 6 70

0.2

0.4

0.6

0.8

1

f(x)

n=4n=3

n=6

n=10

n=2

Figura 11.4: Distribuzioni di varie somme di vv.cc. uniformi indipendenti di parametri 0 e 1 con rispettiveapprossimazioni normali date dal teorema centrale del limite (linea tratteggiata).

11.5 Teorema centrale del limiteIl teorema centrale del limite (TCL) è uno dei risultati più importanti del calcolo delle probabilità. La suaportata nell’ambito della statistica è enorme.

Teorema 11.1. Teorema centrale del limite per la somma Siano X1, X2, . . . , Xn, n vv.cc. indipendentie identicamente distribuite (i.i.d.) con media µ e varianza σ2 entrambe finite.Al crescere di n la v.c. somma Sn =

∑ni=1 Xi tende ad avere distribuzione normale con media nµ e varianza

nσ2. In formule

limn→∞

P

(Sn − nµ√

nσ2≤ z

)= Φ(z).

Che valore atteso e varianza di S siano nµ e nσ2 è gia assicurato dalle proprietà della somma di variabilicasuali i.i.d. viste nella sezione 11.1. Piuttosto la grossa novità introdotta da questo teorema sta nello stabilireche la distribuzione della v.c. somma converge alla distribuzione normale, qualunque sia la pfd delle vv.cc.sommate. Quindi per n sufficientemente grande la conoscenza della distribuzione delle singole vv.cc. diventapoco rilevante ai fini del calcolo della distribuzione della somma, in quanto in virtù del TCL la distribuzionedella somma è approssimabile dalla pdf di una v.c. normale.Ma quanto grande deve essere il campione affinché l’approssimazione normale sia buona? Questo dipendemolto dalla simmetria della pdf comune alle vv.cc.. Per densità simmetriche si ha una buona convergenzaanche per n ≤ 10, come si può vedere nella figura 11.4, mentre una forte asimmetria ritarda la convergenza.Una regola pratica abbastanza efficace suggerisce che l’approssimazione è buona se n > 30.

Esempio 11.7. Nella figura 11.4 si riportano le pdf delle somme di n vv.cc. Xi ∼ U(0, 1), i.i.d. con i = 1, ..., n, neicasi in cui n assume i valori seguenti: 2, 3, 4, 6, 10. Inoltre sono anche riportate le relative approssimazioni normalidate dal TCL (linea tratteggiata). Va rilevato che in questo caso l’approssimazione è subito molto buona.

Come si è appreso nella sezione 11.4 esistono vv.cc. che possono essere espresse come somma di vv.cc. i.i.d..Ma secondo il TCL tali somme tendono ad avere distribuzione normale al crescere di n. Così concludiamoche in base al TCL le vv.cc. esprimibili come somme di vv.cc. i.i.d. hanno tutte distribuzione asintoticanormale. Questo vale per la v.c. di Poisson, che tende alla normale al crescere del valore del parametro λ (siveda la figura 5.4). Due ulteriori casi, che ora esaminiamo in dettaglio, sono quelli delle vv.cc. chi-quadratoe binomiale.

Approssimazione normale della v.c. chi-quadrato poiché una v.c. chi-quadrato con r gradi dilibertà è una somma di r vv.cc. chi-quadrato indipendenti con un grado di libertà, il TCL assicura chela v.c. chi-quadrato tende ad avere distribuzione normale con media r e varianza 2r, all’aumentare dir. Si veda la figura 11.1 per una verifica empirica. Così se r è grande vale la seguente approssimazione

P

(Z ≥

χ2α,r − r√2r

)≃ α,

Primi elementi di inferenza statistica (ed. maggio 2012) 84 M. Di Marzio

Page 92: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11. FUNZIONI DI VARIABILI CASUALI

da cui si deduce cheχ2α,r − r√2r

≃ zα

e quindiχ2α,r ≃ r + zα

√2r.

Questa approssimazione è utile quando bisogna calcolare il valore χ2α,r e r è tanto grande da non essere

presente nelle tavole.

Esempio 11.8. Controlliamo il valore dell’approssimazione χ2α,r ≃ r + zα

√2r con α = 0.05. Per r = 10

abbiamo che il vero valore è 18.31, mentre l’approssimazione è pari a 10 + 1.645√2× 10 = 17.35. Per r = 50

abbiamo che il vero valore è 67.50, mentre l’approssimazione è pari a 50 + 1.645√2× 50 = 66.45. Infine per

r = 100 abbiamo che il vero valore è 124.34, mentre l’approssimazione è pari a 100 + 1.645√2× 100 = 123.26.

Approssimazione normale della v.c. binomiale Abbiamo appreso che una v.c. binomiale Y conparametri n e π è una somma di n vv.cc. binomiali con parametri 1 e π. Così è applicabile il TLC.Allora, date n vv.cc. binomiali con parametri 1 e π, la loro somma – che è una v.c. binomiale – èdistribuita, al tendere di n a infinito, come una normale N (nπ, nπ(1−π)). La convergenza alla normaleè tanto più veloce quanto più simmetrica è la curva, cioè tanto più π è vicino a 0.5. Si osservi la figura5.1 per una verifica empirica. In formule

limn→∞

P

(Y − nπ√nπ(1− π)

< z

)= Φ(z).

Tale approssimazione richiede calcoli molto semplici e può essere utilizzata quando l’uso diretto delladistribuzione binomiale è reso proibitivo da numeri molto grandi.

Esempio 11.9. Si vuole sapere con che probabilità in 1000 giocate alla roulette il numero 2 esce almeno 25volte. Chiaramente il numero di volte in cui esce 2 è descritto da una v.c. binomiale Y con parametri n = 1000e π = 1/37. Così esistono 2 soluzioni dirette di questo problema

P(Y ≥ 25) =

1000∑x=25

(1000

x

)(1/37)x(1− 1/37)1000−x

ma questa soluzione richiede il calcolo di 976 addendi. La soluzione che segue richiede il calcolo di 25 addendi

P(Y ≥ 25) = 1− P(Y < 25)

= 1−24∑

x=0

(1000

x

)(1/37)x(1− 1/37)1000−x.

L’approssimazione normale fornita dal TCL afferma che Y tende a distribuirsi come una normale con parametri1000 1

37e 1000 1

37(1− 1

37) così si ottiene la seguente veloce soluzione

P(Y ≥ 25) = P

Y − 1000 137√

1000 137(1− 1

37)≥

25− 1000 137√

1000 137(1− 1

37)

= P(Z ≥ −0.4) = Φ(0, 4) = 0, 6554.

Segue un’altra formulazione del TCL banalmente equivalente alla precedente ma di più immediata utilità perla statistica. Tale formulazione si ottiene dividendo il numeratore e il denominatore di

∑i=1n Xi−µ

σ√n

per n.

Teorema 11.2. Teorema centrale del limite per la media Siano X1, X2, . . . , Xn, n vv.cc. i.i.d. conmedia µ e varianza σ2 entrambe finite.Al crescere di n la v.c. media X =

∑ni=1 Xi/n tende ad avere distribuzione normale con media µ e varianza

σ2/n. In formule

limn→∞

P

(X − µ

σ/√n

≤ z

)= Φ(z).

M. Di Marzio 85 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 93: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

11.5. Teorema centrale del limite

0 1 2 3 4 50

0.5

1

n=1

0 2 40

0.2

0.4

0.6

0.8n=2

0 1 2 30

0.5

1

1.5n=10

0 1 20

1

2

3n=30

Figura 11.5: Distribuzioni delle medie di n vv.cc. esponenziali indipendenti di parametro 1. Nel caso n = 30è anche riportata la rispettiva approssimazione normale data dal teorema centrale del limite (lineatratteggiata).

Esempio 11.10. Si consideri una popolazione esponenziale di parametro 1, cioè fX(x) = e−x x ≥ 0. Si dimostra chela media in questo caso ha distribuzione fX(x) = nn/(n−1)!xn−1e−nx per x > 0. In figura 11.5 sono rappresentatedistribuzioni di questa media campionaria per diverse numerosità campionarie. Per n = 1 abbiamo ovviamente unadistribuzione esponenziale fX(x) = e−x. Come emerge dall’analisi degli altri casi, per effetto del TCL all’aumentare din la distribuzione tende ad essere normale. In particolare la media sarà sempre 1, ma lo s.q.m. che, come sappiamo èpari a 1/

√n, diminuisce progressivamente. Si può osservare come la distribuzione delle media campionaria nel caso di

una distribuzione fortemente non normale tende velocemente alla normale. Infatti già per n = 10 c’è una asimmetrianon troppo elevata. Per n = 30 siamo già molto vicini alla normale (in tratteggio è anche rappresentata la funzionedi densità N (1, 1/

√30)).

Primi elementi di inferenza statistica (ed. maggio 2012) 86 M. Di Marzio

Page 94: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12Popolazione e campionamento

Indice12.1 Popolazione, campione e inferenza . . . . . . . . . . . . . . . . . . . . . . . . . . 8712.2 Popolazione come pdf parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . 8812.3 Campione casuale e osservato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8912.4 Statistiche campionarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9112.5 Media campionaria: valore atteso e varianza . . . . . . . . . . . . . . . . . . . . 9312.6 Media campionaria: funzione di densità . . . . . . . . . . . . . . . . . . . . . . . 9312.7 Valore atteso della varianza campionaria . . . . . . . . . . . . . . . . . . . . . . 9412.8 Funzione di densità della varianza campionaria nel caso di campioni casuali

gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9512.9 Altre statistiche calcolate su campioni casuali gaussiani . . . . . . . . . . . . . 96

12.1 Popolazione, campione e inferenza

Per popolazione si intende l’insieme degli elementi su cui un carattere statistico viene studiato. Il singoloelemento è chiamato unità statistica. Salvo casi eccezionali i caratteri statistici assumono intensità differentinelle varie unità statistiche: studiare un carattere statistico presso una popolazione significa accertare come lemodalità si distribuiscono tra le unità. Ad esempio, è importante conoscere quali modalità sono maggiormentepresenti di altre, inoltre se le modalità osservate sono tutte vicine tra loro oppure distanti.Non di rado sono di interesse anche popolazioni il cui numero di elementi non ha limite massimo, detteinfinite. Le popolazioni infinite sono chiaramente ipotetiche. Un esempio rilevante di popolazione infinita ècostituito dai prodotti ottenibili ripetendo indefinitamente una lavorazione nelle stesse condizioni.Il carattere statistico viene spesso rilevato solo su una porzione limitata della popolazione chiamata campi-one; in tali casi l’indagine non viene estesa a tutte le unità statistiche allo scopo di contenerne i costi. Tuttaviail campione viene analizzato per conoscere la popolazione. Di conseguenza è necessario che il campione siarappresentativo, cioè che la distribuzione del carattere presso il campione sia somigliante alla distribuzionedel carattere presso la popolazione.Per inferenza statistica si intende l’insieme delle tecniche induttive che sulla base della informazione cam-pionaria producono conclusioni riguardo aspetti incogniti della popolazione. Tali conclusioni sono definibiligeneralizzazioni supportate da valutazioni probabilistiche circa la precisione di ciò che si afferma.

Esempio 12.1. Occorre determinare il prezzo di una fornitura. Sulla base dell’intuito e della sensazione affermiamo“Ho visto 30 dei 1000 pezzi che mi vuoi vendere e mi sembra che i pezzi di questa fornitura non rispettino le specifiche”.Mentre il prendere una decisione su base statistica inferenziale comporta una affermazione più scientifica: “Dopo averosservato un campione casuale di 30 pezzi estratto dai 1000 della fornitura, posso concludere con un livello di fiduciapari al 99% che il 45% della fornitura non è conforme.”

Esempio 12.2. In un’azienda vengono prodotte viti lunghe 10 cm. La legge impone di vendere solo viti che nondifferiscono di oltre il 2% dalla misura dichiarata. Così bisogna controllare che l’intera produzione sia conformealla legge, cioè tutte le viti devono avere lunghezza compresa tra 9.98 e 10.02 cm. Come effettuare un tale controllo?Certamente misurare ognuna delle decine di migliaia di viti prodotte non è proponibile. Il metodo statistico inferenzialeci suggerisce di analizzare un campione della produzione totale, che sia rappresentativo della popolazione, e misurare

M. Di Marzio 87 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 95: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12.2. Popolazione come pdf parametrica

solo le viti appartenenti ad esso: con una certa probabilità, proporzionale al loro numero, le viti del campione presentanole caratteristiche delle viti della popolazione.

Esempio 12.3. Si è interessati alla qualità dei circuiti che escono da una linea di produzione di memorie ram. Ungiudizio sulla qualità riguarda di certo la distribuzione di un certo carattere X presso la popolazione dei circuiti chesono prodotti nel lungo periodo.Per fare inferenza su una popolazione del genere, che è infinita, si può rilevare il carattere X su un campione di nelementi.

12.2 Popolazione come pdf parametrica

Affinché la distribuzione di un carattere presso una popolazione sia analizzata da metodologie sofisticate comequelle inferenziali, è necessario che essa sia stilizzata attraverso una funzione definita sui valori del carat-tere. Quest’ultima sarà l’autentico oggetto dell’inferenza, non l’effettiva distribuzione presso la popolazione.Appare evidente che le funzioni più indicate per rappresentare la distribuzione di un carattere presso unapopolazione sono le pdf. Infatti in corrispondenza di un dato intervallo di valori del carattere la frequenzarelativa è perfettamente resa dalla probabilità che la pdf associa all’intervallo stesso.

Esempio 12.4. Una volta rappresentata la distribuzione del carattere peso all’interno di una popolazione con una pdfnormale con media 65 e varianza 9, qualunque caratteristica della distribuzione viene dedotta dalla pdf. Ad esempiosappiamo che la percentuale di individui che pesano meno di 77 chili è pari al 15.87%, e che questa è uguale a quella diindividui che pesano più di 83 chili. Il grado di rispondenza al vero di queste conclusioni dipende da come fedelmenteil modello normale prescelto descriva la distribuzione del mondo reale.

Segue ora una impostazione del problema inferenziale detta parametrica. Molto spesso appare fondato chela distribuzione del carattere sia stilizzata da una legge appartenente a una data famiglia parametrica di pdf(si veda la sezione 3.3) nota

fX(·; θ) : θ ∈ Θ ⊆ Rk,

oppure, nel caso discretopX(·; θ) : θ ∈ Θ ⊆ Rk.

Questo significa che prima di osservare i dati si elenca un’insieme di alternative, numerose quanto i possi-bili valori del parametro. Il problema è capire quale particolare pdf descriva la distribuzione del caratterenella popolazione. Siccome ognuna delle pdf della famiglia differisce da qualsiasi altra solo per il valore delparametro, decidere quale sia la popolazione consiste nello scegliere un valore per il parametro sulla base deidati campionari.Si rifletta a questo punto come possa essere statisticamente semplice l’approccio parametrico: se la famigliaè stata correttamente specificata, per una buona inferenza tutto viene ridotto alla stima del parametro sullabase del campione, operazione quasi mai complicata.In effetti i parametri non saranno mai noti con certezza perché i dati a disposizione non riguardano l’in-tera popolazione. Così il procedimento inferenziale si limita a ridurre l’ignoranza circa il parametro conun’affermazione del tipo ‘con alta probabilità il parametro ha questo valore’.

Esempio 12.5. Un astronomo vuole misurare la precisione di uno strumento che rileva la distanza in anni luce trapianeti. La precisione dello strumento è data dalla distribuzione del carattere ‘errore’ presso la popolazione ipoteticacostituita dalle infinite misurazioni di una stessa distanza. L’astronomo effettua allora n misurazioni indipendentidella distanza tra due particolari pianeti. Egli considera questi valori come un campione generato da una popolazioneinfinita ipotetica di misurazioni appartenente alla famiglia parametrica normale che, ricordiamo, ha come parametrimedia e varianza. Sulla base del campione stima la media, che misura la distanza effettiva, e lo s.q.m. che misura laprecisione. Operata la stima, l’astronomo assumerà di conoscere completamente la popolazione, e potrà calcolare conche probabilità commetterà un certo errore nelle prossime misurazioni.

Esempio 12.6. Per studiare la misura delle viti dell’esempio 12.2 appare indicato il modello normale. In questomodo la completa conoscenza di tutta la produzione dipende solo dai due parametri µ e σ. Due stime quindi risolvonoil problema.

Esempio 12.7. Per studiare la proporzione di simpatizzanti di un partito politico si usa un modello bernoullianodi parametro π. Così l’unica cosa non nota è la proporzione di favorevoli π, cioè il parametro della distribuzione diBernoulli. La semplice stima di π risolve il problema.

Esempio 12.8. Si studia il numero di incidenti che avvengono in un periodo t su una strada statale. Il modello diPoisson è il più indicato in questo caso. Anche qui c’è un solo parametro da stimare che è λt, ovvero il tasso mediodi incidenti nel periodo t.

Primi elementi di inferenza statistica (ed. maggio 2012) 88 M. Di Marzio

Page 96: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12. POPOLAZIONE E CAMPIONAMENTO

Figura 12.1: Istogrammi dei dati campionari.

Esempio 12.9. Si studia il tempo di durata di una certa componente elettronica. Il modello esponenziale è il piùindicato in questo caso. Anche qui c’è un solo parametro da stimare, che è λ.

Esempio 12.10. A volte i parametri della popolazione coincidono con la media o la varianza. Tuttavia, i parametri,essendo contenuti nella espressione della popolazione, sono di conseguenza sempre contenuti nelle espressioni di mediae varianza. Se come modelli per la popolazione consideriamo le famiglie parametriche introdotte nei capitoli precedenti,abbiamo quanto segue.

a) Se la popolazione è bernoulliana, il parametro π è anche la media della popolazione.

b) Se la popolazione è di Poisson, il parametro λt corrisponde sia alla media sia alla varianza.

c) Se la popolazione è geometrica, il parametro π non corrisponde né alla media né alla varianza.

d) Se la popolazione è uniforme continua, i parametri a e b, non corrispondono a media o varianza. Qui lo spazioparametrico è contenuto in R2.

e) Se X è normale, µ è la media e σ è lo s.q.m.. Qui lo spazio parametrico è R× R+.

f) Se la popolazione è esponenziale, il parametro λ non corrisponde alla media.

La fase dell’indagine statistica in cui si sceglie la famiglia parametrica viene chiamata specificazione delmodello. Naturalmente l’efficacia del procedimento inferenziale poggia totalmente su questa fase. Se sisbaglia famiglia, qualunque suo membro fornirà una spiegazione molto povera dei dati e una previsione moltolontana dal vero. Se abbiamo una realizzazione da una popolazione normale con media negativa e speci-fichiamo la famiglia esponenziale, nessuna pdf esponenziale potrà mai costituire una buona approssimazione,indipendentemente dalla bontà del metodo di stima.Ma come scegliere la famiglia parametrica? Come appare dagli esempi che precedono, si è sempre guidati dainformazioni a priori, cioè informazioni su X che precedono l’osservazione del campione, di regola originariedi altre competenze scientifiche. Comunque anche la rappresentazione grafica dei dati campionari può ori-entare la scelta nel senso che la ‘forma’ del campione può offrire indicazioni sulla ‘forma’ della popolazionegeneratrice.

Esempio 12.11. Si consideri l’istogramma dei dati campionari (i rettangoli hanno area pari alla frequenza relativaassociata agli intervalli che costituiscono la loro base). Si osservi la figura 12.1: se l’istogramma dei dati campionariè quello di sinistra, i dati ci suggeriscono una famiglia normale; se invece l’istogramma è quello di destra i dati cisuggeriscono un modello esponenziale.

12.3 Campione casuale e osservato

Ora si introduce l’unica modalità di estrazione del campione considerata in questo corso, cioè il campiona-mento casuale semplice. Si consideri l’esperimento casuale ripetuto che consiste nell’osservare n volte unav.c. X. Inoltre si assuma che le osservazioni siano indipendenti tra loro. Questo esperimento genera unav.c. multipla X1, X2, ..., Xn

1 chiamata campione casuale. L’osservazione di un campione casuale produceun insieme di valori numerici x1, x2, . . . , xn, detto campione osservato o realizzazione campionaria. SefX(·; θ) indica la pdf di X, allora per ogni j ∈ [1, 2, ..., n]

P(Xj ∈ [a, b]) =

∫ b

a

fX(x; θ) dx,

oppure, nel caso discreto,P(Xj ∈ [a, b]) =

∑a≤xi≤b

pX(xi)

1Per indicare una v.c. multipla dovremmo scrivere (X1, X2, ..., Xn), ma per comodità di notazione le parentesi tonde verrannoomesse.

M. Di Marzio 89 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 97: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12.3. Campione casuale e osservato

così Xj ha la stessa pdf di X, è una copia di X. Di conseguenza il campione è inteso come una v.c.n−dimensionale a componenti indipendenti e identicamente distribuite (i.i.d.). La pdf congiunta di X1, X2, ..., Xn

è pari a

fX1X2...Xn (x1, x2, ..., xn; θ) = fX1 (x1; θ) fX2 (x2; θ) ...fXn (xn; θ)

=n∏

i=1

fX (xi; θ) .

Similmente, se X è discreta, la distribuzione di probabilità congiunta è così definita:

pX1X2...Xn(x1, x2, ..., xn; θ) = pX1(x1; θ)pX2(x2; θ) ...pXn(xn; θ)

=n∏

i=1

pX(xi; θ).

Nella pratica si studiano generalmente popolazioni finite e a volte infinite ipotetiche. Ora si osservi che perottenere un campione casuale da una popolazione finita occorre reinserire di volta in volta l’elemento estrattonella popolazione. In questo modo prima di ogni estrazione la distribuzione di probabilità della v.c. daosservare resta sempre la stessa, realizzando l’indipendenza e l’identica distribuzione. Ovviamente nel caso dipopolazione ipotetica infinita il reinserimento perde completamente di importanza, essendo a tutti gli effetiindifferente se l’individuo estratto venga reinserito.

Esempio 12.12. Data una popolazione esponenziale con parametro λ = 2, si calcolino le pdf congiunte delle seguentirealizzazioni campionarie

0.1, 0.1, 0.3, 2 e 0.01, 0.05, 0.03, 0.02.Applicando la definizione fX1X2...Xn (x1, x2, ..., xn; θ) =

∏ni=1 fX (xi; θ), si ha:

fX1X2X3X4 (0.1, 0.1, 0.3, 2; 2) = 2e−2×0.1 × 2e−2×0.1 × 2e−2×0.3 × 2e−2×2 = 24e−2×2.5 = 0.1078,

e

fX1X2X3X4 (0.01, 0.05, 0.03, 0.02; 2) = 2e−2×0.01 × 2e−2×0.05 × 2e−2×0.03 × 2e−2×0.02

= 24e−2×0.11 = 12.8403.

Si noti che la seconda realizzazione ha densità molto maggiore della prima. Ciò perché è composta da elementi che sitrovano in regioni della densità esponenziale più probabili.

Esempio 12.13. Data una popolazione di Poisson con parametro λt = 1.5, si calcolino le pdf congiunte corrispon-denti alle seguenti due realizzazioni campionarie:

1, 1, 2, 3 e 5, 6, 7, 4.

Applicando la definizione pX1X2...Xn (x1, x2, ..., xn; θ) =∏n

i=1 pX (xi; θ), abbiamo:

pX1X2X3X4(1, 1, 2, 3; 1.5) = 1.5e−1.5 × 1.5e−1.5 × 1.52e−1.5

2!× 1.53e−1.5

3!=

1.57e−6

2!3!= 0.0035,

pX1X2X3X4(5, 6, 7, 4; 1.5) =1.55e−1.5

5!× 1.56e−1.5

6!× 1.57e−1.5

7!× 1.54e−1.5

4!

=1.522e−6

5!6!7!4!= 0.0000000017745.

Si può notare che la seconda realizzazione ha pdf congiunta molto minore della prima. Questo perché essa è compostada elementi che hanno probabilità molto minori sotto il modello di Poisson considerato.

Indichiamo con C l’insieme dei possibili valori di X. Poiché il campione è casuale, cioè per ogni i si haXi = X, allora l’insieme X di tutti i possibili campioni estraibili, detto spazio o universo campionario, èdato dal seguente prodotto cartesiano:

X = C × C × ....× C.

X è il dominio della pdf congiunta, così la pdf congiunta è una funzione da X in [0,+∞) o [0, 1], a secondase X sia continua o discreta.

Esempio 12.14. Dato un campione casuale di tre elementi estratto dalla distribuzione:

a) bernoulliana,

b) di Poisson;

Primi elementi di inferenza statistica (ed. maggio 2012) 90 M. Di Marzio

Page 98: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12. POPOLAZIONE E CAMPIONAMENTO

descriviamo gli universi campionari di appartenenza del campione.Poiché il campione considerato è casuale, cioè a componenti i.i.d., gli spazi campionari sono del tipo X = X×X×X.Alloraa)

X = 0, 1 × 0, 1 × 0, 1= (000), (001), (010), (100), (011), (101), (110), (111);

b)

X = 0, 1, 2, ... × 0, 1, 2, ... × 0, 1, 2, ...= (x1, x2, x3) : xi ∈ 0, 1, 2, ..., ∀i ∈ 1, 2, 3.

Esempio 12.15. Dato un campione casuale di due elementi da una v.c. uniforme con parametri a = 0 e b = θ,determinare spazio parametrico e spazio campionario. Lo spazio parametrico è chiaramente il semiasse positivo R+.Lo spazio campionario è definito in maniera più complicata del solito, infatti in questo caso esso cambia con θ poichécon θ cambia l’insieme dei valori che X può assumere. Ad esempio, per θ = 5 si ha X5 = [0, 5] × [0, 5] mentre perθ = 30 si ha X30 = [0, 30]× [0, 30]. Così in questo caso usiamo una definizione più generale di spazio campionario, ecioè l’insieme di tutti gli spazi campionari che corrispondono ai possibili valori di θ:

X =∪θ∈Θ

Xθ.

12.4 Statistiche campionarie

Operativamente l’inferenza statistica è fondata su opportune misure di sintesi dell’informazione campionariachiamate statistiche campionarie. Per statistica campionaria si intende una funzione t nota (cioè che noncontiene parametri incogniti) così definita:

t : X → R.

Esempio 12.16. Si supponga di voler stimare il parametro θ. La quantità 1n

∑ni=1 Xi è una statistica campionaria

mentre la quantità 1θ

∑ni=1 Xi non lo è poiché non è una funzione nota del campione. Essa infatti dipende dal parametro

incognito θ.

Se la statistica t ha come argomento il campione casuale, allora costituisce v.c. T funzione di v.c. multiplapoiché funzione delle n variabili casuali componenti il campione:

T = t(X1, X2, ..., Xn).

Mentre se applicata a una realizzazione campionaria x1, x2, . . . , xn, t genera una realizzazione numerica diT , indicata con t e chiamata valore campionario di T :

t = t(x1, x2, ..., xn).

Alcune importanti statistiche sono riportate nella tabella 12.1. Qui la v.c. X ha g modalità, mentre lav.c. Y ha h modalità. Inoltre la frequenza assoluta della i-esima modalità è indicata con ni, mentre lafrequenza assoluta della coppia di modalità (xi, yj) è indicata con nij ; infine n =

∑gi=1 ni e m =

∑hj=1 nj .

In caso di ambiguità gli indici sono accompagnati dalla indicazione in pedice del carattere a cui si riferiscono,così ad esempio possiamo avere SX , codxy, devx. . . .etc. Se la popolazione generatrice è bernoulliana (cioèX ∈ 0, 1), la statistica media campionaria è chiamata proporzione campionaria ed è indicata con P ,essa indica la frazione dei casi favorevoli presenti nel campione.

Esempio 12.17. Si dispone della seguente realizzazione campionaria estratta da una popolazione bernoulliana

1, 1, 0, 0, 0, 1, 1, 0, 0, 0.

Per calcolare la proporzione di successi nel campione applichiamo la statistica media campionaria. Si ottiene (1+ 1+0 + 0 + 0 + 1 + 1 + 0 + 0 + 0)× 1/10 = 4/10. Così nella realizzazione sotto esame c’è il 40% di successi.

Esempio 12.18. Una grande azienda rileva, su un campione di 60 operai, il numero X di anni di servizio ed ilnumero medio Y di ore di straordinario mensilmente effettuate. I dati raccolti sono riportati nella tabella seguente:

M. Di Marzio 91 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 99: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12.4. Statistiche campionarie

Argomento della statistica campionaria

Campione casuale Realizzazione campionaria

Media X =∑n

i=1Xin

x =∑g

i=1xinin

Devianza DEV =∑n

i=1(Xi −X)2 dev =∑g

i=1(xi − x)2ni

Varianza S2 =∑n

i=1(Xi−X)2

n−1s2 =

∑gi=1

(xi−x)2nin−1

Scartoquadratico

medioS =

√∑ni=1

(Xi−X)2

n−1s =

√∑gi=1

(xi−x)2nin−1

Codevianza COD =∑n

i=1

∑mj=1(Xi −X)(Yj − Y ) cod =

∑gi=1

∑hj=1(xi − x)(yj − y)nij

Coefficientedi

correlazioneR =

∑ni=1

∑mj=1(Xi −X)(Yj − Y )√∑n

i=1(Xi −X)2√∑m

j=1(Yi − Y )2r =

∑gi=1

∑hj=1(xi − x)(yj − y)nij√∑g

i=1(xi − x)2ni

√∑hj=1(yj − y)2nj

Tabella 12.1: Alcune statistiche campionarie.

X

Y [2, 6) [6, 10) [10, 14) [14, 18)

6 2 0 0 8 10

8 4 4 2 4 14

10 8 6 10 2 26

12 6 4 0 0 10

20 14 12 14 60

Si vuole conoscere l’atteggiamento dei dipendenti verso lo straordinario a seconda dell’anzianità. Un indice statisticoutile a tale scopo è la codevianza campionaria. Si ricordi che, ai fini del calcolo, alle classi vanno sostituiti i rispettivivalori centrali. Ora, poiché x = 9.33 e y = 9.2, risulta:

cod = (4− 9.33) (6− 9.2) 2 + (16− 9.33) (6− 9.2) 8 + (4− 9.33) (8− 9.2) 4 + (8− 9.33) (8− 9.2) 4+

+ (12− 9.33) (8− 9.2) 2 + (16− 9.33) (8− 9.2) 4 + (4− 9.33) (10− 9.2) 8 + (8− 9.33) (10− 9.2) 6+

+ (12− 9.33) (10− 9.2) 10 + (16− 9.33) (10− 9.2) 2 + (4− 9.33) (12− 9.2) 6 + (8− 9.33) (12− 9.2) 4 =

= −254.16.

Si conclude che c’è discordanza tra i due caratteri: con l’aumentare dell’anzianità di servizio si tende a chiedere menostraordinari. La codevianza si poteva calcolare anche con la formula cod =

∑ni=1 xiyi − nx y. La somma dei prodotti

è pari a 4896, di conseguenzacod = 4896− 60× 9.33× 9.2 = −254.16.

Se T è continua (rispettivamente discreta), la relativa pdf fT (t) (risp. pT (ti)) è proporzionale al numero direalizzazioni campionarie in corrispondenza delle quali T = t (risp. per le quali T = ti). La pdf è in entrambii casi chiamata distribuzione campionaria della statistica T .Poiché la statistica campionaria T è una v.c. espressa come funzione degli elementi del campione casuale, diregola la pdf di T sarà funzione delle pdf dei singoli elementi campionari fX(xi; θ)(oppure pX(xi; θ)). Quindi,di regola, la pdf di T dipenderà dal parametro incognito θ.Riassumendo, abbiamo ad esempio per il caso continuo:

fT (t; θ) ∝ ♯(x1, x2, ...., xn) : t(x1, x2, ...., xn) = t,

dove il simbolo ∝ significa ‘proporzionale a’ e ♯A indica la cardinalità dell’insieme A.

Primi elementi di inferenza statistica (ed. maggio 2012) 92 M. Di Marzio

Page 100: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12. POPOLAZIONE E CAMPIONAMENTO

12.5 Media campionaria: valore atteso e varianzaDa questa sezione in poi studiamo la distribuzione campionaria di varie statistiche campionarie sotto l’ipotesidi campionamento casuale semplice. Ricordiamo che ciò significa che gli elementi del campione sono vv.cc.i.i.d.. Iniziamo con la media campionaria, cioè: dato un campione casuale X1, X2, ..., Xn estratto da una pdfcon media µ e varianza σ2, calcoliamo valore atteso e varianza di X.Per il valore atteso si ricordi che, date n vv.cc. identicamente distribuite, E[

∑ni=1 Xi] =

∑ni=1 E[Xi] = nµ.

Così

E

[n∑

i=1

Xi

n

]=

1

nnµ = µ.

Per la varianza si ricordi che, date n vv.cc. i.i.d., Var[∑n

i=1 Xi] =∑n

i=1 Var[Xi] = nσ2. Così

Var

[1

n

n∑i=1

Xi

]=

1

n2nσ2 =

σ2

n.

È importante sottolineare come questi risultati non dipendano dalla particolare distribuzione di X, ma solodal fatto che gli elementi del campione sono identicamente distribuiti e indipendenti.

Esempio 12.19. Sia X1, X2, ..., Xn un campione casuale generato da una popolazione fX .

⋄ Se X ha distribuzione bernoulliana di parametro π, allora

E

[n∑

i=1

Xi

n

]= π e Var

[n∑

i=1

Xi

n

]=

π(1− π)

n.

⋄ Se X ha distribuzione di Poisson di parametro λt, allora

E

[n∑

i=1

Xi

n

]= λt e Var

[n∑

i=1

Xi

n

]=

λt

n.

⋄ Se X ha distribuzione chi-quadrato con r gradi di libertà

E

[n∑

i=1

Xi

n

]= r e Var

[n∑

i=1

Xi

n

]=

2r

n.

⋄ Se X ha distribuzione normale di parametri µ e σ2

E

[n∑

i=1

Xi

n

]= µ e Var

[n∑

i=1

Xi

n

]=

σ2

n.

Così fX è centrata sulla media della popolazione generatrice, ed è più concentrata di essa. Si capisce facilmenteche X ha una varianza minore di X considerando che per campioni differenti ci può essere uno stesso valoredella media.A differenza della varianza, la deviazione standard della distribuzione di X diminuisce solo a un tasso pari a√n, ciò vuol dire che per dimezzare la deviazione standard di X occorre quadruplicare le osservazioni, e non

semplicemente raddoppiarle.

Esempio 12.20. Si consideri una popolazione normale con media 0 e s.q.m. 2. La distribuzione della mediacampionaria calcolata su campioni di 9 elementi sarà ancora normale per il teorema sulla somma di vv.cc. normali.Inoltre, per quanto appena visto, X avrà media 0 e s.q.m. 2/

√9. Si veda la figura 12.2. Se si vuole dimezzare la

varianza della media campionaria occorre utilizzare un campione di 18 elementi, così la varianza passerà da 4/9 a4/18. Se invece si vuole dimezzare lo s.q.m. bisognerà quadruplicare il campione così lo s.q.m. passerà da 2/3 a2/

√9× 4 = 2/6.

12.6 Media campionaria: funzione di densitàDato un campione casuale di n elementi, se la media della popolazione è µ e la varianza σ2, il TCL affermache, qualunque sia la popolazione, la media campionaria, per n grande, ha distribuzione approssimativamentenormale con media µ e varianza σ2/n (sez. 11.5). Così grazie al TCL siamo in grado di approssimare la

M. Di Marzio 93 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 101: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12.7. Valore atteso della varianza campionaria

−6 −4 −2 0 2 4 60

0.1

0.2

0.3

0.4

0.5

0.6

x

f(x)

Figura 12.2: fX(·; θ) e fX(·; θ) (curva più concentrata).

distribuzione della più importante statistica campionaria senza conoscere la popolazione generatrice. Tuttavianei quattro casi particolari della sezione 11.4 possiamo derivare le distribuzioni esatte di X. Il ragionamentoconsidera la seguente banale identità:

P

(X =

k

n

)= P

(n∑

i=1

Xi = k

),

che permette di utilizzare direttamente i risultati trovati per la pdf della somma. Qui di seguito esponiamoi quattro casi in dettaglio.

⋄ Se X ∼ B(1, π) allora, come visto, la media campionaria si indica con P e si chiama proporzione campi-onaria. In questo caso poiché

∑ni=1 Xi ∼ B(n, π), allora anche la proporzione ha la stessa distribuzione,

infatti è ovvio che

P

(P =

k

n

)= P

(n∑

i=1

Xi = k

)

così P assume i valori 0, 1/n, 2/n, ..., 1 con probabilità rispettivamente pari a(n

0

)π0(1− π)n,

(n

1

)π1(1− π)n−1, ...,

(n

n

)πn(1− π)0.

⋄ Se X ∼ P(λt) sappiamo che∑n

i=1 Xi ∼ P(nλt), e la media assumerà i valori k/n, k = 1, 2, ..., conprobabilità pari a

P

(X =

k

n

)= P

(n∑

i=1

Xi = k

)=

e−nλt(nλt)k

k!.

In definitiva vediamo che in entrambi i casi si assegnano le probabilità delle somme ai valori delle medie.

⋄ Se X ha distribuzione chi-quadrato con r gradi di libertà, allora la v.c.∑n

i=1 Xi ha anch’essa dis-tribuzione chi-quadrato con nr gradi di libertà e quindi

fX

(k

n

)= fX2

nr(k).

⋄ Se infine X ∼ N (µ, σ2) si ha direttamente che

X ∼ N (µ, σ2/n).

12.7 Valore atteso della varianza campionariaDato un campione casuale X1, X2, ..., Xn estratto da una popolazione con media µ e varianza σ2, si dimostrache il valore atteso della statistica varianza campionaria è pari alla varianza della popolazione, cioè

E[S2] = σ2.

La dimostrazione di ciò usa questa equazionen∑

i=1

(Xi −X)2 =

n∑i=1

(Xi − µ)2 − n(X − µ)2

Primi elementi di inferenza statistica (ed. maggio 2012) 94 M. Di Marzio

Page 102: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12. POPOLAZIONE E CAMPIONAMENTO

che ora dimostriamo essere vera. Infatti:

n∑i=1

(Xi − µ)2 =n∑

i=1

(Xi −X +X − µ)2

=n∑

i=1

[(Xi −X) + (X − µ)]2

=n∑

i=1

[(Xi −X)2 + (X − µ)2 + 2(Xi −X)(X − µ)]

=

n∑i=1

(Xi −X)2 +

n∑i=1

(X − µ)2 + 2(X − µ)

n∑i=1

(Xi −X)

=

n∑i=1

(Xi −X)2 + n(X − µ)2.

Possiamo ora affrontare il calcolo del valore atteso:

E[S2] = E

[1

n− 1

n∑i=1

(Xi −X)2

]

=1

n− 1E

[n∑

i=1

(Xi − µ)2 − n(X − µ)2

]

=1

n− 1

[n∑

i=1

E[(Xi − µ)2]− nE[(X − µ)2]

]

=1

n− 1

[n∑

i=1

σ2 − nVar[X]

]

=1

n− 1

(nσ2 − n× σ2

n

)=

1

n− 1(n− 1)σ2 = σ2.

Si noti che nel passaggio dalla prima alla seconda equazione abbiamo usato l’uguaglianza ottenuta nella primaparte della sezione, e nel passaggio dalla seconda alla terza si è ricorso all’additività del valore atteso.

12.8 Funzione di densità della varianza campionaria nel caso dicampioni casuali gaussiani

Dato un campione casuale X1, X2, ..., Xn estratto da una popolazione normale con media µ e varianza σ2, èpossibile conoscere la distribuzione esatta di S2. Infatti in questo caso si dimostra che S2 ha una distribuzioneproporzionale a quella di una v.c. chi-quadrato con n−1 gradi di libertà. In particolare è una variabile casualedel tipo

σ2

n− 1X2

n−1.

Si è detto proporzionale poiché si tratta di una v.c. chi-quadrato moltiplicata per la costante σ2 e di-visa per i suoi gradi di libertà. Presentiamone una dimostrazione non rigorosa ma molto semplice basatasull’uguaglianza utilizzata per la dimostrazione di E[S2] = σ2 dove entrambi i membri sono divisi per σ2:

n∑i=1

(Xi − µ)2

σ2=

n∑i=1

(Xi −X)2

σ2+

n(X − µ)2

σ2.

Ora il membro di sinistra dell’equazione è una somma di n normali standard elevate al quadrato, così èuna v.c. X2

n. Il secondo addendo del membro di destra è una normale standard al quadrato, cioè una v.c.X2

1. Così poiché una v.c. chi-quadrato è espressa come somma di vv.cc. chi-quadrato indipendenti, allorail membro di destra dell’equazione deve essere la somma di due vv.cc. chi-quadrato una con n − 1 gradi dilibertà, e l’altra con un grado di libertà. Se moltiplichiamo il primo addendo del membro di destra per σ2 elo dividiamo per n− 1, la quantità risultante, che è la varianza campionaria, ha ovviamente la distribuzioneprima specificata.

M. Di Marzio 95 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 103: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

12.9. Altre statistiche calcolate su campioni casuali gaussiani

12.9 Altre statistiche calcolate su campioni casuali gaussianiDato un campione casuale X1, X2, ..., Xn estratto da una pdf normale con media µ e varianza σ2, si puòdedurre la distribuzione esatta di due statistiche campionarie molto utili per l’inferenza.Abbiamo dimostrato che il primo addendo del membro di destra dell’equazione nel paragrafo precedente, cioè

U =(n− 1)S2

σ2

è una v.c. Chi quadrato con n− 1 gradi di libertà.

Esempio 12.21. Il tempo di esecuzione di un processo produttivo è descritto da una v.c. normale con media 30e varianza 7.093. Una volta osservata l’esecuzione di 15 processi, si vuole calcolare la probabilità che la varianzacampionaria sia maggiore di 12. Si ha

P(S2 > 12) = P

((n− 1)S2

σ2>

14× 12

7.093

)= P

(X2

14 > 23.685)= 0.05.

Il valore della probabilità è stato ottenuto tramite le tavole della v.c. chi-quadrato.

Sempre sotto l’ipotesi di normalità sappiamo inoltre che la v.c.

Z =X − µ

σ/√n

ha distribuzione normale standard. Di conseguenza

X − µ

S/√n

= Tn−1 .

Questo perché Tn−1 = Z/√

U/(n− 1). In termini poco formali si può dire che la media campionariastandardizzata utilizzando la varianza campionaria è una v.c. t di Student con n− 1 gradi di libertà.Dati due campioni casuali indipendenti X1, X2, ..., Xn e Y1, Y2, ..., Ym estratti da popolazioni normali condiverse medie ma uguali varianze σ2, si ha

S2X/σ2

S2Y /σ

2=

S2X

S2Y

= Fn−1,m−1,

in quanto il rapporto di due vv.cc. chi-quadrato indipendenti rispettivamente divise per i propri gradi dilibertà ha distribuzione F di Fisher con n− 1 e m− 1 gradi di libertà.L’aspetto notevole delle vv.cc. introdotte in questa sezione è che hanno distribuzioni che non dipendono daµ e σ2 sebbene queste siano contenute nelle loro definizioni. L’impiego statistico di U , Z, Tn−1, X2

n−1 eFn−1,m−1 sfrutterà proprio queste caratteristiche per costruire intervalli di confidenza e test statistici.

Primi elementi di inferenza statistica (ed. maggio 2012) 96 M. Di Marzio

Page 104: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

13Verosimiglianza e sufficienza

Indice13.1 Funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9713.2 Sintesi dell’informazione tramite statistiche . . . . . . . . . . . . . . . . . . . . 9813.3 Statistiche sufficienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

13.1 Funzione di verosimiglianzaSia la v.c. X discreta o continua, da qui in avanti indichiamo la sua pdf con fX(·; θ). Riassumiamo lo scenariodell’inferenza parametrica. Dopo la fase di specificazione si ritiene che una famiglia del tipo

fX(·; θ) : θ ∈ Θ ⊆ Rk

contiene una pdf la quale descrive adeguatamente come il carattere di interesse sia distribuito presso lapopolazione. Tale pdf è nota a meno del valore assunto dal parametro θ. Inoltre si dispone della realizzazionex1, x2, ..., xn di un campione casuale X1, X2, ...., Xn che proviene da essa.Ora introduciamo lo strumento basilare dell’inferenza statistica. Fissata una realizzazione campionariax1, x2, ..., xn, per funzione di verosimiglianza si intende la pdf congiunta del campione avente comeparametro la realizzazione campionaria x1, x2, ...., xn e come variabile θ; in simboli:

L(θ;x1, x2, ..., xn) =n∏

i=1

fX(θ;xi)

doveL(θ;x1, x2, ..., xn) : Θ → R+.

Per brevità la notazione L(θ;x1, x2, ..., xn) è spesso rimpiazzata da L(θ). Si noti che la funzione di verosimiglian-za contiene tutta l’informazione su cui si basa l’inferenza statistica, infatti la sua formulazione scritta evidenziadue ingredienti:

1) l’informazione a priori, cioè l’informazione di cui si dispone prima di osservare il campione, che è laconoscenza della famiglia parametrica;

2) l’informazione a posteriori rispetto all’osservazione del campione, cioè la realizzazione campionaria.

Esempio 13.1. Come detto, per poter scrivere la funzione di verosimiglianza dobbiamo sapere a quale famigliaparametrica appartiene la popolazione generatrice e dobbiamo disporre di una realizzazione campionaria. Seguonoesempi di funzioni di verosimiglianza.

⋄ Se si specifica la famiglia normale con σ = 1, data la realizzazione x1 = 2, x2 = 4, x3 = 6, si ha la seguentefunzione di verosimiglianza:

L(µ; 2, 4, 6) =

(1√2π

)3

exp

−1

2[(2− µ)2 + (4− µ)2 + (6− µ)2]

.

Il grafico di L(µ; 2, 4, 6) è a sinistra in figura 13.1. Incidentalmente osserviamo che in questo caso lo spazioparametrico può essere anche considerato R, non R× R+, questo perché conosciamo la varianza.

M. Di Marzio 97 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 105: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

13.2. Sintesi dell’informazione tramite statistiche

2 3 4 5 6 µ

L(µ;

2,4,

6)

0 0.2 0.4 0.6 0.8 1π

π8 (1−π

)10−8

Figura 13.1: Funzioni di verosimiglianza dell’esempio 13.1.

⋄ Se si specifica la famiglia bernoulliana, e si ha la realizzazione x1 = 1, x2 = 1, x3 = 1, x4 = 0, x5 = 1, x6 =1, x7 = 1, x8 = 1, x9 = 0, x10 = 1 si ottiene:

L(π; 1, 1, 1, 0, 1, 1, 1, 1, 0, 1) = π8(1− π)10−8.

In figura 13.1 possiamo osservare i grafici delle due funzioni di verosimiglianza.

Infine, volendo effettuare un parallelo tra funzione di densità congiunta del campione (sez. 12.3) e funzionedi verosimiglianza si può dire quanto segue. Nel caso di pdf congiunta è fissato il valore di θ e quindi perquel θ sono fornite le densità di tutte le realizzazioni in X e si scrive

fX1X2...Xn(x1, x2, ..., xn; θ) : X → R+.

Mentre nel caso di funzione di verosimiglianza è fissata una realizzazione x1, x2, ..., xn e si fornisce la densitàassociata a quella particolare realizzazione sotto tutte le diverse ipotesi di θ, cioè sotto tutte le ipotesi dipopolazione. Con altre parole si può dire che la funzione di verosimiglianza indica per ogni valore di θ la(densità di) probabilità che avevamo di osservare ciò che poi si è verificato.Nel caso fosse necessario trovare il massimo della funzione di verosimiglianza, per comodità di calcolo, pi-uttosto che L(θ) conviene massimizzare il suo logaritmo neperiano (anche detto naturale) che è chiamatofunzione di log-verosimiglianza ed è indicato come

L(θ) = log(θ).

Infatti essendo il logaritmo una trasformazione monotòna, L(θ) ha gli stessi massimi di L(θ). Tuttavia illogaritmo trasforma i prodotti in somme ed elimina le funzioni esponenziali e quindi ha una espressione moltopiù facile da trattare.

Esempio 13.2. Le funzioni di log-verosimiglianza relative all’esempio 13.1 sono rispettivamente

L(µ; 2, 4, 6) = 3 log1√2π

− 1

2[(2− µ)2 + (4− µ)2 + (6− µ)2]

eL(π; 1, 1, 1, 0, 1, 1, 1, 1, 0, 1) = 8 log π + (10− 8) log(1− π).

Nella figura 13.2 sono riportati i rispettivi grafici. Si può notare che, anche se diverso da L, L = logL ne conserva ipunti di massimo, che sono rispettivamente 4 e 0.8.

13.2 Sintesi dell’informazione tramite statisticheSi consideri una generica statistica T con un numero finito m di modalità. Essa produce una sintesidell’informazione contenuta nel campione osservato x1, x2, ...xn in due sensi:

1) Si passa dall’elemento (x1, x2, ..., xn) di uno spazio n-dimensionale X ⊆ Rn ad uno spazio unidimen-sionale poiché la statistica è un numero.

2) I valori assunti dalle statistiche sono molto meno numerosi delle realizzazioni campionarie possibili. Nelnostro caso scriviamo m < ♯X. Segue una giustificazione formale di questo fatto.La funzione t induce una partizione sullo spazio X. Infatti X è divisibile in sottoinsiemi incompatibiliognuno dei quali contiene realizzazioni che generano uno stesso valore della statistica:

X = X1 ∪ X2 ∪ ... ∪ Xm,

dove Xi è l’insieme di realizzazioni in corrispondenza di cui t genera il valore ti, inoltre - ma questo èovvio - qualunque realizzazione appartiene a un solo elemento della partizione Xi, i = 1, 2, ...,m.

Primi elementi di inferenza statistica (ed. maggio 2012) 98 M. Di Marzio

Page 106: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

13. VEROSIMIGLIANZA E SUFFICIENZA

0 2 4 6 8µ

log

L(µ;

2,4,

6)

0 0.5 1π

8log

π+(1

0−8)

log(

1−π)

Figura 13.2: Funzione di log-verosimiglianza dell’esempio 13.2.

Esempio 13.3. Si abbia una popolazione di Bernoulli, cioè una popolazione in cui ogni individuo detiene (1) o meno(0) una caratteristica. Estraiamo un campione di tre elementi. Si avrà:

X = (0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1).

Si consideri la statistica somma campionaria

T =

n∑i=1

Xi.

Anzitutto essa realizza una sintesi rispetto al campione perché al posto di considerare terne di numeri ne considera lasomma.Inoltre, la partizione indotta da T è di 4 sottoinsiemi in corrispondenza dei 4 valori che la somma può assumere.Infatti

t = 0 induce il sottoinsieme (0, 0, 0);t = 1 induce (1, 0, 0), (0, 1, 0), (0, 0, 1);t = 2 induce (1, 1, 0), (1, 0, 1), (0, 1, 1);t = 3 induce (1, 1, 1).

I quattro sottoinsiemi non hanno elementi in comune e la loro unione coincide con lo spazio campionario X. In parolepiù semplici diciamo che di solito esistono meno valori della statistica campionaria – in questo caso 4 – rispetto alnumero delle realizzazioni – in questo caso 8 –.

13.3 Statistiche sufficienti

Una procedura inferenziale potrebbe giovarsi dell’ utilizzo di una statistica t = t(x1, x2, ..., xn) al posto dix1, x2, ..., xn; infatti, per quanto detto nella sezione precedente, si otterrebbe una notevole semplificazionedei calcoli. Ma questa semplificazione determina perdita di informazione: che t contenga meno informazionedi x1, x2, ..., xn lo si vede dal fatto che t non è una funzione biunivoca: in genere x1, x2, ..., xn non può essereindividuata a partire da t, mentre il converso è banalmente vero. Però non tutta l’informazione contenuta inx1, x2, ..., xn è rilevante poiché non tutta riguarda il parametro incognito θ.In definitiva risulta conveniente rimpiazzare x1, x2, ..., xn con t esclusivamente se t e x1, x2, ..., xn contengonole stesse informazioni su θ, cioè se nel rimpiazzo si perde solo informazione che non riguarda θ.T si dice sufficiente per θ se, indifferentemente da quali siano i valori assunti da x1, x2, ..., xn e da θ, tcontiene tutta l’informazione rilevante per θ presente nella realizzazione che lo ha generato.Il tipo di sintesi che la statistica sufficiente opera si può rendere con il seguente parallelo.Si pensi al complesso dell’informazione campionaria come una miscela di pulviscoli di legno, ferro e plastica. Siconsideri l’informazione rilevante per il campione come la polvere di ferro. Si immagini la statistica sufficientecome una calamita. Si paragoni il processo di sintesi al passaggio della calamita sulla miscela di polveri. Lacalamita riterrà tutto il pulviscolo di ferro tralasciando l’informazione non necessaria, cioè gli altri pulviscoli.Per una definizione formale di statistica sufficiente è necessario premettere quanto segue. Supponiamo chet(x1, x2, ..., xn) = t. Ora (T = t) si verifica se e solo se si verifica un elemento della partizione di X corrispon-dente a t. Di conseguenza (X1 = x1, X2 = x2, ..., Xn = xn)∩ (T = t) ha la stessa probabilità dell’intersezionetra la realizzazione e quella partizione. Ma tale intersezione è ovviamente pari alla realizzazione stessa. Comeconseguenza si ha che fX1X2...XnT (x1, x2, ..., xn, t; θ) = fX1X2...Xn(x1, x2, ..., xn; θ)

M. Di Marzio 99 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 107: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

13.3. Statistiche sufficienti

Una statistica T è detta sufficiente se e solo se la pdf condizionata di x1, x2, ..., xn dato T = t, cioè

fX1X2..Xn|t(x1, x2, ..., xn|T = t; θ) =fX1X2...XnT (x1, x2, ..., xn, t; θ)

fT (t; θ)

=fX1X2...Xn(x1, x2, ..., xn; θ)

fT (t; θ)

ha un’espressione che non dipende da θ per qualsiasi realizzazione t di T .Il fatto che fX1X2...Xn|t(x1, x2, ..., xn|T = t) non dipende da θ significa che la variabilità delle realizzazionicampionarie che fanno capo al medesimo valore t non è generata da θ. Allora avere a disposizione l’una ol’altra di due diverse realizzazioni che danno lo stesso valore di t è indifferente ai fini della conoscenza di θ.Una formulazione alternativa di statistica sufficiente è data dal seguente criterio di fattorizzazione. Unastatistica T si dice sufficiente se e solo se esistono due funzioni non negative, g e h, tali che per qualsiasirealizzazione campionaria x1, x2, ..., xn possiamo scrivere:

L(θ;x1, x2, ..., xn) = g(T (x1, x2, ..., xn); θ)× h(x1, x2, ..., xn).

Per capire che il senso di questa definizione è identico a quello della definizione precedente, si considerino duerealizzazioni campionarie, x1, x2, ..., xn e x′

1, x′2, ..., x

′n. Ora, se T (x1, x2, ..., xn) = T (x′

1, x′2, ..., x

′n), allora il

rapporto tra le due rispettive verosimiglianze sarà pari a

L(θ;x1, x2, ..., xn)

L(θ;x′1, x

′2, ..., x

′n)

=g(T (x1, x2, ..., xn); θ)× h(x1, x2, ..., xn)

g(T (x′1, x

′2, ..., x

′n); θ)× h(x′

1, x′2, ..., x

′n)

=h(x1, x2, ..., xn)

h(x′1, x

′2, ..., x

′n)

,

come si vede il rapporto delle verosimiglianze è fisso per qualsiasi valore di θ. Di conseguenza i graficidelle funzioni di verosimiglianza sono proporzionali. Ma verosimiglianze proporzionali garantiscono stessocontenuto informativo, ad esempio hanno stessi massimi e minimi, e quindi identiche conclusioni inferenzialiindipendentemente dal fatto che i due campioni x1, x2, ..., xn e x′

1, x′2, ..., x

′n siano diversi.

Esempio 13.4. Dato il campione casuale X1, X2, X3 estratto da una popolazione bernoulliana, dimostrare che:

a) S1 = X1 +X2 +X3 è una statistica sufficiente per π;

b) S2 = X1X2 +X3 è una statistica non sufficiente per π.

a) Per dimostrare che la statistica S1 è sufficiente per π, occorre determinare la distribuzione del campione X1,X2,X3

condizionata ai valori della statistica ossia

fX1X2X3|s1 (x1, x2, x3 |s1 ) =fX1X2X3 (x1, x2, x3;π)

fS1 (s1;π)

e verificare se essa dipende dal parametro π che identifica la legge distributiva bernoulliana.

Lo spazio campionario di riferimento è

X = (0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1) .

La pdf del campione è

fX1X2X3(x1, x2, x3;π) = π∑

xi (1− π)3−∑

xi .

Inoltre, poiché la statistica S1 =∑

i xi è una somma di vv.cc. bernoulliane, essa segue una legge di distribuzionebinomiale:

fS1 (s1;π) =

(3∑xi

)π∑

xi (1− π)3−∑

xi .

E dunque si hanno i seguenti calcoli:

Primi elementi di inferenza statistica (ed. maggio 2012) 100 M. Di Marzio

Page 108: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

13. VEROSIMIGLIANZA E SUFFICIENZA

Realizzazione s1 fX1X2X3|s1(x1, x2, x3|s1)campionaria

(0, 0, 0) 0 fX1X2X3(0, 0, 0;π)/fS1(0;π) = (1− π)3/[(30

)(1− π)3] = 1

(0, 0, 1) 1 fX1X2X3(0, 0, 1;π)/fS1(1;π) = (1− π)2π/[(31

)(1− π)2π] = 1/3

(0, 1, 0) 1 fX1X2X3(0, 1, 0;π)/fS1(1;π) = (1− π)2π/[(31

)(1− π)2π] = 1/3

(1, 0, 0) 1 fX1X2X3(1, 0, 0;π)/fS1(1;π) = (1− π)2π/[(31

)(1− π)2π] = 1/3

(0, 1, 1) 2 fX1X2X3(0, 1, 1;π)/fS1(2;π) = (1− π)π2/[(32

)(1− π)π2] = 1/3

(1, 0, 1) 2 fX1X2X3(1, 0, 1;π)/fS1(2;π) = (1− π)π2/[(32

)(1− π)π2] = 1/3

(1, 1, 0) 2 fX1X2X3(1, 1, 0;π)/fS1(2;π) = (1− π)π2/[(32

)(1− π)π2] = 1/3

(1, 1, 1) 3 fX1X2X3(1, 1, 1;π)/fS1(3;π) = π3/[(33

)π3] = 1

Poiché fX1X2X3|s1(x1, x2, x3|s1) risulta indipendente da π, si conclude che S1 = X1 + X2 + X3 è una statisticasufficiente per π.A ben guardare, al risultato si perviene in maniera immediata. Infatti poiché s1 =

∑xi possiamo scrivere

fX1X2X3|s1(x1, x2, x3|s1) =fX1X2X3(x1, x2, x3;π)

fS1(s1;π)=

π∑

xi(1− π)3−∑

xi(3∑xi

)π∑

xi(1− π)3−∑

xi=

1(3∑xi

)così la distribuzione condizionata del campione X1, X2, X3 dato S1 = s1 non dipende da π, per qualsiasi valore di S1.b) Le modalità della statistica S2 sono:

Realizzazione Realizzazionecampionaria di S2

(0, 0, 0) 0

(0, 0, 1) 1

(0, 1, 0) 0

(1, 0, 0) 0

(0, 1, 1) 1

(1, 0, 1) 1

(1, 1, 0) 1

(1, 1, 1) 2

Essendo le sequenze di 0 e 1 (insuccessi e successi), che identificano le realizzazioni campionarie, incompatibili edequiprobabili, le densità fS2(s2;π) sono ottenute come somma delle probabilità delle sequenze (x1, x2, x3) tali ches2 = x1x2 + x3 dove i ∈ 0, 1, 2 (ossia i possibili valori che la statistica S2 può assumere). Pertanto:

fS2(0;π) = (1− π)3 + (1− π)π(1− π) + π(1− π)(1− π)

= (1− π)3 + 2π(1− π)2

= (1− π)2(1− π + 2π) = (1− π)2(1 + π);

fS2(1;π) = (1− π)(1− π)π + (1− π)ππ + π(1− π)π + ππ(1− π)

= (1− π)2π + 3π2(1− π) = (1− π)π(1− π + 3π)

= (1− π)π(1 + 2π);

fS2(2;π) = π3.

M. Di Marzio 101 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 109: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

13.3. Statistiche sufficienti

Si ricava, dunque:

Realizzazione S2 fX1X2X3|s2(x1, x2, x3|s2)campionaria

(0, 0, 0) 0 fX1X2X3(0, 0, 0;π)/fS2(0;π) = (1− π)3/[(1− π)2(1 + π)] = 1−π1+π

(0, 0, 1) 1 fX1X2X3(0, 0, 1;π)/fS2(1;π) = (1− π)2π/[(1− π)π(1 + 2π)] = 1−π1+2π

(0, 1, 0) 0 fX1X2X3(0, 1, 0;π)/fS2(0;π) = (1− π)2π/[(1− π)2(1 + π)] = π1+π

(1, 0, 0) 0 fX1X2X3(1, 0, 0;π)/fS2(0;π) = (1− π)2π/[(1− π)2(1 + π)] = π1+π

(0, 1, 1) 1 fX1X2X3(0, 1, 1;π)/fS2(1;π) = (1− π)π2/[(1− π)π(1 + 2π)] = π1+2π

(1, 0, 1) 1 fX1X2X3(1, 0, 1;π)/fS2(1;π) = (1− π)π2/[(1− π)π(1 + 2π)] = π1+2π

(1, 1, 0) 1 fX1X2X3(1, 1, 0;π)/fS2(1;π) = (1− π)π2/[(1− π)π(1 + 2π)] = π1+2π

(1, 1, 1) 2 fX1X2X3(1, 1, 1;π)/fS2(2;π) = π3/π3 = 1

Poiché la distribuzione condizionata del campione X1, X2, X3 dati i valori s2 assunti da S2 dipende da π, si concludeche la statistica S2 non è sufficiente per π.

Primi elementi di inferenza statistica (ed. maggio 2012) 102 M. Di Marzio

Page 110: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

14Esercizi svolti

Esercizio 14.1. Su una popolazione di 3 elementi si è rilevato X, ottenendo 2, 6, 10.

a) Determinare quanti e quali campioni casuali di numerosità n = 2 è possibile estrarre e calcolare il valoremedio del carattere X in ciascun campione;

b) costruire la distribuzione delle frequenze assolute e relative della media campionaria;

c) costruire la pdf della v.c. media campionaria.

Soluzione a) Il numero di campioni casuali di numerosità n = 2 estraibili da una popolazione di numerositàN = 3 è pari al numero di disposizione con reimmissione, cioè Nn = 32 = 9.I possibili campioni e le rispettive medie sono:

(2, 2) x = 2; (2, 6) x = 4; (2, 10) x = 6;(6, 2) x = 4; (6, 6) x = 6; (6, 10) x = 8;(10, 2) x = 6; (10, 6) x = 8; (10, 10) x = 10.

b) La distribuzione delle frequenze con cui ciascuna media si presenta è:

xi 2 4 6 8 10

ni 1 2 3 2 1 9

ni/Nn 1/9 2/9 3/9 2/9 1/9 1

c) Poiché i campioni sono equiprobabili, la probabilità di estrazione di ciascun campione è di 1/9, così ladistribuzione campionaria della v.c. X è data da:

xi 2 4 6 8 10

pX(xi) 1/9 2/9 3/9 2/9 1/9 1

Esercizio 14.2. Determinare media, varianza e scarto quadratico medio della distribuzione campionaria diX, costruita nell’esercizio precedente.

Soluzione La media della v.c. media campionaria è ottenuta come somma dei valori xi ponderati con lerispettive probabilità:

µX =∑i

xipX(xi) = 2× 1

9+ 4× 2

9+ 6× 3

9+ 8× 2

9+ 10× 1

9= 6.

La varianza della v.c. media campionaria è, invece, data dalla somma dei quadrati delle differenze tra i valorixi ponderati con le rispettive probabilità

σ2X

=∑i

(xi − µX)2 pX(xi)

= (2− 6)2 1

9+ (4− 6)

2 2

9+ (6− 6)

2 3

9+ (8− 6)

2 2

9+ (10− 6)

2 1

9= 5.33.

M. Di Marzio 103 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 111: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Infine, lo scarto quadratico medio della distribuzione campionaria in esame, ottenuto come radice quadratapositiva della varianza è pari a

σX = +√

σ2X

= 2.31.

Agli stessi risultati si arriva tramite il teorema su media e varianza della media campionaria:

µX = µX = 6 ;

σX =σX√n=

3.266√2

= 2.31.

Esercizio 14.3. Considerata la distribuzione di frequenze della variabile X costruita nell’esercizio 14.1,determinare la probabilità che un campione casuale estratto dalla popolazione di riferimento, presenti mediamaggiore di 2 ma non superiore a 6.

Soluzione Per determinare la probabilità richiesta dall’esercizio consideriamo i valori della funzione diripartizione in corrispondenza di Xi = 6 e di Xi = 2.Infatti:

P(2 < X ≤ 6

)= FX (6)− FX (2) .

Dalla distribuzione di frequenza della variabile X si ricava:

FX (2) =1

9e FX (6) =

1

9+

2

9+

3

9=

6

9.

da cui:P(2 < X ≤ 6

)=

6

9− 1

9=

5

9.

In alternativaP(2 < X ≤ 6

)= P(4) + P(6) =

2

9+

3

9=

5

9.

Esercizio 14.4. La durata in ore di un certo tipo di lampadine X si distribuisce secondo una legge incognitacon deviazione standard σX = 8. Supponendo di estrarre un campione casuale di 36 lampadine e sapendo cheP(X ≤ 1400

)= 0.9332 calcolare µX .

Soluzione Poiché, per il TCL, al crescere della numerosità campionaria la distribuzione della v.c. mediacampionaria può essere convenientemente approssimata dalla distribuzione normale, con media µX e varianzaσ2X/n, la quantità (X − µX)

√n/σX tenderà a distribuirsi secondo una normale standard.

Dall’uguaglianza Z = (X − µX)√n/σX si ricava che µX = X − ZσX/

√n.

Di questa equazione conosciamo le grandezze:

x = 1400, σX = 8, n = 36.

Inoltre Z può essere trovato col seguente ragionamento.Il dato di cui si dispone è P

(X ≤ 1400

)= 0.9332 e, per quanto detto, possiamo scrivere:

P(X ≤ 1400

)= P (Z ≤ z) = 0.9332.

Sulle tavole della funzione di ripartizione della pdf normale standardizzata si trova il valore z = 1.5 incorrispondenza di 0.9332. Pertanto, sostituendo nell’equazione impostata inizialmente, si ottiene:

µX = 1400− 1.58√36

= 1398.

Esercizio 14.5. In un’azienda produttrice di software, le ore settimanali di straordinario si distribuisconocon media µ = 6 e varianza σ2 = 0.36. Si sa che questa settimana 49 programmatori hanno prenotato lostraordinario. Gli accantonamenti predisposti possono bastare per al massimo 300 ore. Sorge il problemase gli accantonamenti siano sufficienti. A tal fine ci si chiede qual è la probabilità che il totale delle oresettimanali di straordinario che saranno richieste sia non superiore a 300.

Soluzione Sebbene non si conosca la distribuzione delle ore settimanali di straordinario, per il TCL, lapdf della v.c. somma campionaria Y =

∑ni=1 Xi è approssimabile alla distribuzione normale con parametri

µY = nµX e σ2Y = nσ2

X . Pertanto la distribuzione del totale delle ore di straordinario del campione di 49programmatori, tende a distribuirsi normalmente con media e scarto quadratico medio

µY = nµX = 49× 6 = 294 ; σY =√nσX = 7

√0.36 = 4.2 .

Primi elementi di inferenza statistica (ed. maggio 2012) 104 M. Di Marzio

Page 112: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

14. ESERCIZI SVOLTI

Allora

P (Y ≤ 300) = P

(Z ≤ 300− 294

4.2

)= P (Z ≤ 1.4286) .

Consultando le tavole della funzione di ripartizione della pdf normale standardizzata, in corrispondenza diz = 1.43, si ottiene

P (Z ≤ 1.4286) = 0.9236.

Esercizio 14.6. Un’azienda intende attivare una linea di produzione ad elevata automazione in grado diaumentare notevolmente la quantità prodotta giornaliera e che inoltre favorisce un notevole risparmio sullaforza lavoro. Dalle informazioni del fornitore l’azienda viene a sapere che ci si deve attendere un 10%di produzione non conforme al giorno. Dopo alcuni calcoli di budget si decide di non attivare la linea diproduzione se, su un campione casuale di 500 pezzi, la percentuale D di pezzi difettosi è pari o superiore al13%. Determinare la probabilità che l’azienda non attivi la linea di produzione.

Soluzione Con un campionamento casuale da una popolazione che è chiaramente bernoulliana, P è lastatistica proporzione campionaria: P = X/n dove X =

∑ni=1 Xi è la statistica somma campionaria e misura

il numero di pezzi difettosi presenti nel campione. Allora P si distribuirà come una binomiale riscalata conn, per cui media, varianza e s.q.m. saranno rispettivamente pari a:

µP = π = 0.1, σ2P =

π(1− π)

n=

0.1× 0.90

500= 0.00018,

σP =

√π(1− π)

n=

√0.10× 0.90

500= 0.0134.

Una ovvia soluzione è quella di calcolare la probabilità in questione facendo uso della distribuzione binomiale,dovendo calcolare:

P (X ≥ 13) =

100∑x=13

0.1x (1− 0.1)100−x oppure P (X ≥ 13) = 1−

12∑x=0

0.1x (1− 0.1)100−x

ciò risulta piuttosto laborioso, mentre una semplice soluzione è offerta dall’approssimazione normale dellaproporzione campionaria fornita dal TCL. Allora si ragionerà nel seguente modo.Si consideri che per il TCL al crescere della numerosità campionaria n la distribuzione della proporzionecampionaria dei difetti P sarà approssimabile dalla distribuzione normale. Allora, ricorrendo alla standard-izzazione, si ha:

Z =P − µP

σP.

Quindi, la probabilità che l’azienda non attivi la linea di produzione in questione è pari a

P (P ≥ 0.13) = P

(Z ≥ 0.13− 0.10

0.0134

)= P (Z ≥ 2.24) .

Ricavando dalle tavole delle aree funzione di ripartizione della pdf della normale standardizzata il valorecorrispondente a z = 2.24, si ottiene la probabilità che l’azienda non attivi la linea di produzione:

P (P ≥ 0.13) = 1− P (Z ≤ 2.24) = 1− 0.9875 = 0.0125.

Esercizio 14.7. Sia X1, . . . , Xn un campione casuale estratto da una pdf B(n, π). Dimostriamo che lastatistica campionaria T =

∑ni=1 Xi è sufficiente per π.

Soluzione Come si sa, la somma di n bernoulliane di parametro π si distribuisce come una binomiale diparametri n e π. Inoltre la densità congiunta campionaria è

n∏i=1

πxi(1− π)(1−xi) = π∑

xi(1− π)∑

(1−xi) = πt(1− π)n−t;

allora:pX1X2...Xn(x1, x2, ..., xn;π)

pT (t;π)=

πt(1− π)n−t(nt

)πt(1− π)n−t

=

(n

t

)−1

che non dipende da π.

M. Di Marzio 105 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 113: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Esercizio 14.8. Sia X1, . . . , Xn un campione casuale da una popolazione normale con parametri µ e σ2.Dimostriamo che la statistica media campionaria X =

∑ni=1 Xi/n è sufficiente per µ.

Soluzione Nello scrivere la densità condizionata consideriamo prima il numeratore, cioè la densità congiuntacampionaria e esprimiamolo in una formulazione conveniente al nostro caso:

fX1X2...Xn(x1, ..., xn;µ, σ) =n∏

i=1

(2πσ2

)−1/2exp

− (xi − µ)2

2σ2

=(2πσ2

)−n/2exp

−∑n

i=1(xi − µ)2

2σ2

utilizzando la relazione trovata nella sezione 12.7 otteniamo

fX1X2...Xn(x1, ..., xn;µ, σ) =(2πσ2

)−n/2exp

−∑n

i=1(xi − x)2 + n(x− µ)2

2σ2

.

Riguardo la pdf della media campionaria fX(x;µ, σ2), sappiamo che in questo caso è normale con parametriµ e σ2/n. Per cui la densità condizionata sarà:

fX1X2...Xn(x1, ..., xn;µ, σ)

fX(x;µ, σ)=

(2πσ2

)−n/2exp

∑ni=1(xi−x)2+n(x−µ)2

2σ2

(2πσ2

n

)−1/2exp

−n(x−µ)2

2σ2

= n−1/2

(2πσ2

)−(n−1)/2exp

−∑n

i=1(xi − x)2

2σ2

che non dipende da µ. Così abbiamo provato che X è sufficiente per µ.

Esercizio 14.9. Sia X1, X2, ..., Xn un campione casuale da una pdf uniforme nell’intervallo [0, θ]. Dimostrareche

a) Yn = maxX1, X2, ..., Xn è una statistica sufficiente per θ;

b) Y1 = minX1, X2, ..., Xn non è una statistica sufficiente per θ.

Soluzione a) Per dimostrare che Yn è una statistica sufficiente per θ occorre dimostrare che la pdf congiuntadel campione dato Yn = yn non dipende da θ.Poiché le vv.cc. X1, X2, ..., Xn hanno pdf

fX(x; θ) =

1θ se 0 ≤ x ≤ θ

0 altrimenti,

e, come dimostrato nell’esercizio 11.6

fYn(yn) =n(yn)

n−1

θn,

si ottiene

fX1X2...Xn|yn(x1, x2, ..., xn; θ|Yn = yn) =

fX1X2...XnYn(x1, x2, ..., xn, yn; θ)

fYn(yn)=

fX1X2...Xn(x1, x2, ..., xn; θ)

fYn(yn)

=(1/θ)n

(n(yn)n−1)/θn=

1

n(yn)n−1.

Pertanto la pdf congiunta del campione dato Yn = yn non dipende da θ, e si conclude che Yn è una statisticasufficiente per θ.b) come dimostrato nell’esercizio 11.6, dato che

fY1(y1) =

n(θ − y1)n−1

θn,

si ha che

fX1X2...Xn|y1(x1, x2, ..., xn; θ|Y1 = y1) =

fX1X2...XnY1(x1, x2, ..., xn, y1; θ)

fY1(y1)=

fX1X2...Xn(x1, x2, ..., xn; θ)

fY1(y1)

=(1/θ)n

(n(θ − y1)n−1)/θn=

1

n(θ − y1)n−1.

Pertanto la pdf congiunta del campione dato Y1 = y1 dipende dal parametro θ; di conseguenza la statisticaY1 non è sufficiente per θ.

Primi elementi di inferenza statistica (ed. maggio 2012) 106 M. Di Marzio

Page 114: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15Stima

Indice15.1 Il problema della stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10715.2 Proprietà degli stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10815.3 Proprietà per piccoli campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10915.4 Proprietà per grandi campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11215.5 Costruzione degli stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

15.1 Il problema della stima

Supponiamo di essere interessati a ridurre la nostra ignoranza sulla distribuzione di un carattere quantitativoX in una popolazione. Sappiamo già che la distribuzione del carattere appartiene a una famiglia parametricaa noi nota indicata con fX(·; θ); θ ∈ Θ ⊂ Rk, ma non sappiamo quale sia. In altri termini, ne conosciamola forma funzionale a meno del valore del parametro.Così dobbiamo stimare θ sulla base della realizzazione di un campione casuale estratto da fX(·; θ). A talefine usiamo una statistica campionaria ϑ che trasforma i dati campionari in valori del parametro:

ϑ : X → Θ.

Essendo una statistica, ϑ può essere applicata al campione casuale, e allora definisce la v.c. stimatoreindicata come

Θ = ϑ(X1, X2, ..., Xn) ,

oppure può essere applicata a una particolare realizzazione campionaria, e allora definisce il valore campionariodi Θ che è chiamato stima ed è indicato come

θ = ϑ(x1, x2, ..., xn) .

Tradizionalmente, con una infelice traduzione dall’inglese, si parla di stima puntuale in luogo di stima.Tuttavia l’espressione inglese point estimation sarebbe meglio tradotta con l’espressione, ancorché poco inuso, stima per punti.

Esempio 15.1. Un tecnico che pesa minerali sa che la popolazione ipotetica degli errori di pesatura ha forma normale.Qui la stima dei parametri equivale alla stima di media e varianza. Si vogliono stimare i parametri sulla base dellarealizzazione campionaria 1 x1, x2..., xn. Indicata con X la v.c. continua che descrive gli errori di misurazione, perla pdf normale si ha µ = E[X] e σ2 = Var[X]. In analogia all’espressione formale dei parametri il tecnico può operarele seguenti stime

µ =1

n

n∑i=1

xi e σ2 =1

n

n∑i=i

(xi − µ)2

1Da qui in avanti per realizzazione campionaria si intenderà, quando non diversamente specificato, la realizzazione di un

campione casuale.

M. Di Marzio 107 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 115: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15.2. Proprietà degli stimatori

Ogni realizzazione x1, x2, ..., xn di un campione casuale X1, X2, ..., Xn dà luogo a una particolare stima θ: lapopolazione ipotetica delle stime, corrispondente all’insieme delle possibili realizzazioni X, definisce la pdfdi Θ che è indicata con fΘ(·; θ), ed è chiamata distribuzione campionaria dello stimatore. Si noti cheessa in generale dipende da θ poichè la fonte di casualità di Θ è la pdf del campione casuale che, a sua volta,dipende da θ.

Esempio 15.2. Sia X1,X2, ..., Xn un campione casuale estratto da una popolazione normale di parametri µ e σ.La statistica media campionaria X può essere scelta come stimatore per la media della popolazione µ, e la sua pdfcampionaria è normale con parametri µ e σ2/n, come dimostrato nella sezione 12.5. Così scriviamo fX(·;µ, σ) =N (µ;σ2/n). Come già osservato alla fine della sezione 12.4 la pdf dello stimatore contiene il parametro da stimare,come evidenziato dal suo simbolo generico fΘ(·; θ).

15.2 Proprietà degli stimatori

Di regola per la stima di un parametro incognito θ è possibile ricorrere a molte statistiche campionarie, cosìbisogna applicare criteri che consentano di scegliere tra le diverse opzioni.

Esempio 15.3. Alcune statistiche utilizzabili come stimatori del parametro µ di una pdf normale sono:

X =1

n

n∑i=1

Xi ; T =X2 +X1

2; V = X1 ;

Q = mediana[X1, X2, ..., Xn] ; R = moda[X1, X2, ..., Xn] .

Il modo più ragionevole di giudicare uno stimatore consiste nel riferirsi alle caratteristiche della sua dis-tribuzione campionaria fΘ(·; θ). In particolare, è importante valutare come fΘ(·; θ) è dislocata intorno alvalore del parametro θ. Naturalmente è auspicabile che fΘ(·; θ) sia concentrata intorno a θ.

Esempio 15.4. Supponiamo di dover stimare il parametro µ della popolazione dell’esempio 12.20. Usiamo gli stima-tori X e V dell’esempio 15.3. Le rispettive distribuzioni campionarie sono rappresentate in figura 12.2. Chiaramentelo stimatore preferibile è X perché molto più concentrato intorno al valore del parametro che è 0.

Tale idea di concentrazione è definita in vari modi tramite funzioni della v.c. errore

Θ− θ .

Si può infatti misurare la distorsione, cioè quanto il valore atteso dell’errore sia piccolo (vd. sez. 15.3).Oppure l’errore quadratico medio, quanto il valore atteso dell’errore al quadrato sia piccolo (vd. sez. 15.3).In questi casi misuriamo quanto possiamo aspettarci che la stima risulti vicina al parametro. Proprietà comequeste sono definite, forse impropriamente, per piccoli campioni o esatte perché si calcolano per una fissataampiezza campionaria.Di cruciale importanza è il comportamento dello stimatore al crescere della numerosità campionaria. Leproprietà per cui lo stimatore riesce a sfruttare in termini di maggiore accuratezza l’aumento dell’informazionedato dall’aumento della numerosità campionaria sono dette per grandi campioni o asintotiche.

Esempio 15.5. Da una pdf normale standard sono state estratte 500 realizzazioni di campioni casuali di numerositàcrescenti che vanno da 1 a 500. Per ognuno di questi campioni è stata calcolata la media come stima di µ = 0. Lafigura 15.1 rappresenta i valori delle medie campionarie in corrispondenza delle rispettive numerosità. Risulta evidenteche la precisione delle stime aumenta con l’aumentare di n.

L’aumento di accuratezza dovuto all’aumentare di n può essere descritto in vari modi: il valore atteso delquadrato dell’errore deve tendere a 0, oppure la probabilità che l’errore si annulli deve tendere a 1 (vd. sez.15.4).Si noti che nello specificare le proprietà dello stimatore, pretenderemo sempre che queste devono essere valideper qualsiasi valore di θ. Ciò per il semplice fatto che non sappiamo qual è il valore di θ, così, per essereaffidabile, una proprietà deve mantenersi ovunque – o come anche si dice uniformemente – valida lungol’intero spazio parametrico Θ.

Primi elementi di inferenza statistica (ed. maggio 2012) 108 M. Di Marzio

Page 116: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15. STIMA

0 100 200 300 400 500−1

−0.5

0

0.5

numerosità campionariam

edia

ca

mpi

onar

ia

Figura 15.1: Stime di µ = 0 tramite la media campionaria.

15.3 Proprietà per piccoli campioni

Come si è detto, un primo modo di misurare la bontà di uno stimatore è considerare il valore atteso del suoerrore. In particolare, essendo il parametro θ una quantità fissa, si ha

E[Θ− θ] = E[Θ]− θ.

E[Θ] − θ è detta distorsione ed indicata con dist[Θ]. Come differenza tra due quantità fisse, la distorsionenon è una v.c.. A parità di altre condizioni preferiamo lo stimatore con distorsione più prossima allo zero.Uno stimatore Θ si dice non distorto o corretto se per qualsiasi valore di θ in Θ si ha E[Θ] = θ (oppuredist[Θ] = 0). In pratica ciò implica che se si potesse ripetere la stima un grosso numero di volte su altrettanticampioni della stessa numerosità, la media di tutte le stime ottenute sarebbe molto vicina o coincidente conil valore del parametro.

Esempio 15.6. Sia X1, X2, ..., Xn un campione casuale, ecco due casi di statistiche utilizzabili come stimatoricorretti.

⋄ La media campionaria X è uno stimatore corretto per la media µ della popolazione, infatti E[X] = µ. Nel casodi popolazione bernoulliana diciamo che la statistica proporzione campionaria P è uno stimatore corretto di πpoiché E[P ] = π.

⋄ La varianza campionaria S2 (lo s.q.m. campionario S) è uno stimatore corretto per la varianza (s.q.m.) dellapopolazione σ2 (σ), infatti E[S2] = σ2. Ne consegue che anche lo s.q.m. campionario è corretto per σ, cioèE[S] = σ.

Esempio 15.7. Sia X1, X2, ..., Xn un campione casuale estratto da una pdf N (0, σ2). Lo stimatore T = 1n

∑ni=1 X

2i

è corretto per σ2. Per dimostrare ciò si consideri la quantità

nT

σ2=

n∑i=1

X2i

σ2,

che, in quanto somma di n vv.cc. normali standard al quadrato, è una v.c. chi-quadrato con n gradi di libertà. Si haallora che E[nT

σ2 ] = n, e quindi nE[T ]

σ2 = n, da cui

E[T ] =nσ2

n= σ2.

Esempio 15.8. Dato il campione casuale X1, X2, X3 dalla pdf esponenziale fX(x;λ) = λe−λx, λ ≥ 0, lo stimatore3/(X1 +X2 +X3) è corretto per il parametro λ. Infatti

E

[3

X1 +X2 +X3

]=

3

E[X1 +X2 +X3]=

3

E[X1] + E[X2] + E[X3]=

3

3/λ= λ .

M. Di Marzio 109 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 117: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15.3. Proprietà per piccoli campioni

La correttezza ci assicura che in media lo stimatore né sottostima né sovrastima il parametro, cioè noncontiene deviazioni sistematiche rispetto a θ. Tuttavia essa non è una caratteristica che basta da sola poichénon dice alcunchè circa la dispersione di fΘ(·; θ) intorno a θ. Ma una dispersione elevata vanifica la correttezzapoiché in tal caso si possono avere stime molto lontane da θ anche se in media queste sono pari ad esso.Ora si introduce una misura che tiene conto sia della distorsione che della varianza dello stimatore.Dato uno stimatore Θ di θ, l’ errore quadratico medio (EQM) di Θ è la quantità definita da:

EQM[Θ] = E[(Θ− θ)2].

In quanto media della differenza al quadrato tra Θ e θ, l’indice EQM[Θ] è una misura della dispersione di Θintorno a θ, esattamente come la varianza di una v.c. è una misura della dispersione della v.c. intorno al suovalore atteso. Si noti che, a differenza della distorsione, l’errore quadratico medio non può essere negativo.L’errore quadratico medio può scriversi come somma di varianza dello stimatore e distorsione al quadrato,infatti

EQM[Θ] = E[(Θ− θ)2]

= E[(Θ− µΘ + µΘ − θ)2]

= E[(Θ− µΘ) + (µΘ − θ)2]= E[(Θ− µΘ)

2 + (µΘ − θ)2 + 2(Θ− µΘ)(µΘ − θ)]

= E[(Θ− µΘ)2] + E[(µΘ − θ)2] + 2E[(Θ− µΘ)(µΘ − θ)];

ma2E[(Θ− µΘ)(µΘ − θ)] = (µΘ − θ)2E[Θ− µΘ] = (µΘ − θ)2(µΘ − µΘ) = 0,

inoltreE[(µΘ − θ)2] = (µΘ − θ)2

per cuiEQM[Θ] = E[(Θ− µΘ)

2] + (µΘ − θ)2 = Var[Θ] + dist2[Θ].

Esempio 15.9. Sia X1,X2, ..., Xn un campione casuale estratto da una pdf normale di parametri µ incognito eσ2 = 2. Si consideri come stimatore di µ la statistica T = X1 +X2. Poiché

EQM[T ] = E[(T − µ)2] = Var[T ] + dist2[T ],

essendoVar[T ] = Var[X1 +X2] = Var[X1] + Var[X2] = 2σ2 = 4

edist2[T ] = (E[T ]− µ)2 = (E[X1 +X2]− µ)2 = (E[X1] + E[X2]− µ)2 = (2µ− µ)2 = µ2

si haEQM[T ] = 4 + µ2.

Il criterio dello EQM suggerisce di scegliere lo stimatore con lo EQM più basso per qualsiasi valore di θ inΘ. Tale proprietà assicura che grossi scostamenti della stima dal vero valore del parametro si verificherannocon probabilità inferiore a quella di scarti contenuti.Ma come si vede dalla sua definizione, lo EQM dipende da θ. Purtroppo ne deriva che non sempre è possibileutilizzare tale criterio, poiché non si può trovare uno stimatore con errore quadratico medio uniformementeminimo lungo tutto lo spazio parametrico Θ.

Esempio 15.10. Siano W1 e W2 stimatori del parametro θ per cui EQM[W1] = (θ/4)2 e EQM[W2] = (θ/4 + 5)2.Lo spazio parametrico è Θ = [−30, 10]. Se θ ∈ [−30,−10] si ha EQM[W1] > EQM[W2], mentre se θ ∈ [−10, 10] è veroil contrario. Sulla base del confronto tra gli EQM non è allora possibile stabilire quale sia lo stimatore migliore per ilsemplice motivo che non sappiamo in quale zona si trova il parametro. La figura 15.2 illustra il caso.

Se gli stimatori Θ1 e Θ2 sono entrambi corretti, si ha che EQM[Θi] = Var[Θi], per i = 1, 2. In questo casoparticolare, se Var[Θ1] < Var[Θ2] si sceglierà lo stimatore Θ1 poiché la sua distribuzione è più concentrataintorno al parametro. Allora diremo che Θ1 è più efficiente di Θ2. Se tra tutti gli stimatori corretti di unparametro esiste il più efficiente si dirà che esso è efficiente in senso assoluto.

Primi elementi di inferenza statistica (ed. maggio 2012) 110 M. Di Marzio

Page 118: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15. STIMA

−30 −20 −10 0 10−10

−5

0

5

10

15

20

Θ

EQM[W2] EQM[W

1]

Figura 15.2: Errori quadratici medi degli stimatori W1 e W2.

Esempio 15.11. Sia X1, X2, ..., Xn un campione casuale estratto da una pdf normale con media µ incognita evarianza σ2 = 4. Scegliamo lo stimatore di µ tra le seguenti statistiche campionarie

T1 = X1; T2 =X1 +X2

2.

PoichéE[T1] = E[X1] = µ

eE[T2] = E

[X1 +X2

2

]=

1

2(E[X1] + E[X2]) =

µ+ µ

2= µ,

gli stimatori T1 e T2 sono entrambi corretti per µ. Per stabilire quale dei i due stimatori sia il più efficiente,confrontiamo Var[T1] e Var[T2]. Poiché

Var[T1] = Var[X1] = σ2 = 4

e

Var[T2] = Var

[X1 +X2

2

]=

1

4(Var[X1] + Var[X2]) =

σ2 + σ2

4=

σ2

2=

4

2= 2,

risultaVar[T2] < Var[T1],

e quindi tra T1 è T2 lo stimatore più efficiente è T2.

Ma come fare se Var[Θ1] < Var[Θ2] ma E[Θ1] = θ e E[Θ2] = θ? Efficienza e distorsione si compongono nelcriterio dello EQM per cui è sempre sufficiente confrontare EQM[Θ1] e EQM[Θ2].

Esempio 15.12. Si considerino due stimatori della media della popolazione µ, W1 e W2, tali che:

E[W1] = µ,E[W2] = µ+ 3,Var[W1] = 26,Var[W2] = 16,

Sebbene distorto, W2 è più efficiente, infatti EQM[W1] = 26 mentre EQM[W2] = 25.

Esempio 15.13. Sia X1,X2, ..., Xn un campione casuale generato da una pdf normale con media incognita µ evarianza σ2 = 4. Si considerino come stimatori di µ lo stimatore T1 proposto nell’esempio 15.11 e lo stimatore

W = X1 +X2.

Poiché T1 è uno stimatore corretto per µ si ha EQM[T1] = Var[T1] = 4. Per lo stimatore W si ha invece

E[W ] = E[X1 +X2] = E[X1] + E[X2] = 2µ.

Pertanto W non è uno stimatore corretto per µ e

dist[W ] = E[W ]− µ = 2µ− µ = µ.

PoichéVar[W ] = Var[X1 +X2] = σ2 + σ2 = 8,

risultaEQM[W ] = Var[W ] + dist2[W ] = 8 + µ2.

PertantoEQM[T1] < EQM[W ]

e si conclude che tra T1 e W lo stimatore da preferire per µ è T1.

M. Di Marzio 111 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 119: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15.4. Proprietà per grandi campioni

Passando a una differente proprietà, definiamo lineare uno stimatore Θ che sia espresso come funzione linearedegli elementi del campione, cioè se:

Θ =n∑

i=1

aiXi.

dove le quantità a1, a2, ..., an sono costanti.

Esempio 15.14. Sia dato un campione casuale X1, X2, ..., Xn estratto da una popolazione con media µ e varianzaσ2. La media campionaria X = n−1∑n

i=1 Xi è uno stimatore lineare. Qui ai = 1/n per i = 1, 2, ..., n.Dato un campione casuale estratto da una pdf con media µ, ora dimostriamo un risultato molto interessante cheaccredita la media come il migliore stimatore tra quelli per cui ai ≥ 0 per ogni i ∈ [1, 2, ..., n] e

∑ni=1 ai = 1.

Dimostriamo prima che gli stimatori lineari per cui∑n

i=1 ai = 1 e ai ≥ 0 sono corretti:

E

[n∑

i=1

aiXi

]=

n∑i=1

aiµ = µ

n∑i=1

ai = µ.

Passiamo adesso alla varianza. Sappiamo che Var[X]= σ2/n. Invece per un generico stimatore lineare abbiamo che

Var

[n∑

i=1

aiXi

]=

n∑i=1

a2iVar[Xi] = σ2

n∑i=1

a2i .

Così il confronto tra gli EQM si riduce allo studio del segno della differenza tra le due varianze. Si ha

Var

[n∑

i=1

aiXi

]− Var[X] = σ2

(n∑

i=1

a2i −

1

n

)

= σ2

(n∑

i=1

a2i −

2

n+

1

n

)

= σ2

(n∑

i=1

a2i −

2∑n

i=1 ai

n+

1

n

n∑i=1

1

n

)

= σ2n∑

i=1

(a2i −

2ai

n+

1

n2

)

= σ2n∑

i=1

(ai −

1

n

)2

≥ 0.

Poiché la differenza tra le due varianze è positiva, allora abbiamo dimostrato che la media aritmetica ha errorequadratico medio (o varianza) uniformemente minima all’interno della classe considerata.

15.4 Proprietà per grandi campioniLe proprietà finora presentate riguardano un’ampiezza n del campione fissata. Ora ci chiediamo comedovrebbe comportarsi uno stimatore all’aumentare dell’ampiezza campionaria. In effetti, al crescere di ncresce l’informazione sul parametro. Quindi vorremmo che lo stimatore fosse in grado di sfruttare l’aumentodell’informazione per essere via via più preciso; le proprietà di uno stimatore al crescere dell’ampiezza delcampione sono dette, come anticipato, per grandi campioni o asintotiche.Nel seguito sono enunciate alcune tra le principali proprietà asintotiche degli stimatori. Nell’enunciare detteproprietà lo stimatore sarà indicato con Θn per sottolineare che la sua pdf fΘn

(·; θ) cambia forma al variaredi n.

Lo stimatore Θn si definisce asintoticamente corretto, se all’aumentare di n la sua distorsione tende a 0,per qualsiasi valore di θ in Θ. In formule

limn→+∞

E[Θn]− θ = 0.

Esempio 15.15. Si consideri un campione casuale X1, X2, ..., Xn generato da una pdf di Poisson con parametroincognito λ. Lo stimatore

Tn =

∑ni=1 Xi

n− 1

è uno stimatore distorto per λ. Si ha infatti

E[Tn] = E

[∑ni=1 Xi

n− 1

]=

1

n− 1E

[n∑

i=1

Xi

]=

1

n− 1

n∑i=1

E [Xi] =nλ

n− 1= λ.

Primi elementi di inferenza statistica (ed. maggio 2012) 112 M. Di Marzio

Page 120: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15. STIMA

Tuttavia poiché

dist[Tn] = E[Tn]− λ =nλ

n− 1− λ =

nλ− nλ+ λ

n− 1=

λ

n− 1,

si ha chelim

n→+∞dist[Tn] = lim

n→+∞

λ

n− 1= 0,

e si conclude pertanto che Tn è uno stimatore asintoticamente corretto per λ.

Lo stimatore Θn si definisce coerente (o consistente) in media quadratica, se all’aumentare di n il suoEQM tende ad annullarsi per qualsiasi valore di θ in Θ. In formule

limn→+∞

EQM[Θn] = 0.

Ora, essendo EQM[Θn] = Var[Θn] + dist2[Θn], le condizioni

limn→+∞

E[Θn]− θ = 0 e limn→+∞

Var[Θn] = 0

sono necessarie e sufficienti affinché Θn sia consistente in media quadratica.

Esempio 15.16. Sia X1, X2, ..., Xn un campione casuale avente pdf generatrice normale con varianza nota σ2 = 5e media incognita µ. Lo stimatore

Xn =

∑ni=1 Xi

nè uno stimatore corretto per µ. Si ha pertanto

EQM[Xn] = Var[Xn] =σ2

n=

5

n,

e poiché

limn→+∞

EQM[Xn] = limn→+∞

5

n= 0,

lo stimatore Xn è consistente in media quadratica.

Esempio 15.17. Si consideri lo stimatore T dell’esempio 15.7. Esso è consistente in media quadratica. Infatti,abbiamo già provato che la distorsione è nulla, così resta da provare che la varianza tende a 0 con l’aumentre di n.Ricordando che per la variabile casuale chi-quadrato con n gradi di libertà, indicata con X2

n, risulta Var[X2n] = 2n,

abbiamo

Var[T ] = Var

[σ2

nX2

n

]=

σ4

n2Var

[X2

n

]=

2nσ4

n2=

2σ4

n.

Ora

limn→∞

2σ4

n= 0.

Esempio 15.18. Dato un campione casuale di n elementi da una popolazione con varianza σ2, si consideri ilseguente stimatore per la media aritmetica:

T = 0.8X1 +0.2∑n

i=2 Xi

n− 1

Sebbene T sia corretto, e quindi anche asintoticamente corretto, tuttavia esso non é coerente in media quadratica,poichè al crescere di n la varianza non tende a zero, infatti

Var[T ] = 0.82Var[X1] +0.22

∑ni=2 Var[Xi]

(n− 1)2=

(0.64 +

0.04

n− 1

)σ2

così limn→+∞ EQM[T ] = 0.64σ2.

Esempio 15.19. Lo stimatore T dell’esempio 15.9 non è consistente poichè, se n → ∞, il suo errore quadraticomedio continua comunque a valere 4 + µ2 poichè non dipende da n.

Lo stimatore Θn si definisce semplicemente coerente (o consistente), se al crescere della dimensionecampionaria assume, con probabilità 1, valori sempre più vicini al valore effettivo del parametro da stimareper qualsiasi valore di θ in Θ. In formule

limn→+∞

P(|Θn − θ| < ε) = 1,

dove ε è un numero positivo piccolo a piacere.

M. Di Marzio 113 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 121: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15.5. Costruzione degli stimatori

Ma quale relazione esiste tra i due tipi di coerenza? La coerenza in media quadratica implica la coerenzasemplice. Segue una dimostrazione di questa relazione che riguarda il solo caso di stimatori corretti. Con lasimbologia appena introdotta, si consideri la seguente formulazione della disuguaglianza di Chebyshev (sez.3.11). Posto µn = E[Θn] e σ2

n = Var[Θn]:

P(|Θn − µn| < kσn) ≥ 1− 1

k2,

dove k > 0. Ponendo ϵ = kσn si ottiene

P(|Θn − µn| < ϵ) ≥ 1− σ2n

ϵ2,

passando al limite si ha

limn→+∞

P(|Θn − µn| < ϵ) ≥ 1− limn→+∞

σ2n

ϵ2,

se Θn è corretto, allora µn = θ; inoltre la coerenza in media quadratica implica che limn→+∞ σ2n = 0, così

limn→+∞

P(|Θn − θ| < ϵ) ≥ 1,

infine, ricordando che la probabilità non può essere maggiore di uno, si ottiene che

limn→+∞

P(|Θn − θ| < ε) = 1.

Esempio 15.20. Si consideri lo stimatore Xn dell’esempio 15.16. Poiché Xn è consistente in media quadratica,allora è anche semplicemente consistente. Risulta infatti

P(|Xn − µ| < ϵ) ≥ 1− σ2/n

ϵ2

e poiché

limn→+∞

σ2

n= 0,

risultalim

n→∞P(|Xn − µ| < ϵ) = 1.

Uno stimatore Θn si definisce asintoticamente normale se la sua pdf tende alla normale, per qualsiasivalore di θ in Θ. In formule

limn→+∞

P

Θn − E[Θn]√Var[Θn]

≤ z

= Φ(z)

Grazie alla vasta applicabilità del TCL, tanti stimatori sono asintoticamente normali, ciò semplificandonotevolmente le analisi teoriche.

Esempio 15.21. Dato il campione casuale X1, X2, ..., Xn, la media campionaria è asintoticamente normale in virtùdel TCL.

15.5 Costruzione degli stimatoriFinora sono stati trattati alcuni dei principali criteri per giudicare uno stimatore. In questa sezione verràaffrontato il problema della costruzione di uno stimatore. Sebbene ne esistano di numerosi, discutiamo solodue metodi: il metodo dell’analogia e il metodo della massima verosimiglianza. Un terzo, il metodo deiminimi quadrati, si riferisce a un problema inferenziale leggermente diverso e verrà presentato nel capitolo24.Il metodo dell’analogia è molto naturale ed intuitivo. Esso consiste nell’utilizzare come stimatore la formulache il parametro ha nella popolazione. Un esempio al riguardo è riportato nell’esempio 15.1. Purtroppo lostimatore per analogia non presenta proprietà rilevanti, così non è quasi mai consigliabile.Il metodo della massima verosimiglianza è unanimemente riconosciuto come il più importante per lenumerose e importanti proprietà vantate (accennate al termine di questa sezione). Giova anzitutto ricordarela definizione di funzione di verosimiglianza su cui tutto si basa.

Primi elementi di inferenza statistica (ed. maggio 2012) 114 M. Di Marzio

Page 122: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15. STIMA

La funzione di verosimiglianza di un campione casuale è

L(θ;x1, x2, ..., xn) =n∏

i=1

fX(θ;xi);

essa ha per dominio lo spazio parametrico Θ, e per ogni valore θ ∈ Θ fornisce la probabilità (o densità)congiunta – quindi una misura della credibilità – che la realizzazione x1, x2, ..., xn abbia origine da fX(·; θ).Evidentemente il valore di θ che rende massima L(θ) indica la popolazione presso cui la realizzazionex1, x2, ..., xn ha maggiore probabilità di essere estratta, e quindi la popolazione con cui la realizzazione è mag-giormente compatibile. Di conseguenza risulta fondato scegliere come stima proprio quel valore del parametroche identifica l’elemento della famiglia parametrica più compatibile con la realizzazione campionaria osservata.La stima di massima verosimiglianza di θ è il valore θ dello spazio parametrico Θ in corrispondenza delquale la funzione di verosimiglianza L(θ) raggiunge il massimo, cioè se θ è la stima di massima verosimiglianza,allora

L(θ) ≥ L(θ) ∀θ ∈ Θ.

Bisogna osservare, comunque, che la stima così ottenuta è un semplice numero. Per cui se si usasse unadiversa realizzazione campionaria (stessa numerosità o numerosità diversa) si dovrebbe rifare tutto il calcolo(cioè formulare L(θ) e trovarne il punto d’ascissa del massimo). Questo si evita se invece la stima puòessere espressa come una statistica, cioè se si riesce a scriverla come una funzione della generica realizzazionecampionaria, cioè se si riesce a trovare una funzione ϑ tale che

θ = ϑ(x1, x2, ..., xn),

se così fosse, per ottenere la stima basterebbe applicare ϑ alla realizzazione osservata. Inoltre ϑ renderebbeautomaticamente definito lo stimatore di massima verosimiglianza di θ che sarebbe

Θ = ϑ(X1, X2, ..., Xn).

L’esempio 15.23 approfondisce questo aspetto, mostrando come la media campionaria identifichi il massimodella funzione di verosimiglianza per qualsiasi realizzazione.Da un punto di vista matematico, trovare il punto di massimo di una funzione richiede il calcolo di derivate diordine superiore al primo. Nel caso di L(θ) si ha la fortunata circostanza per cui quasi sempre basta trovareil valore del parametro, se esiste, che annulla la derivata prima.Poiché la trasformazione logaritmica di una funzione ha gli stessi punti di stazionarietà della funzione ed è piùsemplice da studiare, nella pratica non si trova il massimo di L(θ) ma della funzione di log-verosimiglianzaL(θ) = logL(θ).

Esempio 15.22. Sia X1,X2, ..., Xn un campione casuale estratto da una pdf normale di parametri µ = 0 e σ2

incognito. Troviamo lo stimatore di massima verosimiglianza di σ2. Per comodità di notazione poniamo θ = σ2. Lafunzione di verosimiglianza è

L(θ) =

n∏i=1

1√2πθ

e−x2i

2θ =

(1√2πθ

)n

e−∑n

i=1 x2i

2θ .

La funzione di log-verosimiglianza è

L(θ) = −n log√2πθ −

∑ni=1 x

2i

2θe la derivata della log-verosimiglianza è

∂L(θ)∂θ

= − n

2θ+

∑ni=1 x

2i

2θ2;

dopo aver eguagliato a zero quest’ultima espressione, moltiplicando entrambi i membri dell’equazione per 2θ e poirisolvendo si ottiene la stima di massima verosimiglianza

θ = σ2 =

∑ni=1 x

2i

n.

In questo particolare caso lo stimatore di massima verosimiglianza ottenuto è anche corretto come dimostrato nell’e-sempio 15.7.

Esempio 15.23. Supponiamo che un campione casuale di 3 elementi sia estratto dalla distribuzione binomiale diparametri n = 1 e π (o bernoulliana)

pX(x;π) = πx(1− π)1−x.

Ogni realizzazione campionaria è allora costituita da una successione di 0 e di 1. La funzione di verosimiglianza è

M. Di Marzio 115 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 123: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

15.5. Costruzione degli stimatori

L(π) =

3∏i=1

πxi(1− π)1−xi = π∑3

i=1 xi(1− π)3−∑3

i=1 xi

e se poniamo y =∑3

i=1 xi otteniamo la seguente log-verosimiglianza

lnL(π) = y lnπ + (3− y) ln(1− π)

e quindi la seguente derivata

∂ lnL(π)

∂π=

y

π− 3− y

1− π.

Ponendo questa espressione uguale a zero e risolvendo per π, troviamo la stima

π =y

3=

∑3i=1 xi

3.

Le funzioni possibili sono ovviamente le seguenti

L0 = L(π; Σxi = 0) = (1− π)3

L1 = L(π; Σxi = 1) = π(1− π)2

L2 = L(π; Σxi = 2) = π2(1− π)

L3 = L(π; Σxi = 3) = π3.

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

π

L(π)

L0

L2L

1

L3

Figura 15.3: Funzioni di verosimiglianza per diversi campioni da una pdf binomiale di parametri 1 e π

In figura 15.3 sono rappresentate le funzioni Li, i = 0, 1, 2, 3, è immediato osservare come per ogni curva la funzioneè massimizzata dal valore

π =

∑3i=1 xi

3

che per L0 è 0, per L1 è 1/3, per L2 è 2/3 e per L3 è 1.Abbiamo empiricamente verificato che per ognuna delle funzioni di verosimiglianza, la stima di massima verosimiglian-za ne individua il punto di ascissa del massimo.

Si può provare che lo stimatore di massima verosimiglianza è asintoticamente normale. La normalità asin-totica risulta molto comoda poiché, quando non si riesce a determinare la distribuzione dello stimatore dimassima verosimiglianza, si possono sempre fare affermazioni probabilistiche basate sul modello normale conla consapevolezza di non sbagliarsi troppo.Un’altra rimarchevole proprietà è che lo stimatore di massima verosimiglianza è coerente in tutte le varie ac-cezioni. Comunque a volte gli stimatori di massima verosimiglianza sono distorti, ma sempre asintoticamentecorretti.Si noti infine che in tutti gli esempi e gli esercizi svolti nel capitolo successivo la stima di massima verosimiglian-za dipende dal campione solo attraverso una statistica sufficiente. Ad esempio, con riguardo all’esempio 15.23la statistica sufficiente è

∑3i=1 xi. Così ogni valore di

∑3i=1 xi (non ogni realizzazione campionaria!) individua

una funzione di verosimiglianza. Che la stima di massima verosimiglianza dipenda da statistiche sufficien-ti accade nella generalità dei casi e risulta di certo un aspetto notevole della teoria classica dell’inferenzastatistica.

Primi elementi di inferenza statistica (ed. maggio 2012) 116 M. Di Marzio

Page 124: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

16Esercizi svolti

Esercizio 16.1. Sia X1, X2, X3 un campione casuale estratto da una popolazione esponenziale di parametroλ incognito. Stabilire quale dei seguenti stimatori della media della popolazione 1/λ è corretto:

T1 = X1 + 1, T2 =2X1 +X2

3, T3 = min(X1, X2, X3)

Soluzione Per stabilire la correttezza degli stimatori, si procede al calcolo del loro valore atteso. Si ottieneallora

E[T1] = E[X1 + 1] = E[X1] + 1 = 1/λ+ 1,

E[T2] = E

[2X1 +X2

3

]=

1

3E[2X1 +X2] =

1

3(E[2X1] + E[X2])

=1

3(2E[X1] + E[X2]) =

1

3

(2

λ+

1

λ

)=

1

3× 3

λ= 1/λ,

.

Inoltre ricordando che se Y1 = min(X1, X2, ..., Xn) allora

fY1(x) = n[1− FX(x)]n−1fX(x),

poiché se X ha distribuzione esponenziale si ha

fX(x;λ) =

λe−λx se x ≥ 0

0 altrimenti,e FX(x) = 1− e−λx,

risultafT3(x) = 3[1− (1− e−xλ)]2λe−xλ = 3e−2xλλe−xλ = 3λe−3xλ,

e quindi T2 ha distribuzione esponenziale di parametro 3λ e

E[T3] =1

3λ.

Poiché per definizione uno stimatore T è corretto per il parametro θ se risulta E[T ] = θ, si conclude che T2 èuno stimatore corretto per 1/λ, mentre gli stimatori T1 e T3 sono distorti.

Esercizio 16.2. Sia X un’osservazione casuale generata da una distribuzione uniforme nell’intervallo [θ, θ+1], dove θ è un numero reale positivo. Stabilire quale tra i due seguenti stimatori è preferibile per θ:

W1 = X, W2 = 2X.

Soluzione Poiché

E[W1] = E[X] =

∫ θ+1

θ

xdx =x2

2

∣∣∣∣θ+1

θ

=(θ + 1)2

2− θ2

2= θ +

1

2

eE[W2] = E[2X] = 2E[X] = 2θ + 1,

gli stimatori W1 e W2 sono entrambi distorti per θ e, in particolare, risulta

dist[W1] = E[W1]− θ = θ +1

2− θ =

1

2,

M. Di Marzio 117 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 125: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

edist[W2] = E[W2]− θ = 2θ + 1− θ = θ + 1.

Per stabilire quale tra i due stimatori sia preferibile si procede allora al confronto tra i rispettivi erroriquadratici medi.Ricordando che per una v.c. X si ha Var[X] = E[X2]− (E[X])2, poiché

E[W 21 ] = E[X2] =

∫ θ+1

θ

x2dx =x3

3

∣∣∣∣θ+1

θ

=(θ + 1)3

3− θ3

3=

3θ2 + 3θ + 1

3,

si ottiene

Var[W1] = E[W 21 ]− (E[W1])

2 =3θ2 + 3θ + 1

3−(1

2+ θ

)2

=1

12e

Var[W2] = Var[2X] = 4Var[X] =4

12=

1

3.

Risulta dunque

EQM[W1] = Var[W1] + (dist[W1])2 =

1

12+

(1

2

)2

=1

3e

EQM[W2] = Var[W2] + (dist[W2])2 =

1

3+ (θ + 1)

2

e poiché la quantità (θ + 1)2 è positiva risulta EQM[W1] < EQM[W2]. Si conclude pertanto che tra i due

stimatori di θ è preferibile W1.

Esercizio 16.3. Un’azienda tessile ha immesso sul mercato un tessuto innovativo realizzato utilizzando, perogni metro, una quantità θ di seta. Un’azienda concorrente, dopo accurate ricerche di laboratorio, individuadue possibili stimatori T1 e T2 per la quantità incognita θ, tra loro indipendenti, entrambi corretti rispetto a θ.Supponendo di combinare linearmente T1 e T2 in un terzo stimatore T3 = kT1 + (1− k)T2 (dove 0 < k < 1),verificare se T3 è corretto rispetto a θ per qualsiasi valore di k.

Soluzione Essendo T1 e T2 entrambi corretti rispetto al parametro θ, E (T1) = E (T2) = θ. Pertanto

E[T3] = E [kT1 + (1− k)T2] = kE[T1] + (1− k)E[T2] = kθ + (1− k) θ = θ

e si conclude che T3 è uno stimatore corretto per θ, per qualunque valore di k.

Esercizio 16.4. Considerato un campione casuale X1, X2, ..., Xn estratto da una popolazione esponenzialecon media incognita θ, si dimostri che X è uno stimatore consistente per θ.

Soluzione Poiché la pdf del carattere X osservato presso la popolazione è definita da

fX(x;λ) =

λe−λx se x ≥ 00 altrimenti,

risulta E[X] = 1/λ, e quindi θ = 1/λ. Si ha pertanto

E[X] = E

[∑ni=1 Xi

n

]=

nE[Xi]

n=

1

λ= θ,

e si conclude che lo stimatore X è corretto per θ. Pertanto, ricordando che se X ha distribuzione esponenzialedi parametro λ, Var[X] = 1/λ2 e Var[X] = 1/(nλ2), per la disuguaglianza di Chebyshev si ha

P(|X − 1/λ| ≤ k/(λ√n)) ≥ 1− 1

k2.

Posto allora ϵ = k/(λ√n), risulta k2 = nλ2ϵ2 e quindi

P(|X − 1/λ| ≤ ϵ) ≥ 1− 1

nλ2ϵ2.

Poichélim

n→∞

1

nλ2ϵ2= 0

risultalim

n→∞P(|X − 1/λ| ≤ ϵ) = 1

e si conclude che X è uno stimatore consistente per θ.

Primi elementi di inferenza statistica (ed. maggio 2012) 118 M. Di Marzio

Page 126: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

16. ESERCIZI SVOLTI

Esercizio 16.5. Il numero X di veicoli in transito presso una stazione di servizio, in cinque intervalli ditempo di un’ora, indipendenti e disgiunti, è risultato pari a: 14, 20, 18, 8, 25.Assumendo che X si distribuisce secondo una legge di Poisson di parametro λ, stimare, con il metodo dellamassima verosimiglianza, il numero medio di veicoli in transito in un’ora presso la stazione di servizio.

Soluzione Poiché la pdf di X è data da

pX(x;λ) =

e−λλx

x!se x = 0, 1, ...

0 altrimenti

la funzione di verosimiglianza è data da

L (λ) =n∏

i=1

pX (xi;λ) =n∏

i=1

e−λλxi

xi!=

e−nλλ∑

xi

n∏i=1

xi!

operando la trasformazione logaritmica, la log-verosimiglianza risulta

L(λ) = lnL (λ) = −nλ+n∑

i=1

xi lnλ− lnn∏

i=1

xi!

Derivando L(λ) ed eguagliando a zero la derivata risulta

∂L (λ)

∂λ= −n+

∑xi

λ= 0

da cui si ottiene la stima di massima verosimiglianza di λ

λ =

∑xi

n=

14 + 20 + 18 + 8 + 25

5= 17.

Esercizio 16.6. In una catena di montaggio, il tempo X impiegato da ciascuna macchina per completare lasua produzione giornaliera si distribuisce normalmente con media µ e varianza σ2 incognite.Per un campione di n = 6 macchine della catena di montaggio si è registrato un tempo medio x = 10 ed unadevianza di 36.Stimare i parametri µ e σ2 della popolazione con il metodo della massima verosimiglianza.

Soluzione La funzione di verosimiglianza per un campione generato da un modello distributivo normale èdata da

L(µ;σ2

)=

n∏i=1

1√σ22π

exp

[− 1

2σ2(xi − µ)

2

]=(σ22π

)−n/2exp

[− 1

2σ2

n∑i=1

(xi − µ)2

].

Dalla trasformazione logaritmica si ottiene

L(µ;σ2

)= −n

2lnσ2 − n

2ln 2π − 1

2σ2

n∑i=1

(xi − µ)2.

Le derivate di L(µ;σ2) rispetto a µ e σ2 risultano, rispettivamente

∂L(µ;σ2

)∂µ

= − 1

2σ2(−2)

∑(xi − µ) =

1

σ2

∑(xi − µ) ;

∂L(µ;σ2

)∂σ2

= − n

2σ2+

1

2σ4

∑(xi − µ)

2.

Le stime di massima verosimiglianza per µ e σ2 si ottengono allora risolvendo il seguente sistema di equazioni1

σ2

∑(xi − µ) = 0

− n

2σ2+

1

2σ4

∑(xi − µ)

2= 0.

M. Di Marzio 119 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 127: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Risolvendo rispetto a µ la prima equazione del sistema si ottiene la stima

µ =

∑xi

n= x = 10

e sostituendo nella seconda equazione∑

xi

n = x si ha

− n

2σ2+

1

2σ4

∑(xi − x)

2= 0

da cui si ottiene la stima

σ2 =

∑(xi − x)

2

n=

36

6= 6.

Esercizio 16.7. Sia X1, X2, ..., Xn un campione casuale da una distribuzione geometrica di parametro πincognito. Determinare lo stimatore di massima verosimiglianza per π.

Soluzione Poiché la pdf di una v.c. geometrica X è definita da

pX(x;π) =

π(1− π)x se x = 0, 1, ...

0 altrimenti

la funzione di verosimiglianza è data da

L(π) =

n∏i=1

pX(xi;π)

=

n∏i=1

π(1− π)xi

= πn(1− π)∑n

i=1 xi .

La log-verosimiglianza risulta allora

L(π) = n log π +n∑

i=1

xi log(1− π),

e equagliando a zero la derivata parziale di L calcolata rispetto a π, si ottiene

∂L (π)

∂π=

n

π−∑n

i=1 xi

1− π=

n(1− π)− π∑n

i=1 xi

π(1− π)= 0,

da cui risulta

n− nπ − πn∑

i=1

xi = 0

e quindi

π(n+

n∑i=1

xi) = n.

Pertantoπ =

n

n+∑n

i=1 xi.

Esercizio 16.8. Sia X1, X2, ..., Xn un campione casuale da una distribuzione uniforme di parametri 0 eθ > 0. Si trovi lo stimatore di massima verosimiglianza di θ.

Soluzione Indichiamo con yn la statistica campionaria massimo, cioè: yn = max(x1, x2, ..., xn) e notiamoche θ è il massimo valore possibile per X. Chiaramente la funzione di verosimiglianza è nulla in (0, yn)perché è impossibile che il il massimo valore possibile per X, cioè θ, sia minore di una qualsiasi osservazionecampionaria. Così

L(θ) =n∏

i=1

fX(xi; θ) =

∏n

i=11θ = 1

θn se yn ≤ θ ≤ +∞

0 altrimenti.

In questo caso il punto di massimo si identifica facilmente considerando che 1/θn è strettamente decrescentee quindi il suo massimo conincide con il minimo di Θ, cioè yn.

Primi elementi di inferenza statistica (ed. maggio 2012) 120 M. Di Marzio

Page 128: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

16. ESERCIZI SVOLTI

Esercizio 16.9. Sia X1, X2, ..., Xn un campione casuale estratto da una popolazione presso la quale il carat-tere X ha distribuzione uniforme nell’intervallo [0, θ]. Considerato Yn = max(X1, X2, ..., Xn) come possibilestimatore di θ, verificarne le proprietà asintotiche.

Soluzione Ricordiamo che se Yn = max(X1, X2, ..., Xn), allora la pdf di Yn è definita da

fYn(x) = n[FX(x)]n−1fX(x).

Poiché se X è uniformemente distribuita nell’intervallo [0, θ], la sua pdf è data da

fX(x; θ) =

1θ se 0 ≤ x ≤ θ

0 altrimenti,

e la sua funzione di ripartizione èFX(x) =

x

θ;

la pdf di Yn risulta allora

fYn(x) = n(xθ

)n−1 1

θ=

nxn−1

θn.

Procedendo al calcolo del valore atteso di Yn si ottiene

E[Yn] =

∫ θ

0

xfYn(x)dx

=

∫ θ

0

xnxn−1

θndx =

n

θn

∫ θ

0

x× xn−1dx =n

θn

∫ θ

0

xndx

=n

θnxn+1

n+ 1

∣∣∣∣θ0

=n

θnθn+1

n+ 1=

n+ 1,

e quindi Yn è uno stimatore distorto per θ. Poiché però

limn→∞

n+ 1= θ,

Yn è asintoticamente corretto per θ. Poiché Yn è asintoticamente corretto per verificare la consistenza inmedia quadratica di Yn è sufficiente verificare che

limn→∞

Var[Yn] = 0.

Utilizzando la relazioneVar[Yn] = E[Y 2

n ]− (E[Yn])2,

poiché

E[Y 2n ] =

∫ θ

0

x2nxn−1

θndx

=n

θn

∫ θ

0

xn+1dx =n

θnxn+2

n+ 2

∣∣∣∣θ0

=n

θnθn+2

n+ 2=

nθ2

n+ 2,

risulta

Var[Yn] =nθ2

n+ 2−(

n+ 1

)2

=nθ2

n+ 2− n2θ2

(n+ 1)2= θ2

[n(n+ 1)2 − n2(n+ 2)

(n+ 2)(n+ 1)2

]=

nθ2

(n+ 2)(n+ 1)2.

Si ha allora

limn→∞

Var[Yn] = limn→∞

nθ2

(n+ 2)(n+ 1)2= 0,

e si conclude che Yn è uno stimatore di θ consistente in media quadratica. Inoltre poiché la consistenza inmedia quadratica implica la consistenza semplice, Yn è anche uno stimatore semplicemente consistente.

M. Di Marzio 121 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 129: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

17Stima per intervalli

Indice17.1 Il problema della stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . 12217.2 Definizione di quantità pivotale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12317.3 Quantità pivotali nel caso di popolazione normale . . . . . . . . . . . . . . . . . 12317.4 Quantità pivotali nel caso di grandi campioni . . . . . . . . . . . . . . . . . . . 12417.5 Costruzione di stimatori per intervalli . . . . . . . . . . . . . . . . . . . . . . . . 12517.6 Intervalli di confidenza per la media . . . . . . . . . . . . . . . . . . . . . . . . . 12517.7 Numerosità campionaria per la stima della media . . . . . . . . . . . . . . . . . 12617.8 Intervalli di confidenza per la proporzione . . . . . . . . . . . . . . . . . . . . . 12717.9 Intervalli di confidenza per la varianza . . . . . . . . . . . . . . . . . . . . . . . . 12717.10Proprietà degli stimatori intervallari . . . . . . . . . . . . . . . . . . . . . . . . . 127

17.1 Il problema della stima per intervalli

Uno stimatore per punti Θ genera un singolo numero θ come inferenza su θ ∈ R. Purtroppo quasi sempre talesingolo numero non costituisce una stima esatta di θ. Se infatti fΘ(·; θ) è discreta, allora spesso stime prossimea θ hanno probabilità molto simili ad una stima uguale a θ. Inoltre se fΘ(·; θ) è continua, la probabilità cheabbiamo di ottenere una stima esatta di θ è nulla, infatti P(Θ = θ) =

∫ θ

θfΘ(θ; θ) dθ = 0. Così uno stimatore

per punti è in genere inadeguato per l’uso pratico.Una naturale risposta metodologica a questo inconveniente consiste nello specificare:

i) un intervallo di valori di θ plausibili, e

ii) una misura della fiducia che tale intervallo contenga θ.

Esempio 17.1. Spesso definiamo intervalli per stimare grandezze quantitative: 1) abbiamo ricevuto dai 20 ai 25clienti. 2) il fatturato sarà tra 1.5 e 1.65 milioni di euro. Di norma, pur non specificandolo, abbiamo un elevatissimolivello di fiducia che le grandezze incognite siano comprese nell’intervallo da noi espresso.

Formalmente, questo modo di ridurre l’ignoranza circa la popolazione incognita fX(·; θ) consiste nel selezionareun elemento di Θ×Θ, cioè una coppia di possibili valori del parametro che costituiscono gli estremi dell’in-tervallo. Tale selezione è basata sulla realizzazione di un campione casuale estratto da fX(·; θ), ed avvieneper il tramite di una funzione ι del tipo

ι : X → Θ×Θ.

Come lo stimatore per punti è una statistica, così ι è una coppia di statistiche, che indichiamo con S1 e S2,che definiscono un intervallo casuale

Iθ = ι(X1, X2, ..., Xn) = (S1, S2)

e il suo valore campionarioiθ = ι(x1, x2, ..., xn) = (s1, s2).

Primi elementi di inferenza statistica (ed. maggio 2012) 122 M. Di Marzio

Page 130: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

17. STIMA PER INTERVALLI

In luogo dell’espressione stimatore intervallare spesso si usa quella di intervallo di confidenza (o fiducia) persottolineare la presenza del livello di confidenza (o fiducia) al fianco di un intervallo casuale. Così si ha questadefinizione.Si abbiano un intervallo casuale Iθ = (S1, S2), dove per ogni realizzazione campionaria S1 è minore di S2, eun numero α compreso tra 0 e 1; se P(S1 < θ < S2) = 1− α per qualsiasi valore di θ, l’intervallo casuale Iθè definito intervallo di confidenza per θ al livello 100(1− α)%.La definizione può essere così interpretata. In corrispondenza dello spazio campionario X, ι genera unapopolazione ipotetica di realizzazioni del tipo iθ = (s1, s2). Allora 1−α è la proporzione di queste realizzazionicontenenti θ. Per cui prima di osservare iθ sappiamo che quest’ultima conterrà θ con probabilità 1−α. Emergecon chiarezza una interpretazione frequentista della probabilità associata all’intervallo casuale Iθ.Purtroppo, oltre allo stimatore, anche la stima iθ è chiamata intervallo di confidenza, ingenerando un po’ diconfusione. Se infatti la distinzione tra stimatore Iθ e stima iθ è chiara, una interpretazione completamentediversa spetta alla quantità 1−α a seconda del caso. Quando per la stima intervallare si dice ‘vi è un livellodi confidenza dell’ (1− α)100% che iθ = (s1, s2) contenga θ ’, questo non significa che c’è una probabilitàpari a (1 − α) che la stima includa il parametro: la stima, essendo una realizzazione, è come il parametro,ossia una quantità fissa che, come tale, include o meno il parametro stesso. Quindi, l’evento θ ∈ iθ non hanatura aleatoria, di conseguenza la quantità 1−α, se associata alla stima, deve ritenersi un livello di fiducia,confidenza, non già una probabilità.

17.2 Definizione di quantità pivotaleSi consideri una funzione reale τ che dipende sia dal campione sia dal parametro non noto θ, formalmente

τ : X×Θ → R.

In corrispondenza di un campione casuale X1, X2, ..., Xn, τ definisce una v.c. T :

T = τ(X1, X2, ..., Xn; θ) ,

mentre in corrispondenza di una realizzazione x1, x2, ..., xn τ definisce un valore t di T

t = τ(x1, x2, ..., xn; θ) .

Una v.c. del tipo T = τ(X1, X2, ..., Xn; θ) è detta quantità pivotale se e solo se la sua pdf fT è completa-mente nota (e quindi non dipende dal parametro incognito θ). Dalla definizione di quantità pivotale vediamoche essa contiene θ nella sua espressione, e quindi non è una statistica poiché non è una funzione nota delcampione.

Esempio 17.2. Si consideri un campione casuale X1,X2, ..., Xn estratto da una pdf normale con media µ e varianza4. Sappiamo che X ha distribuzione N (µ, 4/n). Così

X − µ

è una quantità pivotale poiché: 1) dipende dal parametro incognito µ e dalla statistica X, 2) ha distribuzione N (0, 4/n)che è del tutto nota. Anche

X − µ

2/√n

è una quantità pivotale perché: 1) dipende da X e µ e 2) la sua pdf è N (0, 1). Invece la quantità

X

µ,

con µ = 0, non è una quantità pivotale poiché, anche se funzione del parametro incognito µ e da X, ha pdfN (1, 4/(nµ2)) che, essendo la varianza funzione del parametro incognito µ, non è nota del tutto.

17.3 Quantità pivotali nel caso di popolazione normaleOra introduciamo alcune quantità pivotali che si renderanno utili per la costruzione sia di intervalli di con-fidenza sia di test statistici. Nei punti 1) – 4) supponiamo di avere un campione casuale estratto da unapopolazione normale N (µ, σ2). Nei punti 5) e 6) supponiamo di avere due campioni casuali estratti da duepopolazioni normali N (µ1, σ

21) e N (µ2, σ

22); qui ovviamente Xi e S2

i sono media e varianza del campionei-esimo.

M. Di Marzio 123 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 131: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

17.4. Quantità pivotali nel caso di grandi campioni

1. La quantità pivotaleX − µ

σ/√n

ha una pdf normale standard poichè X ha pdf N (µ, σ2/n) (sez. 12.6).

2. La quantità pivotalen∑

i=1

(Xi − µ)2

σ2

ha distribuzione chi-quadrato con n gradi di libertà poiché somma di n vv.cc. normali standard elevateal quadrato.

3. La quantità pivotalen∑

i=1

(Xi −X)2

σ2

ha distribuzione chi-quadrato con n− 1 gradi di libertà (sez. 12.8).

4. La quantità pivotaleX − µ

S/√n

ha distribuzione t di Student con n− 1 gradi di libertà. Infatti

X − µ

S/√n

=X − µ

σ/√n

/S

σ

dove il numeratore ha distribuzione normale standard e il denominatore è la radice quadrata del rapportotra una v.c. chi-quadrato e i suoi gradi di libertà. Infatti

∑ni=1(Xi −X)2/σ2 è una v.c. chi-quadrato

con n− 1 gradi di libertà.

5. La quantità pivotaleX1 −X2 − (µ1 − µ2)√

σ21/n1 + σ2

2/n2

ha distribuzione normale standard poiché la v.c. X1−X2 ha distribuzione N (µ1−µ2, σ21/n1+σ2

2/n2)per il teorema sulla somma di vv.cc. normali (sez. 11.4).

6. Se estraiamo i due campioni da distribuzioni normali con varianze uguali, allora la quantità pivotale

(X1 −X2)− (µ1 − µ2)

Sp

√(1/n1 + 1/n2)

con Sp =

√(n1 − 1)S2

1 + (n2 − 1)S22

n1 + n2 − 2

si distribuisce come una t di Student con n1 + n2 − 2 gradi di libertà per motivi analoghi a quelli vistinel punto 2.

17.4 Quantità pivotali nel caso di grandi campioniData una qualunque popolazione, il TCL assicura che, se il campione è casuale e grande (n > 30), le pdf dimedia e proporzione campionaria tendono alla normale. Così, ad esempio, le quantità pivotali dei punti 1e 5 della sezione precedente sono ancora approssimativamente valide se la popolazione non è normale ma ilcampione è grande.Il TLC ci aiuta a stabilire quantità pivotali nell’importantissimo caso di popolazione bernoulliana. Infatti, sela popolazione è bernoulliana, per il TLC la proporzione campionaria P tende a distribuirsi come una normalecon media π e varianza π(1−π)/n . Ne conseguono le seguenti quantità pivotali per grandi campioni estrattida popolazioni bernoulliane.

1. La quantità pivotaleP − π√

P (1− P )/n

ha pdf approssimativamente N (0, 1).

Primi elementi di inferenza statistica (ed. maggio 2012) 124 M. Di Marzio

Page 132: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

17. STIMA PER INTERVALLI

2. La quantità pivotaleP − π√

π(1− π)/n

ha pdf approssimativamente N (0, 1).

3. Nel caso di due popolazioni bernoulliane, la quantità pivotale

(P1 − P2)− (π1 − π2)

SP1−P2

con SP1−P2 =√

P1(1− P1)/n1 + P2(1− P2)/n2 ha pdf approssimativamente N (0, 1) perché si trattadi una somma standardizzata di due vv.cc. che hanno distribuzione asintotica normale.

17.5 Costruzione di stimatori per intervalliRicordiamo anzitutto il problema della stima intervallare: dato un campione casuale X1, X2, ..., Xn estrattoda una popolazione appartenente alla famiglia parametrica fX(·; θ); θ ∈ Θ ⊂ Rk, vogliamo un intervallo diconfidenza per il parametro incognito θ. A tal riguardo immaginiamo di disporre di una quantità pivotaleT = τ(X1, X2, ..., Xn, θ). Il punto fondamentale è che T ha pdf nota, così, una volta stabilito α, possiamosempre trovare due suoi valori t1 e t2 per cui

P(t1 < τ(X1, X2, ..., Xn, θ) < t2) = 1− α.

Se per ogni realizzazione x1, x2, ..., xn nella disuguaglianza t1 < τ(X1, X2, ..., Xn, θ) < t2 è possibile isolare θper ottenere θ ∈ ι(x1, x2, ..., xn, t1, t2) (procedimento di inversione) allora si potrà scrivere:

P(t1 < τ(X1, X2, ..., Xn, θ) < t2) = P(θ ∈ ι(x1, x2, ..., xn, t1, t2)) = 1− α.

Ricordando la definizione di intervallo di confidenza, si evince che l’intervallo casuale

Iθ = ι(X1, X2, ..., Xn, t1, t2)

è un intervallo di confidenza per θ allo (1− α)100%.Quindi una volta osservata la realizzazione x1, x2, ..., xn si ottiene la stima intervallare

iθ = ι(x1, x2, ..., xn, t1, t2)

che ha un livello di confidenza del 100( 1− α)%.Nelle prossime sezioni applicheremo il metodo della quantità pivotale per ottenere intervalli di confidenza divari parametri e popolazioni. In ogni caso si ipotizzerà la disponibilità di un campione casuale X1, X2, ..., Xn

e di un prefissato valore di α. Ovviamente gli stimatori saranno costituiti dagli intervalli contenuti nei secondimembri delle equazioni che descrivono l’inversione.

17.6 Intervalli di confidenza per la media1. Se X ha distribuzione N (µ, σ2) e σ2 è noto, per la stima intervallare della media si ricorre alla quantità

pivotale Z =X − µ

σ/√n

. Si trova zα/2 tale che P(−zα/2 < Z < zα/2) = 1− α. Dopodiché si inverte comesegue

P

(−zα/2 <

X − µ

σ/√n

< zα/2

)= P

(X − zα/2

σ√n< µ < X + zα/2

σ√n

)= 1− α

ottenendo lo stimatore intervallare per la media quando la varianza è nota.

2. Se X ha distribuzione N(µ, σ2

)e σ2 non è noto, per la stima intervallare della media si ricorre al-

la quantità pivotale T =X − µ

S/√n

. Si trova tα/2,n−1 tale che P(−tα/2,n−1 < T < tα/2,n−1

)= 1 − α.

Dopodiché si inverte:

P

(−tα/2,n−1 <

X − µ

S/√n

< tα/2,n−1

)= P

(X − tα/2,n−1

S√n

< µ < X + tα/2,n−1S√n

)= 1− α

ottenendo lo stimatore intervallare per la media quando la varianza non è nota.

M. Di Marzio 125 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 133: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

17.7. Numerosità campionaria per la stima della media

3. Se rileviamo due caratteri indipendenti X1 e X2, e inoltre il carattere X1 ha distribuzione N (µ1, σ21) e

X2 ha distribuzione N (µ2, σ22), e entrambe le varianze σ2

1 e σ22 sono note, usiamo la quantità pivotale

Z =X1 −X2 − (µ1 − µ2)√

σ21/n1 + σ2

2/n2

. Si trova zα/2 tale che P(−zα/2 < Z < zα/2) = 1−α. Dopodiché si inverte

come segue

P

(zα/2 <

(X1 −X2)− (µ1 − µ2)√σ21/n1 + σ2

2/n2

< zα/2

)=

P

((X1 −X2

)− zα/2

√σ21/n1 + σ2

2/n2 < µ1 − µ2 <(X1 −X2

)+ zα/2

√σ21/n1 + σ2

2/n2

)= 1− α.

ottenendo lo stimatore intervallare per la differenza tra medie con varianze note.

4. Se rileviamo due caratteri indipendenti X1 e X2, e inoltre se X1 ha distribuzione N (µ1, σ2) e X2

ha distribuzione N (µ2, σ2) e quindi le varianze sono uguali, ricorriamo alla quantità pivotale T =

(X1 −X2)− (µ1 − µ2)

Sp

√(1/n1 + 1/n2)

. Si trova tα/2,n1+n2−2 tale che P(−tα/2,n1+n2−2 < T < tα/2,n1+n2−2

)= 1− α.

Dopodiché si inverte:

P

(−tα/2,n1+n2−2 <

(X1 −X2)− (µ1 − µ2)

Sp

√1/n1 + 1/n2

< tα/2,n1+n2−2

)=

= P

((X1 −X2)− tα/2,n1+n2−2Sp

√1

n1+

1

n2< µ1 − µ2 < (X1 −X2) + tα/2,n1+n2−2Sp

√1

n1+

1

n2

)= 1− α

ottenendo lo stimatore intervallare della differenza tra due medie quando le varianze sono uguali maincognite.

Si noti infine, che, nel caso di grandi campioni, cioè se n > 30, tutte le quantità pivotali di questa sezione hannodistribuzione asintotica normale standard per il TCL, indipendentemente dalla popolazione generatrice. Diconseguenza l’inversione basata sulla normale standard appare teoricamente giustificata anche senza ipotesidi normalità della famiglia parametrica, basta solo che il campione sia grande e casuale.

17.7 Numerosità campionaria per la stima della media

Prima di estrarre il campione ci si può chiedere qual è la numerosità n ottimale per la stima intervallare diµ. Infatti osservare campioni più numerosi è più costoso, ma rende le stime più precise. Così è naturale chela scelta di n dipenda dalla precisione desiderata. Come misura della precisione desiderata si considera lasemiampiezza dell’intervallo, detta errore campionario e indicata con Err. Se σ è noto, l’errore campionarioè indipendente dal campione, quindi non è una v.c., e può essere conosciuto prima della estrazione delcampione. Infatti

Err = zα/2σ√n.

Allora si ragiona nel modo seguente. Poiché Err = zα/2σ/√n, elevando al quadrato entrambi i membri

dell’equazione si ottiene:

Err2 =z2α/2σ

2

n

e risolvendo rispetto ad n:

n =(zα/2σ

Err

)2.

Di conseguenza, una volta scelta la precisione desiderata Err, l’ultima equazione fornisce l’ampiezza campi-onaria n che la genera.Se σ2 non è noto, l’ampiezza dell’intervallo non può essere conosciuta prima dell’osservazione del campionepoiché dipende da esso. Infatti in questo caso Err = zα/2s/

√n ed è funzione di una realizzazione della v.c.

S. Così, se non si conosce σ, l’ampiezza non può essere predeterminata con esattezza.

Primi elementi di inferenza statistica (ed. maggio 2012) 126 M. Di Marzio

Page 134: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

17. STIMA PER INTERVALLI

17.8 Intervalli di confidenza per la proporzioneLa proporzione π può essere stimata in maniera semplice solo nel caso di grandi campioni come segue.

1. Se X ha distribuzione bernoulliana πx(1 − π)1−x con x ∈ 0, 1, e il campione è grande, la quantità

pivotale utile è Z =P − π√

P (1− P )/n. Si trova zα/2 tale che P(−zα/2 < Z < zα/2) = 1− α. Dopodiché

si inverte come segue

P

(−zα/2 <

P − π√P (1− P )/n

< zα/2

)=

= P(P − zα/2

√P (1− P )/n < π < P + zα/2

√P (1− P )/n

)= 1− α.

che porta allo stimatore intervallare per la proporzione nel caso di grandi campioni.

2. Siano dati due caratteri bernoulliani indipendenti X1 e X2, dove X1 ha distribuzione πx11 (1− π1)

1−x1

mentre X2 ha distribuzione πx22 (1− π2)

1−x2 con xi ∈ 0, 1 per i ∈ 1, 2.Dati due campioni casuali indipendenti, tali che n1 + n2 > 30, usiamo la quantità pivotale Z =(P1 − P2)− (π1 − π2)

SP1−P2

. Si trova zα/2 tale che P(−zα/2 < Z < zα/2) = 1 − α. Dopodiché si invertecome segue

P

(−zα/2 <

(P1 − P2)− (π1 − π2)

SP1−P2

< zα/2

)=

= P((P1 − P2)− zα/2SP1−P2 < π1 − π2 < (P1 − P2) + zα/2SP1−P2

)= 1− α.

ottenendo lo stimatore intervallare per la differenza tra proporzioni nel caso di grandi campioni.

17.9 Intervalli di confidenza per la varianza1. Se X ha distribuzione N (µ, σ2) e µ è noto, per la stima intervallare di σ2 si ricorre alla quantità pivotale

U =∑n

i=1(Xi − µ)2/σ2. Si trovano le due quantità χ21−α/2,n e χ2

α/2,n tali che che P(χ21−α/2,n < U <

χ2α/2,n) = 1− α. Dopodiché si inverte come segue

P

(χ21−α/2,n <

∑ni=1(Xi − µ)2

σ2< χ2

α/2,n

)= P

(∑ni=1(Xi − µ)2

χ2α/2,n

< σ2 <

∑ni=1(Xi − µ)2

χ21−α/2,n

)= 1− α

ottenendo lo stimatore intervallare per la varianza quando la media è nota.

2. Se ci troviamo nella stessa situazione del punto precedente, ma la media non è nota, si ricorre allaquantità pivotale V =

∑ni=1(Xi −X)2/σ2. Si trovano le due quantità χ2

1−α/2,n−1 e χ2α/2,n−1 tali che

che P(χ21−α/2,n−1 < V < χ2

α/2,n−1) = 1− α. Dopodiché si inverte come segue

P

(χ21−α/2,n−1 <

∑ni=1(Xi −X)2

σ2< χ2

α/2,n−1

)= P

(∑ni=1(Xi −X)2

χ2α/2,n−1

< σ2 <

∑ni=1(Xi −X)2

χ21−α/2,n−1

)= 1−α

ottenendo lo stimatore intervallare per la varianza quando la media non è nota.

17.10 Proprietà degli stimatori intervallariFinora si è trattato un solo metodo di costruzione di intervalli di confidenza, cioè il metodo della quantitàpivotale. Esistono però altri metodi di costruzione che, in corrispondenza della stessa realizzazione campi-onaria, possono portare a stime differenti. Di conseguenza, esattamente come nella stima puntuale, occorrescegliere tra gli stimatori sulla base di qualche proprietà di accuratezza. Di seguito esponiamo unicamente laprincipale proprietà di accuratezza per stimatori intervallari, verificando che quasi tutti gli stimatori generatidal metodo della quantità pivotale considerati la posseggono.La stima per intervalli più precisa possibile è quella che, a parità di α, genera l’intervallo più stretto possibile.Infatti più è stretto l’intervallo, più riduciamo l’ignoranza sul parametro. Bisogna rimarcare che se due

M. Di Marzio 127 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 135: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

17.10. Proprietà degli stimatori intervallari

intervalli hanno ampiezza differente, ma il più ampio presenta un valore di α minore, non si può di regolagiudicare quale sia il migliore. Infatti al più stretto è associato un livello di confidenza minore, cioè un rischiomaggiore di non racchiudere il parametro incognito.Ovviamente, data una quantità pivotale T , si riduce l’ampiezza scegliendo le quantità t1 e t2 più vicinepossibile nel rispetto del vincolo P(t1 < T < t2) = 1− α. Infatti le coppie (t1, t2) che soddisfano tale vincolosono molte. Se fT (·; θ) è continua sono addirittura infinite. Quanto detto è formalmente descritto dal seguenteproblema di minimo vincolato (il vincolo è la seconda riga):

mint1,t2

(t2 − t1) ,

con P(t1 < T < t2) = 1− α ;

tale problema ha una soluzione semplice nel caso fT (·; θ) sia simmetrica e unimodale. Infatti una breveriflessione suggerisce che in tal caso l’intervallo più stretto è centrato sulla moda. Ma le quantità pivotali danoi utilizzate sono, a parte il caso della varianza, vv.cc. t di Student o normali, quindi hanno distribuzionesimmetrica e con unica moda pari a zero. Ora si comprende perchè nei casi in cui la quantità pivotale T ènormale o t di Student si è posto t1 = −tα/2 e t2 = tα/2, cioè un intervallo centrato sullo zero.In definitiva gli stimatori intervallari che abbiamo ricavato sono ottimi ad eccezione di quelli per la varianza,basati su quantità pivotali con distribuzione chi-quadrato (non simmetriche).

Esempio 17.3. Data una quantità pivotale Q, Sia fQ(·, θ) = N (0, 1) e 1−α = 0.95. L’equazione P(q1 < Q < q2) =0.95 è soddisfatta da infiniti intervalli, tra i quali troviamo:

(q1 = −1.35, q2 = 5.22); (q1 = −1.68, q2 = 2.70); (q1 = −1.96, q2 = 1.96).

Noi scegliamo (q1 = −1.96, q2 = 1.96), che, essendo centrato su 0, ha ampiezza minima.

Primi elementi di inferenza statistica (ed. maggio 2012) 128 M. Di Marzio

Page 136: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

18Esercizi svolti

Esercizio 18.1. Per ottimizzare i flussi di magazzino in entrata, un’azienda vuole verificare di tanto in tantoil livello medio dei tempi di consegna dei fornitori. Sulla base dell’esperienza pregressa si sa che il tempo Xin giorni intercorrente tra l’invio degli ordini e la consegna ha distribuzione N (µ, 9).Si estrae un campione di n = 36 ordini e si osserva un tempo medio x = 16. Determinare la stima intervallareper la media incognita µ al livello di confidenza del 95% .

Soluzione Poiché X ∼ N (µ, σ2/n), e σ2 è noto, la quantità pivotale utilizzata per la costruzione dell’inter-vallo di confidenza per µ è

Z =X − µ

σ/√n,

che ha pdf N (0, 1). Partendo dalla relazione

P−zα/2 ≤ Z ≤ zα/2

= 1− α,

e applicando il procedimento di inversione, si ottiene l’intervallo casuale al livello del (1− α)%

Iµ =

X − zα/2

σ√n, X + zα/2

σ√n

.

Essendo 1− α = 0.95 e, quindi, α = 0.05, dalle tavole della normale standardizzata si ricavano i valori dellesoglie ±zα/2 = ±z0.025 = ±1.96. Quindi, sostituendo alla v.c. X la sua realizzazione x = 16 e sapendo cheσ/

√n = 3/

√36, la stima intervallare al livello del 95% per µ risulta

iµ =

16− 1.96

3√36

, 16 + 1.963√36

= 15.02, 16.98 .

Esercizio 18.2. In una multinazionale di abbigliamento, la programmazione e il controllo dell’attività diapprovvigionamento richiede il continuo monitoraggio del numero dei capi venduti X. Si ha ragione diritenere che X si distribuisce normalmente con media µ e varianza σ2 incognite. Si estrae un campionecasuale di n = 9 negozi e si osserva un numero medio di capi venduti x = 200 e uno scarto quadratico medios = 12.72.Costruire l’intervallo di confidenza per il numero medio µ di capi venduti nella settimana dalla catena dinegozi, al livello del 98%.

Soluzione Poiché la varianza della popolazione non è nota ed il campione osservato è un piccolo campione(n < 30), per la costruzione dell’intervallo di confidenza si ricorre alla quantità pivotale

T =X − µ

s/√n

che ha distribuzione t di Student con n− 1 gradi di libertà. Pertanto, partendo dalla relazione

P(−tα/2,n−1 < T < tα/2,n−1),

e applicando il procedimento di inversione, la stima intervallare al livello (1− α)% per µ avrà forma

iµ =

x− tα/2,n−1

s√n, x+ tα/2,n−1

s√n

.

M. Di Marzio 129 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 137: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Sostituendo allora le informazioni a disposizione e ricavando dalle tavole della t di Student i valori ±tα/2,n−1 =±t0.01,8 = ±2.896, si ottiene

iµ =

200− 2.896

12.72√9

, 200 + 2.89612.72√

9

= 187.721, 212.279.

Esercizio 18.3. In una grande azienda si vuole verificare se le risorse finanziarie accantonate per il paga-mento degli straordinari hanno bisogno di essere ridimensionate per il prossimo futuro. Il numero di oremensili di straordinario effettuate dai dipendenti si distribuisce normalmente con media µ e varianza σ2

incognite.Si estrae un campione casuale di n = 81 dipendenti e si osserva un numero medio di ore mensili di straordi-nario x = 24 ed uno scarto quadratico medio s = 5.96. Costruire l’intervallo di confidenza al livello del 99%per la media incognita µ della popolazione generatrice.

Soluzione Pur essendo la varianza della popolazione non nota, poiché il campione osservato è un campionegrande (n > 30), per la costruzione dell’intervallo di confidenza si ricorre alla quantità pivotale

Z =X − µ

s/√n.

La stima intervallare per la media incognita µ al livello di confidenza (1− α)% ha allora forma

iµ =

x− zα/2

s√n, x+ zα/2

s√n

,

e sostituendo le informazioni a disposizione e ricavando dalle apposite tavole i valori ±zα/2 = ±z0.005 = ±2.575si ottiene

iµ =

24− 2.575

5.96√81

, 24 + 2.5755.96√81

= 22.29, 25.71 .

Esercizio 18.4. Si vuole misurare lo scarto di efficienza esistente tra due linee di produzione che realizzano ilmedesimo prodotto. I tempi X1 e X2 rispettivamente impiegati dalle due linee di produzione si distribuiscononormalmente con medie µ1 e µ2 e varianze σ2

1 = 9 e σ22 = 16.

Da n1 = 81 osservazioni di X1 è stato rilevato un tempo medio x1 = 24, mentre da n2 = 100 osservazioni diX2 è stato rilevato un tempo medio x2 = 20.Determinare la stima intervallare per la differenza tra le medie µ1 e µ2 dei tempi impiegati dalle due linee diproduzione, al livello 1− α = 0.95.

Soluzione Poiché (X1 − X2) ∼ N(µ1 − µ2;σ

21/n1 + σ2

2/n2

), la quantità pivotale utilizzata per costruire

l’intervallo di confidenza al livello (1− α)% per µ1 − µ2 è

Z =(X1 −X2)− (µ1 − µ2)√

σ21/n1 + σ2

2/n2

.

Applicando allora il procedimento di inversione, a partire da

P−zα/2 ≤ Z ≤ zα/2

= 1− α

si ottiene, la stima intervallare al livello (1− α)% di forma

iµ1−µ2=

(x1 − x2)− zα/2

√σ21/n1 + σ2

2/n2, (x− x2) + zα/2

√σ21/n1 + σ2

2/n2

.

Essendo x− x2 = 24− 20 = 4,√σ21/n1 + σ2

2/n2 =√

9/81 + 16/100 = 0.52 e ricavando dalle apposite tavolei valori ±zα/2 = ±z0.025 = ±1.96, si ottiene allora la stima intervallare

iµ1−µ2 = 4− 1.96× 0.52, 4 + 1.96× 0.52 = 2.98, 5.02 .

Esercizio 18.5. I tempi X1 e X2 impiegati per la manutenzione dei macchinari in due aziende A e B sidistribuiscono normalmente con medie µ1 e µ2 e varianze incognite ma uguali σ2

1 = σ22.

Per un campione casuale di n1 = 4 macchinari dell’azienda A si è registrato un tempo medio di manutenzionex = 16 e una varianza s21 = 2, mentre per un campione casuale di n2 = 6 macchinari dell’azienda B si èregistrato un tempo medio x2 = 10 e una varianza s22 = 3. Costruire l’intervallo di confidenza al livello del98% per la differenza.

Primi elementi di inferenza statistica (ed. maggio 2012) 130 M. Di Marzio

Page 138: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

18. ESERCIZI SVOLTI

Soluzione Poiché la numerosità campionaria (che nel caso di due campioni è dato dalla somma delle nu-merosità) n = n1 + n2 = 10 è piccola e le varianze σ2

1 = σ22 = σ2 non note, la stima intervallare al livello

(1− α)% per la differenza µ1 − µ2 assume la forma

iµ1−µ2 =(x− x2)− tα/2,n1+n2−2sp

√1/n1 + 1/n2, (x− x2) + tα/2,n1+n2−2sp

√1/n1 + 1/n2

dove

sp =√

((n1 − 1) s21 + (n2 − 1) s22) / (n1 + n2 − 2) =√(3 · 2 + 5 · 3) / (4 + 6− 2) = 1.62

è la stima della varianza incognita delle due popolazioni.Pertanto, essendo x − x2 = 16 − 10 = 6 e ricavando dalle tavole della t di Student, in corrispondenza diα/2 = 0.01 e di n1+n2−2 = 8 gradi di libertà, i valori delle soglie ±tα/2,n1+n2−2 = ±t0.01,8 = ±2.896 risulta

iµ1−µ2 =6− 2.896× 1.62

√1/4 + 1/6, 6 + 2.896× 1.62

√1/4 + 1/6

= 2.9716, 9.0284 .

Esercizio 18.6. In una ispezione di qualità si confrontano i bulloni prodotti dalle aziende A e B. In uncampione casuale di n1 = 200 bulloni estratto dalla produzione dell’azienda A si è rilevato un diametro mediox1 = 4 cm e una varianza s21 = 0.56, mentre in un campione casuale di n2 = 180 bulloni estratto dallaproduzione dell’azienda B si è rilevato un diametro medio x2 = 2 cm e una varianza s22 = 0.6.Supponendo che i diametri dei bulloni prodotti dalle due aziende in questione si distribuiscano normalmentecon medie µ1 e µ2 e varianze σ2

1 = σ22 = σ2 incognite, costruire l’intervallo di confidenza al livello del 95%

per la differenza µ1 − µ2 tra i diametri medi dei bulloni prodotti dalle due aziende.

Soluzione Poiché n = n1 + n2 = 380 è sufficientemente grande, pur non essendo nota la varianza dellepopolazioni di origine dei campioni, la stima intervallare al livello di confidenza (1 − α)% per la differenzaµ1 − µ2 assume la forma

iµ1−µ2 =(x1 − x2)− zα/2sp

√(1/n1 + 1/n2), (x1 − x2) + zα/2sp

√(1/n1 + 1/n2)

dove

sp =

√(n1 − 1)s21 + (n2 − 1) s22

n1 + n2 − 2=

√199× 0.56 + 179× 0.6

200 + 180− 2= 0.76

è la stima della varianza incognita delle due popolazioni.Pertanto, essendo x− x2 = 4 − 2 = 2 ed essendo le soglie ±zα/2 = ±z0.025 = ±1.96, la stima intervallare allivello di confidenza del 95% per la differenza µ1 − µ2 è

iµ1−µ2 =2− 1.96× 0.76

√(1/200 + 1/180), 2 + 1.96× 0.76

√(1/200 + 1/180)

= 1.85, 2.15 .

Esercizio 18.7. In un campione casuale di n = 1000 prodotti venduti da un’azienda nell’ultimo anno, 200risultano venduti a clienti esteri. Costruire un intervallo di confidenza al livello del 95% per la proporzioneπ dei prodotti esportati dall’ azienda nell’ultimo anno.

Soluzione Essendo elevata la numerosità del campione, la quantità pivotale utilizzata per la costruzionedell’intervallo di confidenza al livello (1− α)% per la proporzione π è

Z =P − π√

P (1− P ) /n,

che ha pdf approssimativamente N (0, 1).Applicando il procedimento di inversione a partire da

P−zα/2 ≤ Z ≤ zα/2

= 1− α,

l’intervallo di confidenza al livello (1− α)% per π è dato da

Iπ = P − zα/2√

P (1− P )/n, P + zα/2√P (1− P )/n.

Poichè la realizzazione campionaria di P è pari a 200/1000 = 0.2, trovando sulle tavole i valori delle soglie±zα/2 = ±z0.025 = ±1.96 si ottiene la stima intervallare

iπ = 0.2− 1.96√(0.2× 0.8)/1000, 0.2 + 1.96

√(0.2× 0.8)/1000 = 0.18, 0.22.

M. Di Marzio 131 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 139: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Esercizio 18.8. Un’azienda ha avviato due differenti processi produttivi per la realizzazione di uno stessoprodotto e vuole verificare quale sia il più efficiente.Estraendo un campione casuale di n1 = 100 pezzi prodotti utilizzando il primo processo ed un campione casualedi n2 = 100 pezzi prodotti utilizzando il secondo processo si sono rilevati, rispettivamente, rispettivamente 40e 20 di pezzi difettosi.Costruire l’intervallo di confidenza al livello del 98% per la differenza π1 − π2 tra le percentuali di pezzidifettosi prodotti attraverso i due processi.

Soluzione Poiché i campioni presentano una numerosità sufficientemente grande, la quantità pivotale utiliz-zata per costruire l’intervallo di confidenza per π1 − π2 è

Z =(P1 − P2)− (π1 − π2)√

P1(1− P1)/n1 + P2(1− P2)/n2

,

che ha approssimativamente pdf N (0, 1).Allora, a partire da

P−zα/2 ≤ Z ≤ zα/2

= 1− α,

l’intervallo di confidenza al livello (1− α)% per π1 − π2 è dato da

Iπ1−π2 =

(P1 − P2)− zα/2

√P1 (1− P1)

n1+

P2 (1− P2)

n2, (P1 − P2) + zα/2

√P1 (1− P1)

n1+

P2 (1− P2)

n2

.

Pertanto, poichè le realizzazioni campionarie di P1 e P2 risultano rispettivamente 40/100 = 0.4 e 20/100 = 0.2,individuati sulle tavole i valori delle soglie ±zα/2 = ±z0.01 = ±2.33, la stima intervallare al livello del 98% èdata da

iπ1−π2 =

(0.4− 0.2)− 2.33

√0.4× 0.6 + 0.2× 0.8

100, (0.4− 0.2) + 2.33

√0.4× 0.6 + 0.2× 0.8

100

= 0.05, 0.35 .

Esercizio 18.9. Nell’ambito della programmazione di una ricerca di mercato, un’azienda intende stimare ilnumero medio µ, in giorni, necessario alla realizzazione delle campagne pubblicitarie per il lancio dei suoiprodotti. Da indagini passate, è risultato che questi tempi si distribuiscono normalmente con s.q.m. σ = 6giorni. Determinare quale deve essere la numerosità n del campione di misurazioni dei tempi di realizzazioneper ottenere un intervallo di confidenza al livello del 95% che possa dare una precisione di Err = 4 giorni.

Soluzione Il margine di errore della stima di µ che si è disposti a tollerare è Err = zα/2σ/√n. Elevando al

quadrato entrambi i membri dell’equazione si ottiene

Err2 =z2α/2 × σ2

n

e risolvendo rispetto ad n

n =

(zα/2 × σ

Err

)2

.

Poiché 1−α = 0.95, α = 0.05 e α/2 = 0.025 risulta zα/2 = 1.96. Sostituendo nell’equazione σ = 6, zα/2 = 1.96ed Err = 4, risulta

n =

(1.96× 6

4

)2

= 8.6436,

arrotondando per eccesso il valore ottenuto all’intero più vicino, risulta dunque che la numerosità campionarianecessaria è n = 9.

Esercizio 18.10. Un’industria che produce lamiere metalliche ha ricevuto un ordine di acquisto di un grossoquantitativo di lamiere di un dato spessore. Per assicurare la qualità della propria fornitura, l’azienda vuoletenere sotto controllo la propria produzione. Assumendo che lo spessore X delle lamiere prodotte ha dis-tribuzione normale con media µ = 3 cm, e avendo osservato un campione di lamiere per le quali gli spessorisono risultati essere x1 = 2.88, x2 = 2.93 e x3 = 2.98 determinare la stima intervallare al livello del 95% perla varianza incognita σ2 dello spessore.

Primi elementi di inferenza statistica (ed. maggio 2012) 132 M. Di Marzio

Page 140: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

18. ESERCIZI SVOLTI

Soluzione Poiché X ha distribuzione normale con media µ nota, ed la numerosità del campione è n < 30,la quantità pivotale da utilizzare per costruire l’intervallo di confidenza per σ2 è

U =

∑ni=1(Xi − µ)2

σ2,

che ha distribuzione chi-quadrato con n gradi di libertà. Partendo allora dalla relazione

P(χ21−α/2,n < U < χ2

α/2,n) = 1− α,

utilizzando il procedimento di inversione, l’intervallo di confidenza al livello (1− α)% per σ2 risulta

Iσ2 =

∑ni=1(Xi − µ)2

χ2α/2,n

,

∑ni=1(Xi − µ)2

χ21−α/2,n

.

Dalle tavole della distribuzione chi-quadrato si ricavano i valori χ2α/2,n = χ2

0.025,3 = 9.35 e χ21−α/2,n =

χ21−0.025,3 = 0.22, ed avendo osservato la realizzazione x1 = 2.88, x2 = 2.93, x3 = 2.98, la stima intervallare

al livello del 95% per σ2 risulta

iσ2 =

(2.88− 3)2 + (2.93− 3)2 + (2.98− 3)2

9.35,(2.88− 3)2 + (2.93− 3)2 + (2.98− 3)2

0.22

= 0.0021, 0.0895.

Esercizio 18.11. Si vuole verificare se la quantità X di una sostanza inquinante emessa dalle marmitteprodotte da un’azienda sono contenute entro limiti prestabiliti. A tal fine, si estrae un campione di n = 3marmitte dalla produzione settimanale dell’azienda e attraverso prove su strada si rilevano le seguenti quantità(in mg per Km) della sostanza nociva rilasciate: x1 = 895, x2 = 902, x3 = 894. Sapendo che la quantitàemessa della sostanza in esame ha distribuzione normale di parametri µ e σ2 incogniti, determinare la stimaintervallare di σ2 al livello di confidenza del 99%.

Soluzione Poiché X ha distribuzione normale con media µ incognita, e la numerosità del campione è n < 30,la quantità pivotale da utilizzare per costruire l’intervallo di confidenza per σ2 è

V =

∑ni=1(Xi −X)2

σ2,

che ha distribuzione chi-quadrato con n− 1 gradi di libertà. Partendo allora dalla relazione

P(χ21−α/2,n−1 < V < χ2

α/2,n−1) = 1− α,

utilizzando il procedimento di inversione, l’intervallo di confidenza al livello (1− α)% per σ2 risulta

Iσ2 =

∑ni=1(Xi −X)2

χ2α/2,n−1

,

∑ni=1(Xi −X)2

χ21−α/2,n−1

.

Dalle tavole della distribuzione chi-quadrato si ricavano i valori χ2α/2,n−1 = χ2

0.005,2 = 10.6 e χ21−α/2,n−1 =

χ21−0.005,2 = 0.01, ed essendo

x =

∑3i=1 xi

3=

895 + 902 + 894

3= 897,

la stima intervallare al livello del 99% per σ2 risulta

iσ2 =

(895− 897)2 + (902− 897)2 + (894− 897)2

10.6,(895− 897)2 + (902− 897)2 + (894− 897)2

0.01

= 3.58, 3008.

M. Di Marzio 133 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 141: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19Verifica d’ipotesi

Indice19.1 Ipotesi statistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13419.2 Il test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13519.3 Accuratezza del test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13719.4 Costruzione del test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13919.5 Verifica d’ipotesi sulla media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14119.6 Verifica di ipotesi sulla differenza tra medie . . . . . . . . . . . . . . . . . . . . 14219.7 Verifica di ipotesi nel caso di grandi campioni . . . . . . . . . . . . . . . . . . . 14319.8 Verifica d’ipotesi sulla proporzione . . . . . . . . . . . . . . . . . . . . . . . . . . 14319.9 Verifica d’ipotesi sulla differenza tra proporzioni . . . . . . . . . . . . . . . . . 14419.10Verifica di ipotesi sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

19.1 Ipotesi statisticheL’inferenza statistica, finora espressa in termini di stima, può anche essere condotta esaminando la compati-bilità tra un’ipotesi sul valore del parametro e i dati campionari. Il risultato di tale procedura consiste nelladecisione di (non) rigetto dell’ipotesi accompagnata dalla probabilità di aver commesso un errore.

Esempio 19.1. Prima dell’acquisto di una fornitura risulta consigliabile prelevare un campione di merce e verificare,sulla base dell’evidenza empirica, se quanto affermato dal fornitore è supportato dai fatti. In particolare vengonoformulate due ipotesi su una caratteristica quantitativa della merce, una racchiude la specificazione numerica asseritadal fornitore, l’altra specificazioni numeriche alternative. Sulla base del campione osservato si deve decidere se scartarela prima.

In termini formali, la verifica di ipotesi statistiche può essere descritta come segue. Sia X un caratterequantitativo, immaginiamo di voler acquisire informazioni su fX(·; θ). Sappiamo che fX(·; θ) appartiene allafamiglia parametrica fX(·; θ); θ ∈ Θ ⊂ Rk, ma non conosciamo il valore del parametro θ. Al solito possiamoosservare un campione casuale X1, X2, ..., Xn. Tale modello statistico, usuale per la stima, nel caso di verificadi ipotesi prevede di un elemento aggiuntivo. Infatti si suppone anche che lo spazio parametrico Θ è bipartitonegli insiemi non vuoti Θ0 e Θ1 tali che

Θ0 ∪Θ1 = Θ e Θ0 ∩Θ1 = ∅.

Si deve stabilire, sulla base di una realizzazione campionaria, se scartare l’affermazione θ ∈ Θ0.La notazione

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1,

rappresenta il sistema di ipotesi da sottoporre a verifica. L’affermazione H0 è detta ipotesi nulla, mentrel’affermazione H1 è detta ipotesi alternativa. Normalmente l’ipotesi nulla racchiude lo status quo ante,così se essa non verrà rigettata la situazione pratica sottostante resterà immutata, mentre in caso contrarioci saranno cambiamenti. Con riferimento all’esempio 19.1, l’affermazione del fornitore costituisce l’ipotesi

Primi elementi di inferenza statistica (ed. maggio 2012) 134 M. Di Marzio

Page 142: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19. VERIFICA D’IPOTESI

nulla, così se quest’ultima non verrà scartata continueremo a rivolgerci allo stesso fornitore, mentre in casocontrario lo sostituiremo.Un’ipotesi si definisce semplice se esprime un singolo valore del parametro θ, e quindi se specifica comple-tamente la pdf fX(·; θ), altrimenti si dice composta.

Esempio 19.2. Si consideri il campione casuale estratto dalla pdf fX(·; θ). Il sistema d’ipotesi H0 : θ = 5

H1 : θ = 5,

contrappone un’ipotesi nulla semplice ad un’ipotesi alternativa composta.

Un’ipotesi composta Hi, i ∈ 0, 1 si definisce

⋄ bidirezionale se ha espressione Hi : θ = k, con k ∈ Θ;

⋄ unidirezionale se ha espressione Hi : θ > k (oppure Hi : θ < k), con k ∈ Θ.

19.2 Il test statisticoLo statistico, di fronte a una prestabilita bipartizione Θ0,Θ1, ha il compito di formulare una regola otest che, sulla base dei dati campionari, permette di decidere se θ ∈ Θ0. In particolare si definisce teststatistico una funzione Γ che associa ad ogni realizzazione campionaria la decisione di non rigettare (A)oppure la decisione di rigettare (R) l’ipotesi nulla:

Γ : X → A,R.

Si noti che Γ non è una funzione reale poichè assume valori in uno spazio decisionale. A volte useremol’espressione accettare H0, ma in realtà questo non sarebbe corretto. Infatti l’evidenza empirica può nonessere sufficiente per scartare H0, oppure essere sufficiente per scartarla, mai per accettare H0 o H1.L’insieme A delle realizzazioni campionarie che portano ad accettare H0, cioè

A = x1, x2, .., xn : Γ(x1, x2, .., xn) = A

è detto regione di accettazione, mentre l’insieme R delle realizzazioni campionarie che portano a rifiutareH0, cioè

R = x1, x2, .., xn : Γ(x1, x2, .., xn) = Rè detto regione di rifiuto. Ovviamente A e R formano una bipartizione di X, cioè:

A ∪R = X e A ∩R = ∅.

Così una qualsiasi bipartizione di X del tipo A,R identifica un test statistico, per cui le espressioni test ebipartizione di X sono interscambiabili.Normalmente ogni realizzazione campionaria è in una certa misura compatibile sia con il caso θ ∈ Θ0 sia conil caso θ ∈ Θ1, di conseguenza non si può mai scartare una ipotesi senza rischio di sbagliarsi.

Esempio 19.3. Sia X1,X2 un campione casuale estratto da una popolazione presso la quale il carattere X hadistribuzione uniforme nell’intervallo [0, θ]. Lo spazio parametrico è ovviamente Θ = R+. Si vuole verificare ilseguente sistema di ipotesi H0 : θ ≤ 3

H1 : θ > 3.

La realizzazione (5, 6) è compatibile esclusivamente con H1; essa conduce pertanto a rifiutare H0 senza rischio dierrore. La realizzazione (1, 2) risulta invece compatibile con entrambe le ipotesi del sistema e quindi non conduce ascartare (accettare) H0 senza possibilità di errore 1.

In particolare è possibile rifiutare l’ipotesi nulla H0 quando questa è vera. L’errore così definito è dettoerrore di I tipo e la probabilità del suo verificarsi è indicata con α(θ), ossia

α(θ) = P(x1, x2, ..., xn ∈ R|θ ∈ Θ0)

=

∫· · ·∫

R

n∏i=1

fX(xi; θ)dx1 dx2, ..., dxn con θ ∈ Θ0.

1Si noti che il caso della densità uniforme è uno dei pochi, come descritto nell’esempio 12.15, in cui lo spazio campionario Xè determinato dal valore del parametro.

M. Di Marzio 135 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 143: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19.2. Il test statistico

H0 vera H0 falsa

Accetto H0 decisione corretta errore II tipo

Rifiuto H0 errore I tipo decisione corretta

Tabella 19.1: Possibili esiti della verifica di ipotesi.

L’altro errore che può essere commesso è quello di accettare l’ipotesi nulla H0 quando questa è falsa; si parladi errore di II tipo e la probabilità del suo verificarsi è indicata con β(θ), ossia

β(θ) = P(x1, x2, ..., xn ∈ A|θ ∈ Θ1)

=

∫· · ·∫

A

n∏i=1

fX(xi; θ)dx1 dx2, ..., dxn con θ ∈ Θ1.

Nella tabella 19.1 sono schematizzati i possibili esiti della verifica di un sistema di ipotesi.Dalle formule precedenti emerge che le probabilità di errore sono funzione del parametro incognito θ. Poichéα(θ) è la probabilità di rifiutare H0 condizionatamente al fatto che H0 è vera, α(θ) ha come dominio Θ0,mentre per l’analoga ragione β(θ) ha come dominio Θ1. In formule

α : Θ0 → [0, 1] ,

β : Θ1 → [0, 1] .

Si definisce funzione di potenza del test la funzione ℘(θ) che per ogni θ fornisce la probabilità di rifiutarel’ipotesi nulla, in formule

℘(θ) = P(x1, x2, ..., xn ∈ R|θ ∈ Θ).

Esempio 19.4. Sia X1, X2, ..., X5 un campione casuale estratto da una popolazione bernoulliana di parametro πincognito. In questo caso lo spazio parametrico è P = [0, 1]. Si vuole verificare il sistema d’ipotesi H0 : π ≤ 1/2

H1 : π > 1/2.

Consideriamo un test Γ1 che conduce al rifiuto di H0 se e solo se si osservano tutti esiti successo, ossia se Xi = 1 perogni i = 1, 2, ..., 5, e un test Γ2 che conduce al rifiuto di H0 se si osservano 3, 4 o 5 esiti successo. Posto Y =

∑5i=1 Xi,

allora Y ∼ B(π, 5), e le funzioni di potenza dei test Γ1 e Γ2 risultano rispettivamente

℘1(π) = P(Y = 5) =

(5

5

)π5(1− π)0 = π5

e

℘2(π) = P(Y ∈ 3, 4, 5) =

(5

3

)π3(1− π)2 +

(5

4

)π4(1− π) +

(5

5

)π5(1− π)0

esse sono illustrate nella figura 19.1.

0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

π

℘1

℘2

Figura 19.1: Funzioni di potenza dei test Γ1 e Γ2.

Primi elementi di inferenza statistica (ed. maggio 2012) 136 M. Di Marzio

Page 144: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19. VERIFICA D’IPOTESI

0.2 0.8 0

1

Θ0

℘(θ

)

0.5 Θ1

0.2 0.8 0

1

Θ1

℘(θ

)

Θ0

Θ1

Figura 19.2: Funzioni di potenza dei test dell’esempio 19.6.

Esempio 19.5. Si estrae una singola osservazione X1 da una pdf N (µ, 1). Il sistema di ipotesi da saggiare è H0 : µ ≤ 0

H1 : µ > 0.

Si utilizza il test che non rigetta H0 se X1 ≤ 0. Qui lo spazio parametrico è ovviamente M = R. La funzione dipotenza è

℘(µ) = P(X1 > 0)

= P(X1 − µ > 0− µ)

= P(Z > −µ)

= 1− Φ(−µ)

= Φ(µ).

Così la funzione di potenza coincide con la funzione di ripartizione della pdf normale standard.

Come si vedrà in seguito, alla funzione di potenza si ricorre per valutare l’accuratezza di un test, così comesi ricorre al criterio dello EQM per valutare l’accuratezza di uno stimatore per punti.Ovviamente in Θ0 si ha che ℘(θ) = α(θ). Così, tramite la funzione di potenza, si definisce il livello disignificatività α di un test come la massima probabilità di commettere l’errore di I tipo:

α = supθ∈Θ0

℘(θ).

19.3 Accuratezza del test statistico

Si è visto che ogni possibile bipartizione di X del tipo A,R definisce un test statistico, così normalmentesono disponibili molti test per un dato problema. Nasce quindi l’esigenza di un criterio per scegliere il testmigliore. Evidentemente un test potrà essere giudicato ottimale se rende piccole, nei limiti del possibile, leprobabilità degli errori di I e di II tipo. In particolare sarebbe auspicabile una bipartizione di X tale che lafunzione di potenza ℘(θ) sia:

⋄ la più alta possibile (idealmente uguale a 1) quando θ ∈ Θ1,

⋄ la più bassa possibile (idealmente uguale a 0) quando θ ∈ Θ0.

Esempio 19.6. Nella parte sinistra della figura 19.2 è riportata la funzione di potenza ideale del test H0 : θ ∈ [0, 0.5]

H1 : θ ∈ (0.5, 1],

mentre nella parte destra è riportata la funzione di potenza del test peggiore possibile per il sistema di ipotesi H0 : θ ∈ [0.2, 0.8]

H1 : θ ∈ [0, 0.2) ∪ (0.8, 1].

M. Di Marzio 137 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 145: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19.3. Accuratezza del test statistico

−7

1

Θ0

℘(θ

)

Θ1

α

Figura 19.3: Funzioni di potenza di due test per l’ipotesi H0 : θ ≤ −7 contro H1 : θ > −7.

Ovviamente bipartizioni senza rischio, come quelle dell’esempio precedente, corrispondono al caso, per nullarealistico, in cui ogni realizzazione campionaria è compatibile con una sola delle ipotesi. Di conseguenza larealtà dei fatti impone

α(θ) > 0, β(θ) > 0 ∀θ ∈ Θ ;

inoltre, a ben vedere, le probabilità α(θ) e β(θ) non possono essere ridotte contemporaneamente. Se infattivolessimo ridurre α(θ) (rispettivamente β(θ)) per ogni θ ∈ Θ0 (risp. Θ1), allora dovremmo ridurre la regioneR (risp. A) che è la regione di integrazione nella formulazione di α(θ) (risp. β(θ)): ma poiché R = X −A(risp. A = X − R), riducendo R (risp. A) si aumenta A (risp. R) e quindi il valore dell’integrale chedefinisce β(θ) (risp. α(θ))2. Comunque da tale ragionamento si deduce che si può ottenere una bipartizioneottimale se spostando realizzazioni campionarie da A in R la probabilità di un errore scende più di quantola probabilità dell’altro errore salga.In applicazione dei principi appena esposti, si sceglie, tra i test di un prestabilito livello α, quello che rendeminima la probabilità β(θ) per ogni θ ∈ Θ1. Un test siffatto viene chiamato uniformemente più potentedi livello α. Formalmente diremo che nella classe di tutti i test con livello α fissato, adottati per verificare ilsistema di ipotesi

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1,

un test con funzione di potenza ℘∗(θ) è uniformemente più potente se risulta

℘∗(θ) ≥ ℘(θ),

per ogni funzione di potenza ℘(θ) di ciascun altro test a livello α e per ogni θ ∈ Θ1. Purtoppo come neiproblemi di stima per punti in genere non sempre esiste tra più stimatori di un parametro θ quello che haEQM minore per ogni valore θ ∈ Θ, egualmente non sempre esiste tra diversi test al livello α uno che possavantare funzione di potenza maggiore per ogni valore θ ∈ Θ1.

Esempio 19.7. In figura 19.3 sono rappresentate le funzioni di potenza di due test utilizzabili per il sistema di ipotesi H0 : θ ≤ −7

H1 : θ > −7.

Essi hanno uguale livello di significatività, ma non ce n’è uno uniformemente più potente.

Fissato il livello α, si adotta la seguente procedura di verosimiglianza per ottenere la bipartizione con potenzamassima: la regione di rifiuto include tutte le realizzazioni campionarie aventi probabilità più alta sottol’ipotesi alternativa. Come conseguenza la regione di accettazione include le realizzazioni campionarie menoprobabili sotto l’ipotesi alternativa e quindi, per quel dato valore di α, sarà minimizzata la probabilità dicommettere un errore di II tipo.Fin qui è stata discussa l’accuratezza per campioni di ampiezza fissa. Alla base dell’intera teoria esposta stail fatto che, data una fissata ampiezza n, le probabilità di errore α e β non possono essere ridotte contes-tualmente. Comunque, come si è appreso per la stima, ci aspetteremmo che all’aumentare della numerositàcampionaria l’accuratezza del test dovrebbe aumentare poiché l’informazione sul parametro aumenta. Questoè quello che infatti accade nella generalità dei casi. Infatti si osserva che al tendere di n all’infinito entrambele probabilità α(θ) e β(θ) diminuiscono contestualmente, fino ad annullarsi entrambe. L’effetto in termini difunzione di potenza è che quest’ultima tende alla sua forma ideale.

2Si osservi che questo ragionamento si basa sul fatto che le funzioni integrande sono non negative.

Primi elementi di inferenza statistica (ed. maggio 2012) 138 M. Di Marzio

Page 146: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19. VERIFICA D’IPOTESI

−3 −2 −1 0 1 2 30

0.2

0.4

0.6

0.8

1

µ℘

(µ)

n=1n=10n=100n=10000000

Figura 19.4: Funzioni di potenza del test dell’esempio 19.5 per varie numerosità campionarie.

Esempio 19.8. Si consideri il test dell’esempio 19.5; nella figura 19.4 ne è riportata la funzione di potenza incorrispondenza di campioni di varia entità. Chiaramente per n molto grande la funzione di potenza assume la formaideale, divenendo così quasi impossibile commettere errori di prima o seconda specie.

19.4 Costruzione del test statisticoConsideratene le proprietà di accuratezza, presentiamo adesso un metodo di costruzione del test statistico.Da qui in avanti saranno presi in considerazione solo sistemi di ipotesi in cui l’ipotesi nulla è semplice, ossiaH0 : θ = θ0. In tal caso il livello di significatività è semplicemente α = α(θ0) = ℘(θ0).Un test statistico è specificato tramite la statistica test, cioè una statistica campionaria D = δ(Θ; θ0) chemisura la discrepanza tra una stima θ ed l’ipotesi nulla θ0.L’uso della statistica test permette una forte semplificazione poichè realizza la riduzione delle regioni dipunti n-dimensionali A e R in due regioni A e R di punti appartenenti all’asse reale. Inoltre, essendo unadiscrepanza, permette di applicare il principio di massimizzazione della potenza poichè a discrepanze maggioricorrispondono realizzazioni campionarie meno probabili sotto l’ipotesi nulla. Logicamente, se il valore delladiscrepanza cade in A, si ottiene l’accettazione, in caso contrario il rifiuto.Una quantità pivotale T = τ(X1, X2, ...Xn; θ) (sez. 17.2) può trasformarsi in statistica test per la verifica diipotesi semplici H0 : θ = θ0 se al parametro θ si sostituisce il valore θ0.

Esempio 19.9. Sia X1, X2, ..., Xn un campione casuale estratto da una popolazione bernoulliana con proporzione πe sia n > 30. Assumiamo di aver formulato un sistema di ipotesi in cui l’ipotesi nulla è H0 : π = π0. La quantità

Z =P − π0√

π0(1− π0)/n

è una statistica test. Infatti misura la discrepanza tra P e π0 e per il TCL ha pdf N (0, 1), che è del tutto nota.

Un test statistico è stato definito come una procedura che porta ad accettare o rifiutare H0 sulla base deidati, con la logica che segue. Misurata la discrepanza d = δ(θ; θ0) tra la stima θ e il valore del parametrosotto l’ipotesi nulla θ0, si presentano due alternative:

⋄ se d è ‘bassa’, l’evidenza empirica supporta H0;

⋄ se d è ‘alta’, l’evidenza empirica non supporta H0.

Così, dato α, la regione di rifiuto R del test ottimale contiene tutti i valori più grandi della statistica testpoichè questi sono i più rari sotto l’ipotesi nulla.Illustriamo la procedura di costruzione di regioni di rifiuto per i diversi sistemi di ipotesi che saranno presiin considerazione. Come detto, si includono nella regione di rifiuto il α100% dei casi più rari.

⋄ Ipotesi alternative unidirezionali Sia X1, X2, ..., Xn un campione casuale dalla pdf fX(·; θ) e sia Dla statistica test utilizzata per sottoporre a verifica il seguente sistema di ipotesi

H0 : θ = θ0

H1 : θ > θ0.

M. Di Marzio 139 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 147: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19.4. Costruzione del test statistico

La soglia che divide la regione di rifiuto dalla regione di accettazione è data dal valore d∗ tale che∫ +∞

d∗fD(d)dd = α.

Quindi, indicato con d il valore della statistica test in corrispondenza della realizzazione campionariaosservata, l’ipotesi nulla sarà rigettata se d > d∗, mentre sarà accettata se d < d∗.

In maniera equivalente ricorrendo al calcolo del livello di significatività osservato

γ = P(D ≥ d|θ = θ0),

se risulta γ ≥ α, la discrepanza d si giudica bassa e H0 viene accettata; se invece risulta γ < α, d siconsidera alta, l’ipotesi nulla viene rifiutata ed il test si definisce significativo. Qui ‘significativo’ èda intendersi nel senso che l’evidenza empirica è sufficiente per rigettare l’ipotesi nulla, e quindi il teststatistico motiva un cambiamento della situazione preesistente. In caso di accettazione il test è dettonon significativo poiché l’informazione racchiusa in H0 non è contrastata, confermando ciò che giàera conosciuto.

Se il sistema di ipotesi da sottoporre a verifica è inveceH0 : θ = θ0

H1 : θ < θ0,

allora la soglia che divide la regione di accettazione dalla regione di rifiuto è data dal valore d∗ tale che∫ d∗

−∞fD(d)dd = α,

e l’ipotesi nulla sarà rifiutata se il valore della statistica test in corrispondenza della realizzazionecampionaria osservata si rivela inferiore a d∗.

Equivalentemente calcolata la probabilità

γ = P(D ≤ d|θ = θ0),

se risulta γ > α si accetta H0, mentre se γ < α si rifiuta H0.

⋄ Ipotesi alternativa bidirezionale Sia X1, X2, ..., Xn un campione casuale dalla pdf fX(·; θ) e sia Dla statistica test utilizzata per sottoporre a verifica il seguente sistema di ipotesi

H0 : θ = θ0

H1 : θ = θ0.

Sia d la discrepanza osservata in corrispondenza della realizzazione campionaria x1, x2, ..., xn. La regionedi accettazioni del test sarà delimitata dai valori d∗1 e d∗2 tali che d∗1 < d∗2 e∫ d1∗

−∞fD(d) dd =

α

2e

∫ +∞

d∗2

fD(d) dd =α

2,

e l’ipotesi nulla verrà rigettata se il valore della statistica test in corrispondenza della realizzazionecampionaria osservata risulta d < d∗1 oppure d > d∗2.

Equivalentemente, si procede a determinare le probabilità

γ1 = P(D ≥ d|θ = θ0) e γ2 = P(D ≤ d|θ = θ0).

Quindi si rifiuta H0 se in corrispondenza della realizzazione campionaria osservata risulta γ1 < α/2oppure γ2 < α/2.

Il metodo appena descritto sarà ora usato per costruire test su medie, percentuali e varianze.

Primi elementi di inferenza statistica (ed. maggio 2012) 140 M. Di Marzio

Page 148: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19. VERIFICA D’IPOTESI

Ipotesi H0 Ipotesi H1 Regione R

µ = µ0 µ > µ0 z : z ≥ zα

µ = µ0 µ < µ0 z : z ≤ −zα

µ = µ0 µ = µ0 z : |z| ≥ zα/2

Tabella 19.2: Regioni di rifiuto per test sulla media di popolazioni normali con σ2 noto.

19.5 Verifica d’ipotesi sulla media

Sia X1, X2, ..., Xn un campione casuale da una pdf N (µ, σ2). Si vuole sottoporre a test la media incognitaµ. Fissato il livello di significatività α, si formula l’ipotesi nulla H0 : µ = µ0. Sono possibili due casi.

Caso 1: varianza nota Se la varianza della popolazione σ2 è nota, la statistica test adeguata è

Z =X − µ0

σ/√n

;

Come statistica test, Z misura la discrepanza tra x ed il valore espresso dall’ipotesi nulla µ0 e inoltreha pdf nota, cioè N (0, 1).

Se l’ipotesi alternativa è H1 : µ > µ0, H0 viene rifiutata quando

γ = P(Z ≥ z|µ = µ0)

= P

(Z ≥ x− µ0

σ/√n

)< α

ma P (Z ≥ zα) = α, così la regione di rifiuto del test è definita da

R = z : z ≥ zα.

Con l’ipotesi alternativa H1 : µ < µ0, si rifiuta H0 se

γ = P(Z ≤ z|µ = µ0)

= P

(Z ≤ x− µ0

σ/√n

)< α,

e poiché qui α = P(Z ≤ −zα), la regione di rifiuto è definita da

R = z : z ≤ −zα.

Per l’ipotesi alternativa bidirezionale H1 : µ = µ0 si calcolano invece le probabilità

γ1 = P(Z ≥ z|µ = µ0) = P

(Z ≥ x− µ0

σ/√n

)e γ2 = P(Z ≤ z|µ = µ0) = P

(Z ≤ x− µ0

σ/√n

)e si rifiuta se γ1 < α/2 o γ2 < α/2. La regione di rifiuto è allora definita da

R = z : z ≥ zα/2 ∪ z : z ≤ −zα/2 = z : |z| ≥ zα/2.

Nella tabella 19.2 sono indicate le regioni di rifiuto finora ricavate.

Caso 2: varianza non nota Se la varianza della popolazione σ2 è incognita, allora la statistica testadeguata a verificare l’ipotesi H0 : µ = µ0 è

T =X − µ0

S/√n

,

M. Di Marzio 141 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 149: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19.6. Verifica di ipotesi sulla differenza tra medie

Ipotesi H0 Ipotesi H1 Regione R

µ = µ0 µ > µ0 t : t ≥ tα,n−1

µ = µ0 µ < µ0 t : t ≤ −tα,n−1

µ = µ0 µ = µ0 t : |t| ≥ tα/2,n−1

Tabella 19.3: Regioni di rifiuto per test sulla media di popolazioni normali con σ2 non noto.

che ha distribuzione t di Student con n− 1 gradi di libertà. Anche in questo caso la verifica di ipotesiverrà condotta seguendo il procedimento descritto in precedenza. Quindi ad esempio, se il sistema dasottoporre a verifica contrappone all’ipotesi nulla l’ipotesi alternativa unidirezionale H1 : µ > µ0, sirifiuta H0 se

γ = P(T ≥ t|µ = µ0)

= P

(T ≥ x− µ0

s/√n

)< α,

ed essendo P (T ≥ tα,n−1) = α, la regione di rifiuto del test rimane definita come

R = t : t ≥ tα,n−1.

Nella tabella 19.3 sono riassunte le regioni di rifiuto corrispondenti ai diversi sistemi di ipotesi riguardan-ti la media di popolazioni normali quando la varianza σ2 è incognita.

19.6 Verifica di ipotesi sulla differenza tra medie

Spesso può risultare interessante confrontare le medie di due popolazioni. In questi casi ha senso testarel’ipotesi di uguaglianza tra le medie contro le diverse possibili ipotesi alternative.Supponiamo di avere due campioni casuali indipendenti estratti rispettivamente da una pdf N (µ1, σ

21) e da

una pdf N (µ2, σ22). Si vuole testare l’ipotesi H0 : µ1 − µ2 = 0. Pertanto, fissato il livello di significatività α

possono aversi i due casi di seguito proposti.

Caso 1: varianze note Se le varianze σ21 e σ2

2 delle popolazioni di origine dei due campioni sonoentrambe note, la statistica test adottata è

Z =X1 −X2√

σ21/n1 + σ2

2/n2

che coincide con la quantità pivotale utilizzata come stimatore intervallare per la differenza tra medie(sez. 17.6), condizionata a µ1 − µ2 = 0.

Si consideri l’ipotesi alternativa H1 : µ1 − µ2 > 0. Fissato il livello di significativà α, seguendo unragionamento del tutto analogo a quello adottato nel caso di una sola media, se

γ = P(Z ≥ z|µ1 − µ2 = 0)

= P

(Z ≥ x1 − x2√

σ21/n1 + σ2

2/n2

)< α

l’ipotesi nulla viene rigettata. Equivalentemente, poiché P(Z ≥ zα) = α la regione di rifiuto del test èdefinita da

R = z : z ≥ zα.

Nella tabella 19.5 sono riportate le regioni di rifiuto per la verifica di sistemi di ipotesi sulla differenzatra medie di due popolazioni normali.

Primi elementi di inferenza statistica (ed. maggio 2012) 142 M. Di Marzio

Page 150: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19. VERIFICA D’IPOTESI

Ipotesi H0 Ipotesi H1 Regione R

µ1 − µ2 = 0 µ1 − µ2 > 0 z : z ≥ zα

µ1 − µ2 = 0 µ1 − µ2 < 0 z : z ≤ −zα

µ1 − µ2 = 0 µ1 − µ2 = 0 z : |z| ≥ zα/2

Tabella 19.4: Regione di rifiuto per test sulla differenza tra medie di due popolazioni normali con varianze note.

Ipotesi H0 Ipotesi H1 Regione R

µ1 − µ2 = 0 µ1 − µ2 > 0 t : t ≥ tα,n1+n2−2

µ1 − µ2 = 0 µ1 − µ2 < 0 t : t ≤ −tα,n1+n2−2

µ1 − µ2 = 0 µ1 − µ2 = 0 t : |t| ≥ tα/2,n1+n2−2

Tabella 19.5: Regioni di rifiuto per test sulla differenza tra medie di due popolazioni normali con varianze non note.

Caso 2: varianze incognite uguali Studiamo solo il caso in cui le varianze σ21 e σ2

2 sono incognite,ma è noto che sono uguali, ossia σ2

1 = σ22 = σ2. Per l’ipotesi nulla H0 : µ1 = µ2 si usa la statistica test

T =X1 −X2

Sp

√1/n1 + 1/n2

,

che ha distribuzione t di Student con n1 + n2 − 2 gradi di libertà.Seguendo la usuale logica si ottengono le regioni di rifiuto riportate nella tabella 19.5.

19.7 Verifica di ipotesi nel caso di grandi campioniNel caso di grandi campioni, cioè nel caso in cui la numerosità dei campioni considerati è maggiore di 30,per effetto del TCL le statistiche test adottate per le verifiche di ipotesi indipendentemente dalla popolazionedi origine hanno distribuzione approssimativamente normale. Di conseguenza se il campione è casuale i testsulla media e sul confronto tra medie sono basati sulla normale standard, e quindi restano sempre possibilinel senso che non è più necessaria l’ipotesi di normalità per la popolazione generatrice.

19.8 Verifica d’ipotesi sulla proporzioneSia X1, X2, ..., Xn un campione casuale di numerosità n > 30 estratto da una popolazione bernoulliana diparametro incognito π. Dato un sistema di ipotesi dove H0 : π = π0, se è vera l’ipotesi nulla la statistica test

Z =P − π0√

π0(1− π0)/n

segue una distribuzione N (0, 1) per effetto del TCL. Assumendo allora che l’ipotesi contrapposta ad H0 siaH1 : π > π0 e fissato il livello α, l’ipotesi nulla sarà rifiutata se

γ = P(Z ≥ z|π = π0)

= P

(Z ≥ P − π0√

π0(1− π0)/n

)< α.

Allo stesso modo, se P(Z ≥ zα) = α, la regione di rifiuto del test è definita da

R = z : z ≥ zα.

Ragionando come di consueto si determinano le regioni di rifiuto per i diversi sistemi di ipotesi, come riportatenella tabella 19.6.

M. Di Marzio 143 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 151: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19.9. Verifica d’ipotesi sulla differenza tra proporzioni

Ipotesi H0 Ipotesi H1 Regione R

π = π0 π > π0 z : z ≥ zα

π = π0 π < π0 z : z ≤ −zα

π = π0 π = π0 z : |z| ≥ zα/2

Tabella 19.6: Regioni di rifiuto per test sulla proporzione per grandi campioni.

19.9 Verifica d’ipotesi sulla differenza tra proporzioniSupponiamo di estrarre due campioni casuali indipendenti di rispettive numerosità n1 > 30 e n2 > 30 da duedistribuzioni bernoulliane di parametri incogniti π1 e π2. Assumiamo di voler verificare l’ipotesi che le dueproporzioni π1 e π2 siano uguali ossia l’ipotesi H0 : π1 − π2 = 0. Ora, sappiamo che sotto l’ipotesi nulla leproporzioni sono identiche ma non conosciamo il valore comune. Esso verrà stimato con p = n1p1+n2p2

n1+n2. La

statistica test da adottare, che al solito è una quantità pivotale condizionata all’ipotesi nulla, sarà

Z =(P1 − P2)

SP,

dove

SP =

√p(1− p)

(1

n1+

1

n2

)che segue approssimativamente una legge distributiva Normale standard 3 (non si confonda il simbolo SP

con Sp, incontrato nella sezione 19.6). Le regioni di rifiuto corrispondenti alle diverse ipotesi alternativepossono essere allora costruite attraverso il ragionamento sviluppato in precedenza. Tali regioni di rifiutosono riportate nella tabella 19.7.

Ipotesi H0 Ipotesi H1 Regione R

π1 − π2 = 0 π1 − π2 > 0 z : z ≥ zα

π1 − π2 = 0 π1 − π2 < 0 z : z ≤ −zα

π1 − π2 = 0 π1 − π2 = 0 z : |z| ≥ zα/2

Tabella 19.7: Regioni di rifiuto per test sulla differenza di proporzioni per grandi campioni.

19.10 Verifica di ipotesi sulla varianzaSia X1, X2, ..., Xn un campione casuale estratto da una pdf N (µ, σ2). Vogliamo testare la varianza σ2. Inparticolare assumiamo il sistema di ipotesi dove H0 : σ2 = σ2

0 . Fissato il livello di significatività α, possonopresentarsi i due casi seguenti.

Caso 1: media nota Se la media della pdf di origine del campione è nota, la statistica test daimpiegare è

U =

∑ni=1(Xi − µ)2

σ20

,

che si distribuisce come un chi-quadrato con n gradi di libertà (sez. 12.7). Con lo stesso ragionamentoadottato per determinare le regioni di rifiuto degli altri test considerati, fissato il livello α, e assumendoH1 : σ2 > σ2

0 l’ipotesi nulla sarà rifiutata se

γ = P(U ≥ u|σ2 = σ20)

= P

(U ≥

∑ni=1(xi − µ)2

σ20

)< α,

3Si usa la quantità pivotale Z =p1−p2−(π1−π2)

Sp, e poichè H0 : π1 = π2, il condizionamento ad H0 porta alla statistica vista.

Primi elementi di inferenza statistica (ed. maggio 2012) 144 M. Di Marzio

Page 152: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

19. VERIFICA D’IPOTESI

e poiché P(U ≥ χ2α,n) = α, la regione di rifiuto del test è data da

R = u : u ≥ χ2α,n.

Per le altre formulazioni del sistema di ipotesi si segue il consueto ragionamento che conduce a deter-minare le regioni di rifiuto riportate nella tabella 19.8.

Ipotesi H0 Ipotesi H1 Regione R

σ2 = σ20 σ2 > σ2

0 u : u ≥ χ2α,n

σ2 = σ20 σ2 < σ2

0 u : u ≤ χ21−α,n

σ2 = σ20 σ2 = σ2

0 u : u ≤ χ21−α/2,n oppure u ≥ χ2

α/2,n

Tabella 19.8: Regioni di rifiuto per test sulla varianza di popolazioni normali con µ noto.

Caso 2: media non nota Se la media della popolazione di origine del campione non è nota, allora lastatistica test da adottare è

V =

∑ni=1(Xi −X)2

σ20

,

che ha distribuzione chi-quadrato con n − 1 gradi di libertà (sez. 12.7). Le regioni di rifiuto per lediverse formulazioni dell’ipotesi alternativa sono riportate nella tabella 19.9.

Ipotesi H0 Ipotesi H1 Regione R

σ2 = σ20 σ2 > σ2

0 v : v ≥ χ2α,n−1

σ2 = σ20 σ2 < σ2

0 v : v ≤ χ21−α,n−1

σ2 = σ20 σ2 = σ2

0 v : v ≤ χ21−α/2,n−1 oppure v ≥ χ2

α/2,n−1

Tabella 19.9: Regioni di rifiuto per test sulla varianza di popolazioni normali con µ non noto.

M. Di Marzio 145 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 153: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

20Esercizi svolti

Esercizio 20.1. Abbiamo osservato un campione casuale di 100 elementi da una popolazione bernoulliana.Per il test con sistema di ipotesi

H0 : π = 0.5

H1 : π = 0.6,

calcoliamo la funzione di potenza sapendo che la zona di rifiuto è data da z : z ≥ 1.68.

Soluzione In questo caso Θ = 0.5, 0.6, così la funzione di potenza assume solo due valori, precisamente℘(0.5) e ℘(0.6). Il primo è α, mentre il secondo è 1− β(0.6). Dopo qualche semplice calcolo si ottiene che

℘(0.5) = α = 0.2483 , ℘(0.6) = 1− β(0.6) = 0.9110.

Esercizio 20.2. Sia X1 un’osservazione casuale estratta da una popolazione con distribuzione esponenzialedi parametro θ incognito. Si vuole mettere alla prova il sistema di ipotesi

H0 : θ = 1.5

H1 : θ = 2.5,

e si decide di accettare l’ipotesi H0 se x1 ≤ 3, e di rifiutarla se x1 > 3. Calcolare le probabilità di commetteregli errori di I e II tipo.

Soluzione L’errore di I tipo è l’errore che si commette rifiutando H0 quando questa è vera. La relativaprobabilità è definita come

α(θ) = P(X1 > 3|θ = 1.5) = 1− P(X1 ≤ 3|θ = 1.5),

e poiché per X ∼ E(θ)P(X ≤ x) = FX(x) = 1− e−θx,

si ottieneα(1.5) = 1− (1− e−1.5×3) = e−1.5×3 ≃ 0.011.

L’errore di II tipo è invece l’errore che si commette accettando l’ipotesi nulla quando questa è falsa. Pertanto,la probabilità di commettere questo tipo di errore è data da

β(θ) = P(X1 ≤ 3|θ = 2.5) = 1− e−2.5×3 ≃ 0.9994

Esercizio 20.3. Sia X1, X2, ..., Xn un campione casuale estratto da una popolazione in cui il carattere X hadistribuzione uniforme in [0, θ]. Si confrontino due possibili test, Γ1 e Γ2, per verificare il sistema di ipotesiseguente

H0 : θ ∈ [5, 6]

H1 : θ /∈ [5, 6].

Il test Γ1 è specificato ricorrendo alla statistica Yn = max(X1, X2, ..., Xn) e conduce ad accettare H0 seyn < 4.6 oppure yn > 5.9. Il test Γ2 è invece specificato ricorrendo alla statistica media campionaria X econduce ad accettare H0 se x < 2.30 oppure x > 2.95. Quale test tra Γ1 e Γ2 è preferibile?

Primi elementi di inferenza statistica (ed. maggio 2012) 146 M. Di Marzio

Page 154: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

20. ESERCIZI SVOLTI

Soluzione Nel problema in esame, lo spazio parametrico è definito da Θ = (0,+∞). La regione diaccettazione per il test Γ1 è definita da

A1 = (x1, x2, ..., xn) : Yn < 4.6 o Yn > 5.9,

e la funzione di potenza è

℘1(θ) = P(Yn < 4.6|θ ∈ Θ) + P(Yn > 5.9|θ ∈ Θ).

Si ricordi che, poiché Yn è il massimo di v.c. uniformi i.i.d., e poiché per X ∼ U(0, θ) si ha

FX(x) = P(X ≤ x) = x/θ,

risulta

P(Yn < x) = P(X1 < x,X2 < x, ...,Xn < x) =n∏

i=1

FXi(x) = (FX(x))n =(xθ

)n,

eP(Yn > x) = 1− P(Yn < x) = 1−

(xθ

)n.

Ma poiché Yn è definita in [0, θ], si ottiene

P(Yn < x) =

1 se x ≥ θ(

)n se 0 ≤ x < θ,

e

P(Yn > x) =

0 se x > θ

1−(xθ

)n se 0 ≤ x < θ.

Nel caso considerato risulta allora

P(Yn < 4.6|θ ∈ Θ) =

1 se θ ≤ 4.6(

4.6θ

)n se θ > 4.6

e

P(Yn > 5.9|θ ∈ Θ) = 1− P(Yn ≤ 5.9|θ ∈ Θ)

=

0 se θ ≤ 5.9

1−(5.9θ

)n se θ > 5.9

da cui

℘1(θ) =

1 se θ ≤ 4.6(

4.6θ

)n se 4.6 < θ ≤ 5.9(4.6θ

)n+ 1−

(5.9θ

)n se θ > 5.9.

Per il test Γ2, la regione di accettazione è definita da

A2 = (x1, x2, ..., xn) : x < 2.30 o x > 2.95,

e la funzione di potenza è

℘2(θ) = P(X < 2.30|θ ∈ Θ) + P(X > 2.95|θ ∈ Θ).

Essendo le v.c. costituenti il campione i.i.d. uniformi in [0, θ], risulta E[Xi] = θ/2 e Var[Xi] = θ2/12 per ognii ∈ 1, 2, ..., n, e per n sufficientemente grande X ∼ N (θ/2, θ2/(12n)). Pertanto risulta

℘2(θ) = P(X < 2.30) + P(X > 2.95)

= P(X − θ/2

θ/√12n

<2.30− θ/2

θ/√12n

)+ P

(X − θ/2

θ/√12n

>2.95− θ/2

θ/√12n

)= Φ

(2.30− θ/2

θ/√12n

)+ 1− Φ

(2.95− θ/2

θ/√12n

).

Nella figura 20.1 sono rappresentate le due funzioni di potenza per n = 30: è evidente che non c’è un testpreferibile poichè le funzioni stesse si intersecano.

M. Di Marzio 147 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 155: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

4 4.5 5 5.5 6 6.5 7

0

0.6

1

θ

℘(θ

)

℘2(θ)

℘1(θ)

Figura 20.1: Funzioni di potenza dei test Γ1 e Γ2.

Esercizio 20.4. Per ottimizzare i tempi di produzione, un’azienda tratta l’acquisto di una nuova macchina.Il fornitore sostiene che il tempo X impiegato dalla macchina per eseguire il ciclo di produzione si distribuiscenormalmente con media µ = 12 ore e s.q.m. σ = 2.5 ore.Da indagini preliminari, l’azienda acquirente ha ragione di ritenere che il tempo X pur avendo distribuzionenormale con σ = 2.5 ore, ha media µ > 12. Si decide allora di monitorare i tempi di produzione delmacchinario facendogli ripetere n = 4 volte il ciclo produttivo. Così si osserva un tempo medio pari a x = 16ore.Verificare al livello di significatività α = 0.01 che il tempo impiegato dal macchinario per completare laproduzione sia superiore a quello dichiarato dal fornitore.

Soluzione Il problema decisionale affrontato può essere formalizzato attraverso il seguente sistema di ipotesiH0 : µ = 12

H1 : µ > 12.

Dato che il tempo X si distribuisce normalmente con σ noto, la statistica test da adottare per saggiare leipotesi del sistema è

Z =X − µ0

σ/√n

,

che ha distribuzione N (0, 1). Avendo l’ipotesi altenativa la seguente espressione H1 : µ > µ0, ed al livelloα = 0.01 dalle tavole della normale standard risulta zα = z0.01 = 2.33, la regione di rifiuto del test è definitada

R = z : z ≥ 2.33.

Poiché la realizzazione campionaria della statistica test è

z =16− 12

2.5/√4= 3.2,

risulta z > zα, e si rifiuta l’ipotesi nulla al livello di significatività fissato. Si conclude pertanto che iltempo medio impiegato dal macchinario per completare il ciclo produttivo è superiore a quello dichiarato dalfornitore.

Esercizio 20.5. In un’azienda di materiali per l’edilizia, una macchina per tagliare barre di acciaio è stataprogrammata per una lunghezza pari a 150 cm. Un controllo sulle ultime n = 16 barre prodotte dalla macchinarivela che la loro lunghezza media è x = 144 cm con uno s.q.m. s = 5. Assumendo che la lunghezza dellebarre di acciaio prodotte dalla macchina si distribuisce normalmente, verificare, al livello di significativitàα = 0.05, l’ipotesi che ci sia stato un errore di programmazione e, dunque, che la lunghezza media delle barreda essa prodotte non sia di 150 cm.

Soluzione Il sistema di ipotesi da sottoporre a verifica èH0 : µ = 150

H1 : µ = 150,

Primi elementi di inferenza statistica (ed. maggio 2012) 148 M. Di Marzio

Page 156: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

20. ESERCIZI SVOLTI

e siccome X si distribuisce normalmente, σ è incognito e la numerosità del campione n = 16 è inferiore a 30,la statistica test da utilizzare è

T =X − µ0

s/√n

che ha distribuzione t di Student con n− 1 = 16− 1 = 15 gradi di libertà.Inoltre essendo l’ipotesi alternativa di tipo bidirezionale, dalla tavole della distribuzione t di Student risultatα/2,n−1 = t0.025,15 = 2.131, la regione di rifiuto del test è

R = t : |t| ≥ 2.131.

Poiché la realizzazione campionaria della statistica test è

t =144− 150

5/√16

= −4.8,

risulta |t| > 2.131 e si rifiuta H0 al livello di significatività prescelto. Si conclude pertanto che c’è stato unerrore nella programmazione della macchina.

Esercizio 20.6. Un’azienda sta pensando di interrompere i rapporti commerciali con un fornitore per i suoifrequenti ritardi nell’effettuare le consegne.Su un campione di n = 100 ordini inviati al fornitore negli ultimi tempi, l’azienda ha registrato un ritardomedio di consegna pari a x = 8 giorni con uno s.q.m. s = 2.8. L’azienda è disposta a tollerare un ritardomedio di 7 giorni.Supponendo che il ritardo segua una distribuzione normale, verificare l’ipotesi a livello α = 0.05 che l’aziendanon interrompa i rapporti commerciali con il fornitore.

Soluzione Occorre un test riferito al seguente sistema di ipotesiH0 : µ = 7

H1 : µ > 7,

e dato che si è ipotizzata una distribuzione normale dei ritardi nelle consegne da parte del fornitore, σ èincognito e la numerosità del campione n = 100 è superiore a 30, la statistica test da utilizzare è:

Z =X − µ0

s/√n

,

che ha distribuzione N (0, 1).Avendo l’ipotesi alternativa la seguente espressione H1 : µ > µ0, dalle tavole della normale standard si ricavail valore della soglia zα = z0.05 = 1.65, la regione di rifiuto del test è

R = z : z ≥ 1.65.

La realizzazione della statistica test in corrispondenza del campione osservato è

z =8− 7

2.8/√100

= 3.57,

ed essendo 3.57 > 1.65, si rifiuta H0. Si conclude pertanto che l’azienda deciderà di interrompere i rapporticommerciali con il fornitore.

Esercizio 20.7. Un carattere X ha presso una popolazione distribuzione normale con media µ incognitae varianza σ2 = 16. Un campione casuale è estratto dalla popolazione e fissato il livello di significativitàα = 0.08, si vuole verificare il seguente sistema di ipotesi

H0 : µ = 5

H1 : µ = 6.

Determinare l’ampiezza campionaria n necessaria affinché la funzione di potenza del test sia pari a 0.5.

M. Di Marzio 149 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 157: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Soluzione Essendo nota la varianza della popolazione di appartenza del campione, la statistica test daimpiegare è

Z =X − 5

4/√n,

che ha distribuzione N (0, 1). Poichè l’ipotesi alternativa ha espressione H1 : µ > µ0, e poichè dalle tavoledella distribuzione normale standard in corrispondenza di α = 0.08 risulta zα = z0.08 = 1.41, la regione dirifiuto del test è definita da

R = z : z ≥ 1.41.

Quindi fissato α, la funzione di potenza del test è data dalla probabilità di rifiutare l’ipotesi nulla quandoquesta è falsa, l’ampiezza campionaria necessaria affinchè tale probabilità sia pari a 0.5 si determina a partiredalla relazione seguente

P(X − µ0

4/√n

≥ 1.41

∣∣∣∣µ = 6

)= 0.5.

Siccome

P(X − µ0

4/√n

≥ 1.41

∣∣∣∣µ = 6

)= P

(X ≥ 1.41

4√n+ µ0

∣∣∣∣µ = 6

)= P

(X ≥ 1.41

4√n+ 5

∣∣∣∣µ = 6

)= P

(Z ≥ 1.41× 4/

√n+ 5− µ

σ/√n

∣∣∣∣µ = 6

)= P

(Z ≥ 1.41× 4/

√n+ 5− 6

4/√n

)= P

(Z ≥ 1.41− 1

4/√n

)risulta che

P(Z ≥ 1.41−

√n

4

)= 0.5.

E dato che P (Z ≥ z) = 0.5 se z = 0 si ottiene

1.41−√n/4 = 0

da cui √n = 1.41× 4 = 5.64

e quindin ≃ 32.

Esercizio 20.8. Al fine di valutare l’opportunità di rinnovare il sistema di sicurezza dei suoi impianti,un’azienda vuole confrontare il numero di incidenti annui occorsi ai suoi operai generici con quello degliincidenti annui occorsi ai suoi operai specializzati. Su un campione di n1 = 36 operai generici si è rilevatoun numero medio di incidenti annui pari a x1 = 7, mentre su un campione di n2 = 34 operai specializzati si èrilevato un numero medio di incidenti annui x2 = 6. Ammettendo che il numero di incidenti occorsi ogni annoalle due categorie di operai si distribuisce normalmente con varianze rispettivamente pari a σ2

1 = 2 e σ22 = 4

verificare al livello α = 0.01 che il numero medio degli incidenti occorsi nell’azienda sia indipendente dallaqualifica degli operai.

Soluzione Il problema può essere formalizzato attraverso il seguente sistema di ipotesiH0 : µ1 = µ2

H1 : µ1 = µ2

supposta una distribuzione normale degli incidenti occorsi agli operai dell’azienda con varianze note, lastatistica test da adottare è

Z =X1 −X2√

σ21/n1 + σ2

2/n2

Primi elementi di inferenza statistica (ed. maggio 2012) 150 M. Di Marzio

Page 158: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

20. ESERCIZI SVOLTI

che ha distribuzione N (0, 1). Poiché l’ipotesi alternativa è di tipo bidirezionale e in corrispondenza del livellodi significatività α = 0.01, risulta zα/2 = z0.005 = 2.58, la regione di rifiuto del test è definita da

R = z : |z| > 2.58.

Essendo la realizzazione campionaria della statistica test

z =7− 6√

2/36 + 4/34= 2.4

risulta allora |z| < 2.58 e si accetta pertanto l’ipotesi di indipendenza del numero di incidenti dalla qualificadegli operai vittime di essi.

Esercizio 20.9. Un’azienda dispone di due magazzini localizzati in zone differenti; ci si chiede se ampliarli.Così è necessario confrontare il numero di camion che arrivano settimanalmente. In n1 = n2 = 5 settimanesi è rilevato un numero medio di arrivi x1 = 20 e una varianza s21 = 1.2 per il magazzino 1, mentre peril magazzino 2 si è avuto x2 = 18 e s22 = 1.6. Assumendo che durante la stagione di attività dell’aziendagli arrivi settimanali dei camion merci presso i magazzini seguano una distribuzione normale con varianzeσ21 = σ2

2 = σ2, verificare l’ipotesi H0 : µ1 = µ2 contro l’ipotesi alternativa bidirezionale H1 : µ1 = µ2, allivello di significatività α = 0.01.

Soluzione Poiché la numerosità campionaria n = n1 + n2 = 5 + 5 = 10 è piccola ed i campioni generati dapopolazioni normali con uguale varianza incognita, la statistica test da utilizzare è

T =X1 −X2

Sp

√1/n1 + 1/n2

,

che ha distribuzione t di Student con n1+n2− 2 = 8 gradi di libertà. Essendo l’ipotesi alternativa formulataè bidirzionale e dalla tavola della distribuzione t di Student in corrispondenza del livello di significativitàfissato si ottiene t0.005,8 = 3.355, la regione di rifiuto del test è definita da

R = t : |t| > 3.355.

Stimando la varianza incognita comune a partire dai dati campionari si ottiene

sp =

√s21 (n1 − 1) + s22 (n2 − 1)

n1 + n2 − 2=

√1.2 (5− 1) + 1.6 (5− 1)

5 + 5− 2= 1.18,

e la realizzazione campionaria della statistica test risulta

t =20− 18

1.18√1/5 + 1/5

= 2.68.

Pertanto, risulta che |t| < 3.355, quindi si accetta l’ipotesi nulla di uguaglianza tra gli arrivi medi dei camionmerci presso i due magazzini.

Esercizio 20.10. Per decidere tra due potenziali localizzazioni di un nuovo centro commerciale, un impren-ditore osserva due campioni casuali di abitanti delle due zone e ne rileva il reddito. In particolare, in uncampione di n1 = 50 abitanti della zona A si è rilevato un reddito medio annuo x1 = 20 mila euro e unavarianza s21 = 8 mila, mentre in un campione di n2 = 54 abitanti della zona B si è rilevato un reddito medioannuo x2 = 24 mila euro e una varianza s22 = 6 mila.Assumendo che i redditi degli abitanti delle due zone si distribuiscono con rispettive varianze σ2

1 e σ22 incog-

nite ma supposte uguali, verificare, al livello α = 0.05, l’ipotesi H0 : µ1 = µ2 contro l’ipotesi alternativabidirezionale H1 : µ1 = µ2.

Soluzione Pur non essendo note le varianze σ21 e σ2

2 delle due popolazioni, né le distribuzioni dei redditi,poiché la numerosità campionaria n = n1 + n2 = 50 + 54 = 104 è elevata, è possibile adottare la statisticatest

Z =X1 −X2

Sp

√1/n1 + 1/n2

dove, come si sa, Sp =√

(n1−1)S21+(n2−1)S2

2

n1+n2−2 che ha distribuzione N (0, 1).

M. Di Marzio 151 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 159: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

L’ipotesi alternativa è bidirezionale quindi in corrispondenza del livello di significatività fissato risulta zα/2 =z0.025 = 1.96, e la regione di rifiuto del test è definita da

R = z : |z| > 1.96.

La realizzazione campionaria della statistica test è

z =20− 24√

49×8+53×6102

(150 + 1

54

) = −7.72,

e poichè risulta |z| > 1.96 si rigetta l’ipotesi nulla di uguaglianza del reddito medio annuo degli abitanti delledue zone.

Esercizio 20.11. Da un’indagine condotta sulla composizione del management delle aziende italiane è risul-tato che il 35% delle aziende italiane è gestito da donne. Inoltre, in un campione di n = 100 aziendelocalizzate nel sud Italia è risultato che 15 sono gestite da donne. Verificare, al livello α = 0.1, se il campionepuò ritenersi rappresentativo della realtà aziendale italiana.

Soluzione Il problema posto nell’esercizio è quello di verificare l’ipotesi sul parametro π di una popolazionebernoulliana, essendo π la percentuale di aziende gestite da donne. In particolare, il sistema di ipotesi dasottoporre a verifica è

H0 : π = 0.35

H1 : π = 0.35.

Poiché l’ampiezza del campione è superiore a 30, si giustifica l’ approssimazione della popolazione di originedel campione alla distribuzione normale di parametri π e π (1− π) /n , per cui usiamo la statistica test

Z =P − π0√π0 (1− π0)

n

.

Siccome l’ipotesi alternativa è bidirezionale e dalle tavole della normale standard, in corrispondenza del livellodi significatività fissato, risulta zα/2 = z0.05 = 1.64, la regione di rifiuto del test è definita da

R = z : |z| > 1.64.

Essendo la realizzazione campionaria della statistica test

z =0.15− 0.35√

0.35×0.65100

= −4.19,

risulta |z| > 1.64 e si rifiuta l’ipotesi che il campione di aziende osservato sia rappresentativo della realtàaziendale italiana.

Esercizio 20.12. Un’azienda automobilistica, prima di immettere sul mercato un nuovo modello di un’autogià in commercio, realizza un sondaggio di opinioni. In particolare, l’indagine rivela che su un campione din1 = 100 donne il 36% preferisce il nuovo modello di auto rispetto a quello già in commercio mentre, su uncampione di n2 = 100 uomini solo il 25% preferisce il nuovo modello. Verificare, al livello α = 0.01, l’ipotesiche non ci sia differenza nelle preferenze in base al sesso dei potenziali acquirenti.

Soluzione Indicata con π1 (rispettivamente π2) la proporzione di soggetti che nella popolazione di donne(risp. uomini) preferiscono il nuovo modello di auto, il sistema d’ipotesi da sottoporre a verifica è

H0 : π1 = π2 = π

H1 : π1 = π2.

Le elevate numerosità campionarie giustificano il ricorso alla statistica test

Z =P1 − P2√

p (1− p) (1/n1 + 1/n2)

che ha distribuzione N (0, 1).

Primi elementi di inferenza statistica (ed. maggio 2012) 152 M. Di Marzio

Page 160: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

20. ESERCIZI SVOLTI

Poichè l’ipotesi alternativa è bidirezionale e dalle tavole della normale standard risulta zα/2 = z0.005 = 2.57,la regione di rifiuto del test è

R = z : |z| > 2.57.

La stima della proporzione, comune ad entrambe le popolazioni, di soggetti che preferiscono il nuovo modelloè ottenuta da

p =p1 × n1 + p2 × n2

n1 + n2=

0.36× 100 + 0.25× 100

100 + 100= 0.305

e la realizzazione campionaria della statistica test risulta allora

z =0.36− 0.25√

0.305× 0.695×(

1100 + 1

100

) = 1.68.

Dato che |z| < 2.57 si accetta, al livello di significatività prescelto, l’ipotesi nulla di indipendenza dellepreferenze dal sesso dei potenziali acquirenti.

Esercizio 20.13. Un produttore di batterie per auto ha immesso sul mercato un nuovo modello per il qualeil tempo di durata ha distribuzione normale con media µ = 3 anni. Il produttore sostiene che la varianza deltempo di durata delle batterie è pari a 1 anno.Su un campione di 5 batterie del nuovo tipo prodotto, sono stati registrati seguenti tempi (anni) di durata

1.9, 2.4, 3.0, 3.5, 4.2.

Verificare al livello α = 0.05, la veridicità dell’affermazione del produttore.

Soluzione Il sistema da sottoporre a verifica è il seguenteH0 : σ2 = 1

H1 : σ2 = 1,

e essendo nota la media della popolazione generatrice del campione, la statistica test da utilizzare è

U =

∑ni=1(Xi − µ)2

σ20

che si distribuisce come un chi-quadrato con n = 5 gradi di libertà. Poiché l’ipotesi alternativa è bidirezionaleed in corrispondenza di α = 0.05 e n = 5 risulta χ2

1−α/2,n = χ20.975,5 = 0.831 e χ2

α/2,n = χ20.025,5 = 12.832, la

regione di rifiuto del test è definita da

R = u : u ≤ 0.831 oppure u ≥ 12.832.

La realizzazione campionaria della statistica test è

u =(1.9− 3)2 + (2.4− 3)2 + (3− 3)2 + (3.5− 3)2 + (4.2− 3)2

1= 3.26,

risulta χ21−α/2,n < u < χ2

α/2,n, e si accetta l’ipotesi nulla al livello di significativita fissato, concludendo chel’affermazione del produttore è vera.

Esercizio 20.14. In un’azienda che produce componenti meccaniche, è stato introdotto un nuovo macchinarioper la produzione di bulloni. Il diametro dei bulloni prodotti dalla nuova macchina segue una distribuzionenormale con media µ e varianza σ2 entrambe incognite. Per valutare la qualità della produzione ottenutaattraverso il nuovo macchinario si misura il diametro di un campione di 4 bulloni prodotti, ottenendo irisultati seguenti

1.8, 2.4, 2.8 3.

Verificare al livello α = 0.01 il sistema di ipotesi seguenteH0 : σ2 = 1.5

H1 : σ2 > 1.5

M. Di Marzio 153 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 161: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Soluzione Dato che la media della popolazione dei diametri dei bulloni prodotti dalla macchina è non nota,la statistica test da utilizzare per verificare il sistema di ipotesi sulla varianza è

V =

∑ni=1(Xi −X)2

σ20

,

che ha distribuzione chi-quadrato con n− 1 = 3 gradi di libertà. Poiché l’ipotesi alternativa è H1 : σ2 > σ20

e poiché in corrispondenza del livello di significatività fissato e dei gradi di libertà risulta χ2α,n−1 = χ2

0.01,3 =11.341, la regione di rifiuto del test è definita da

R = χ2 : χ2 > 11.341.

Quindi risulta

x =1.8 + 2.4 + 2.8 + 3

4= 2.5,

la realizzazione campionaria della statistica test è

v =(1.8− 2.5)2 + (2.4− 2.5)2 + (2.8− 2.5)2 + (3− 2.5)2

1.5= 0.56,

e essendo v < χ20.01,3, si accetta l’ipotesi nulla al livello di significativà fissato.

Primi elementi di inferenza statistica (ed. maggio 2012) 154 M. Di Marzio

Page 162: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

21Test Chi-quadrato

21.1 Formulazione generaleI test su modelli distributivi illustrati nei capitoli precedenti riguardano ipotesi formulate sul valore deiparametri di pdf la cui famiglia parametrica di appartenenza è nota. Test di questo tipo si definisconotest parametrici. I test non parametrici sono invece metodi di verifica di modelli distributivi che nonrichiedono di conoscere una famiglia parametrica che contiene la popolazione. Da ciò consegue che per essil’ipotesi nulla non riguarda semplicemente un parametro, ma un modello distributivo preso per intero.

Esempio 21.1. Seguono le descrizioni di uno scenario inferenziale parametrico e di alcuni scenari non parametrici.

• Scenario parametrico Sia A il carattere di interesse. E’ noto che fA è normale con σ2 = 4. Testare l’ipotesidistributiva secondo cui A ha pdf normale di parametri µ = 5 e σ2 = 4, equivale a condurre un test parametricosulla media con ipotesi nulla H0 : µ = 5.

• Scenari non parametrici

i) Sia A il carattere di interesse. Non si hanno informazioni extracampionarie su fA, e si vuole testarel’ipotesi nulla H0 : fA = N (5, 4).

ii) Sia A il carattere di interesse. Non si hanno informazioni extracampionarie su fA, e si vuole testarel’ipotesi nulla H0 : fA ∈ N (µ, σ2), µ ∈ R, σ ∈ R+.

iii) Dati due caratteri A e B, non si hanno informazioni extracampionarie sulla loro distribuzione congiuntafAB, e si vuole verificare l’ipotesi che essa sia uguale a fAfB, cioè che A e B siano indipendenti.

Appare chiaro che l’ottica del test non parametrico è completamente rovesciata. Qui il risultato rilevante èl’accettazione dell’ipotesi nulla, mentre nel caso parametrico è il rifiuto di essa.In questo capitolo consideriamo un solo test non parametrico, il test Chi-quadrato. Come si vedrà, taletest si presta ad essere applicato, con formulazioni differenti, a più di un problema inferenziale. Tuttavia èsemplice darne una illustrazione generale.Si consideri una popolazione le cui unità sono classificate in base alle modalità A1, A2, ..., Ak assunte da uncarattere A. Qui le Ai, i ∈ 1, 2, ..., k, possono essere categorie di un carattere qualitativo ordinabile, valoridi un carattere quantitativo discreto, o ancora classi di valori di un carattere quantitativo discreto o continuo.Si vuole verificare un’ipotesi su fA in assenza di informazioni extracampionarie. La distribuzione di frequenzedi A osservata sui dati campionari è interpretabile come l’immagine statistica di fA. Così, per appurare la(non) coincidenza di fA con la distribuzione suggerita dall’ipotesi nulla, è naturale confrontare le frequenzedella distribuzione ottenuta dal campione con quelle attese sotto l’ipotesi nulla, che sono chiamate teoriche.Si noti che vengono coinvolte solo frequenze, così, a differenza dei test parametrici, il test Chi-quadrato èapplicabile anche nel caso di caratteri qualitativi.In particolare, indicata con Oi, i = 1, 2, ..., k, la v.c. che descrive la frequenza assoluta campionaria associataad Ai, e indicata con Ei la rispettiva frequenza teorica, la statistica test adottata per tale confronto è

X2 =∑k

i=1

(Oi − Ei)2

Ei.

Si osservi che per il test in esame lo spazio campionario è rappresentato da tutte le k-uple o1, o2, ..., ok taliche

∑ki=1 oi = N , ossia ogni possibile realizzazione campionaria è un punto in Nk che ha come coordinate i

valori delle k frequenze associabili alle modalità A1, A2, ..., Ak in un campione di ampiezza N . Pertanto le

M. Di Marzio 155 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 163: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

21.2. Test di conformità

regioni di accettazione (A) e di rifiuto (R) sono sottoinsiemi di Nk. Al solito, specificando il test attraversola statistica X2 si realizza una riduzione delle regioni A e R nelle regioni A e R di punti unidimensionali, doveogni punto costituisce una possibile realizzazione χ2 di X2.Poiché la statistica X2 è una misura della discrepanza tra frequenze osservate e frequenze teoriche, l’ipotesinulla sarà scartata per valori alti di tale discrepanza, mentre non sarà scartata se il valore di tale discrepanzaè basso. Chiaramente, dato un certo valore del livello di significatività, al fine di stabilire la regione di rifiutooccorre conoscere la distribuzione della statistica X2. In particolare, se oi ≥ 5 per ogni i ∈ 1, 2, ..., k e:a) è vera l’ipotesi nulla; e b) il campione è grande, si dimostra che X2 ha una distribuzione che può essereben approssimata da una distribuzione chi-quadrato con ν gradi di libertà, dove ν è il numero dei parametricoinvolti.Di seguito tale dimostrazione nel caso in cui fA abbia due soli valori, p1 e p2. Indichiamo con N1 e N2 i valoridella distribuzione osservata sul campione e con p10 e p20 i valori espressi dall’ipotesi nulla. Risulta allora

X2 =(N1 −Np10)

2

Np10+

(N2 −Np20)2

Np20

=(N1 −Np10)

2

Np10+

[N −N1 −N(1− p10)]2

N (1− p10)

=(N1 −Np10)

2

Np10+

(N1 −Np10)2

N (1− p10)

=(1− p10 + p10)(N1 −Np10)

2

Np10 (1− p10)

=

(N1 −Np10√Np10 (1− p10)

)2

.

Ora supponiamo che sia vera l’ipotesi nulla. In questo caso avremo che E[N ] = Np10 e VAR[N ] = Np10(1−p10). Di conseguenza la formula sopra rappresenta una v.c. standardizzata elevata al quadrato. Ma se N èabbastanza grande, dal TCL per somme di vv.cc. indipendenti (sez. 11.5) discende che(

N1 −Np10√Np10 (1− p10)

)2

∼ Z2,

dove Z è una v.c. normale standard, ed essendo la v.c. X2ν la somma dei quadrati di ν vv.cc. normali

standard, segue che X2 ha distribuzione Chi-quadrato con un grado di libertà.Come per i test parametrici, una volta fissato il livello di significatività α, la regione di rifiuto del test saràdefinita dall’insieme delle realizzazioni χ2 di X2 che risultano meno probabili sotto l’ipotesi nulla ossia

R = χ2 : χ2 > χ2α,ν.

In altri termini, fissato α si determina il livello di significatività osservato

γ = P(X2 > χ2)

e, se risulta γ < α, la discrepanza χ2 tra frequenze osservate e frequenze teoriche si giudica alta, conconseguente rigetto dell’ipotesi nulla.Studieremo il test chi-quadrato per la verifica delle tre ipotesi seguenti:

⋄ ipotesi sulla forma distributiva di un carattere presso una popolazione;

⋄ ipotesi di indipendenza tra due caratteri;

⋄ ipotesi di omogeneità della distribuzione di uno stesso carattere presso più popolazioni.

21.2 Test di conformità

Sia A un carattere, discreto o continuo, con pdf fA non nota. Nella tabella 21.1 è rappresentata fA, dovepi = P(A = Ai) se A è un carattere discreto con k modalità, oppure pi = P(A ∈ Ai) se il carattere A, discretoo continuo, è stato diviso in k classi.

Primi elementi di inferenza statistica (ed. maggio 2012) 156 M. Di Marzio

Page 164: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

21. TEST CHI-QUADRATO

A A1 A2 . . . Ai . . . Ak

P(Ai) p1 p2 . . . pi . . . pk 1

Tabella 21.1: Distribuzione di probabilità del carattere A.

Si vuole verificare che fA sia tale che pi = pi0, i ∈ 1, 2, ..., k, cioèH0 : pi = pi0

H1 : pi = pi0con i = 1, 2, ..., k.

Si estrae un campione casuale di ampiezza N , e si osservano le frequenze assolute Ni corrispondenti aciascuna delle Ai. Per determinare le frequenze teoriche, cioè le frequenze attese sotto l’ipotesi nulla, occorredistinguere tra i due casi seguenti.

Caso 1 Se l’ipotesi nulla esprime un modello completamente specificato, ossia se le pi0, i ∈ 1, 2, ..., k,sono note, le frequenze attese sotto l’ipotesi nulla sono definite come

E[Ni|pi = pi0] = Npi0 con i = 1, 2, ..., k.

Infatti ciascuna osservazione campionaria può assumere oppure no il valore Ai, e poiché per definizionela frequenza osservata Ni esprime il numero di unità del campione che presentano il valore Ai, allorala v.c. Ni rappresenta il numero di successi in N prove indipendenti 1, dove la probabilità di successonella singola prova è pi. Così Ni ha distribuzione binomiale ed il suo valore atteso sotto l’ipotesi nullaè Npi0. In questo caso la statistica test X2 si specifica come segue

X2 =

k∑i=1

(Ni −Npi0)2

Npi0,

e ha distribuzione approssimativamente chi-quadrato con k − 1 gradi di libertà. Infatti, in questo casoi parametri sono costituiti da k − 1 probabilità pi poiché per la k-sima si ha pk = 1−

∑k−1i=1 pi.

Fissato il livello di significatività α, la regione di rifiuto del test è allora definita da

R = χ2 : χ2 > χ2α,k−1.

Caso 2 Se l’ipotesi nulla esprime un modello distributivo di cui non sono noti i parametri θ1, θ2, ..., θm,il sistema d’ipotesi è formulato specificando le probabilità pi in termini dei parametri incogniti:

H0 : pi = pi0(θ1, θ2, ..., θm)

H1 : pi = pi0(θ1, θ2, ..., θm),

e ovviamente per determinare le frequenze attese sotto l’ipotesi nulla sarà necessario stimare gli mparametri incogniti della distribuzione ipotizzata. Così, ottenute le stime

pi0 = pi0(θ1, θ2..., θm) i = 1, 2, ..., k,

la statistica test adottata è

X2 =k∑

i=1

(Ni −Npi0)2

Npi0

che ha distribuzione chi-quadrato con k−m−1 gradi di libertà. I gradi di libertà sono k−m−1 poichéle m stime θ1, θ2, ..., θm portano alla determinazione numerica di m probabilità2.

Di conseguenza, fissato il livello di significatività α, la regione di rifiuto del test risulta

R = χ2 : χ2 > χ2α,k−m−1.

1Le prove sono indipendenti perché il campione è casuale.2Con θ1, θ2, ..., θm si possono conoscere m probabilità risolvendo un sistema di m equazioni in m incognite. Ogni equazione

esprime una probabilità come incognita funzione dei valori noti θ1, θ2, ..., θm.

M. Di Marzio 157 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 165: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

21.3. Test di indipendenza

21.3 Test di indipendenza

Siano A e B due caratteri che presso una popolazione assumono rispettivamente r e t modalità o classi.Assumendo che A e B siano caratteri discreti (rispettivamente continui), posto

pij = P(A = Ai, B = Bj) (risp. P(A ∈ Ai, B ∈ Bj)),

pi• = P(A = Ai) (risp. P(A ∈ Ai)) e p•j = P(B = Bj) (risp. P(B ∈ Bj)),

la pdf della v.c. doppia (A, B) può essere rappresentata attraverso la tabella 21.2.

B

A B1 B2 · · · Bj · · · Bt Totale

A1 p11 p12 · · · p1j · · · p1t p1•

A2 p21 p22 · · · p2j · · · p2t p2•...

......

......

...Ai pi1 pi2 · · · pij · · · pit pi•...

......

......

...Ar pr1 pr2 · · · prj · · · prt pr•

p•1 p•2 · · · p•j · · · p•t 1

Tabella 21.2: Distribuzione doppia di probabilità dei caratteri A e B.

Si vuole verificare l’ipotesi di indipendenza tra i caratteri A e B. Si è appreso che una distribuzione doppiadiscreta è a componenti indipendenti se e solo se per ogni coppia di modalità la pdf congiunta è data dalprodotto delle pdf marginali. Così il sistema da sottoporre a verifica è

H0 : pij = pi•p•j per ogni coppia (i, j),

H1 : pij = pi•p•j per almeno una coppia (i, j).

I dati campionari sono rappresentati tramite la distribuzione doppia di frequenza riportata nella tabella 21.3.

B

A B1 B2 · · · Bj · · · Bt Totale

A1 N11 N12 · · · N1j · · · N1t N1•

A2 N21 N22 · · · N2j · · · N2t N2•...

......

......

...Ai Ni1 Ni2 · · · Nij · · · Nit Ni•...

......

......

...Ar Nr1 Nr2 · · · Nrj · · · Nrt Nr•

N•1 N•2 · · · N•j · · · N•t N

Tabella 21.3: Distribuzione doppia di frequenza dei caratteri A e B.

Il generico elemento Nij interno alla tabella rappresenta la frequenza assoluta associata a (Ai, Bj); i totalidi riga Ni• =

∑tj=1 Nij , i ∈ 1, 2, ..., r, costituiscono la distribuzione delle frequenze osservate del carattere

A, mentre i totali di colonna N•j =∑r

i=1 Nij , j ∈ 1, 2, ..., t, costituiscono la distribuzione delle frequenzeosservate del carattere B. Come per il test di conformità, si distingue tra i due seguenti casi.

Primi elementi di inferenza statistica (ed. maggio 2012) 158 M. Di Marzio

Page 166: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

21. TEST CHI-QUADRATO

Caso 1 Se le pdf di A e di B sono entrambe note, ossia se pi• e p•j sono date per ogni i ∈ 1, 2, ..., re per ogni j ∈ 1, 2, ..., t, le frequenze attese sotto l’ipotesi nulla, o teoriche, sono

E[Nij |pij = pi•p•j ] = Npi•p•j con i = 1, 2, ..., r, e j = 1, 2, ..., t.

Infatti Nij fornisce il numero di successi in N prove indipendenti, dove la probabilità del singolo successoè pij . Così vale il modello binomiale, e il valore atteso della frequenza associata alla coppia (Ai, Bj) èdato da

E[Nij ] = Npij con i = 1, 2, ..., r, e j = 1, 2, ..., t.

Di conseguenza la statistica test da adottare per verificare l’ipotesi di indipendenza sarà

X2 =r∑

i=1

t∑j=1

(Nij −Npi•p•j)2

Npi•p•j

che ha distribuzione asintotica chi-quadrato con rt−1 gradi di libertà. Essendoci infatti rt probabilità,i parametri sono rt− 1 poiché

∑ri=1

∑tj=1 pij = 1.

Fissato il livello di significatività α, la regione di rifiuto del test è allora definita da

R = χ2 : χ2 > χ2α,rt−1.

Caso 2 Se le probabilità pi• e p•j non sono note, si considerano le rispettive stime ottenute applicandola concezione frequentista di probabilità

pi• =Ni•

Ne p•j =

N•j

N.

Le frequenze attese sotto l’ipotesi nulla sono allora definite da

E[Nij |pij ] = Npi•p•j

= NNi•

N

N•j

N

=Ni•N•j

N.

Di conseguenza la statistica test adottata per verificare l’ipotesi di indipendenza risulta essere

X2 =

r∑i=1

t∑j=1

(Nij − Ni•N•j

N

)2Ni•N•j

N

che ha approssimativamente distribuzione chi-quadrato con (r− 1)(t− 1) gradi di libertà. Il numero digradi di libertà tiene conto del fatto che sono stimate r−1 probabilità marginali pi• (poiché

∑ri=1 pi• =

1) e t− 1 probabilità marginali p•j (poiché∑t

j=1 p•j = 1). Così

ν = (rt− 1)− (r − 1 + t− 1) = rt− r − t+ 1 = (r − 1)(t− 1).

Infine, fissato il livello di significatività α, la regione di rifiuto del test è

R = χ2 : χ2 > χ2α,(r−1)(t−1).

21.4 Test di omogeneitàSi consideri un carattere A discreto o continuo, ripartito nelle modalità o classi A1, A2, ..., Ar, osservabilesu t popolazioni P1,P2, ...,Pt. Si vuole verificare l’ipotesi che le t popolazioni siano omogenee rispetto alcarattere A, nel senso che fA è la stessa in tutte le popolazioni.Indicata con pij la probabilità che A assuma la modalità Ai nella popolazione Pj , la distribuzione del carattereA (non nota) presso ciascuna popolazione può essere rappresentata come nella tabella 21.4.Il sistema d’ipotesi è

H0 : pi1 = pi2 = ... = pit = pi0 per ogni i ∈ 1, 2, ..., r,

H1 : pij = pi0 per almeno una coppia (i, j).

M. Di Marzio 159 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 167: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

21.4. Test di omogeneità

Popolazioni

A P1 P2 · · · Pj · · · Pt

A1 p11 p12 · · · p1j · · · p1t

A2 p21 p22 · · · p2j · · · p2t...

......

......

......

Ai pi1 pi2 · · · pij · · · pit...

......

......

...Ar pr1 pr2 · · · prj · · · prt

1 1 · · · 1 · · · 1

Tabella 21.4: Distribuzione di probabilità del carattere A presso t popolazioni.

Campioni

A C1 C2 · · · Cj · · · Ct

A1 N11 N12 · · · N1j · · · N1t N1•

A2 N21 N22 · · · N2j · · · N2t N2•...

......

......

......

Ai Ni1 Ni2 · · · Nij · · · Nit Ni•...

......

......

......

Ar Nr1 Nr2 · · · Nrj · · · Nrt Nr•

N•1 N•2 · · · N•j · · · N•t N

Tabella 21.5: Distribuzione di frequenza del carattere A presso t campioni.

Si osservano allora le frequenze assolute associate alle modalità Ai, i = 1, 2, ..., r, nei campioni indipendentiC1, C2, ..., Ct estratti rispettivamente dalle popolazioni P1,P2, ...,Pt. La distribuzione delle frequenze assolutecorrispendenti alle modalità di A rilevato sulle realizzazioni campionarie t è riportata nella tabella 21.5.Il totale N rappresenta il numero di unità complessivamente osservate. Inoltre i totali di colonna, di genericoelemento N•j , indicano le ampiezze dei t campioni, mentre i totali di riga, di generico elemento Ni•, indicanoil numero di unità che su N osservazioni presentano modalità Ai, i ∈ 1, 2, ..., r. Per la determinazione dellefrequenze teoriche occorre distinguere tra i due casi illustrati di seguito.

Caso 1 Se le probabilità pi0, i ∈ 1, 2, ..., r, sono specificate nell’ipotesi nulla, allora le frequenzeteoriche sono definite dal valore atteso di una v.c. binomiale di parametri N•j e pi0, ossia

E[Nij |pi1 = pi2 = ... = pit = pi0] = N•jpi0.

La statistica test da adottare per verificare l’ipotesi di omogeneità è allora

X2 =

r∑i=1

t∑j=1

(Nij −N•jpi0)2

N•jpi0

che ha approssimativamente distribuzione chi-quadrato con t(r − 1) gradi di libertà. Infatti per laj-sima popolazione i parametri coinvolti sono le r − 1 probabilità pij (essendo

∑ri=1 pij = 1), e poiché

sono considerate t popolazioni, il numero totale dei parametri è t(r − 1).Pertanto, fissato il livello di significatività α, la regione di rifiuto del test è

R = χ2 : χ2 > χ2α,t(r−1).

Caso 2 Se le probabilità pi0, i ∈ 1, 2, ..., r, non sono specificate, allora bisogna stimarle nel solitomodo

pi0 =Ni•

Nper i = 1, 2, ..., r.

Primi elementi di inferenza statistica (ed. maggio 2012) 160 M. Di Marzio

Page 168: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

21. TEST CHI-QUADRATO

Le frequenze attese sotto l’ipotesi nulla sono allora

E[Nij |pi1 = pi2 = ... = pik] = N•j pi0 =N•jNi•

N,

e la statistica test adottata per verificare l’ipotesi di omogeneità è

X2 =r∑

i=1

t∑j=1

(Nij − N•jNi•

N

)2N•jNi•

N

,

che ha approssimativamente distribuzione chi-quadrato con (r − 1)(t− 1) gradi di libertà. Infatti sonocoinvolti t(r − 1) parametri, ma sono state stimate r − 1 probabilità pi0 (poiché

∑ri=1 pi0 = 1); i gradi

di libertà sono allora

ν = t(r − 1)− (r − 1) = rt− t− r + 1 = (r − 1)(t− 1).

Fissato il livello di significatività α, la regione di rifiuto del test rimane definita come

R = χ2 : χ2 > χ2α,(r−1)(t−1).

M. Di Marzio 161 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 169: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

22Esercizi svolti

Esercizio 22.1. Un’indagine campionaria svolta su N = 50 conversazioni telefoniche interurbane effettuatedagli abbonati di una compagnia telefonica ha dato luogo alla seguente distribuzione di frequenza delle duratein minuti

Durate (Ai) < 5 [5, 10) [10, 15) [15, 20) ≥ 20 N

Frequenze (Ni) 6 12 15 14 3 50

Verificare al livello α = 0.01 l’ipotesi che la durata A delle telefonate interurbane degli abbonati dellacompagnia abbia distribuzione N (12, 16).

Soluzione Indicata con pi la probabilità che una conversazione telefonica casualmente selezionata abbiadurata appartenente all’intervallo Ai, dove Ai ∈ (−∞, 5), [5, 10), [10, 15), [15, 20), [20,+∞), e ricordandoche se A ∼ N (µ, σ2):

P (A ∈ (b, c)) =

∫ c

b

1

σ√2π

e−(a−µ)2/(2σ2) da

il sistema d’ipotesi da sottoporre a verifica èH0 : pi =

∫ cibi

14√2π

e−(a−12)2/(2×16) da per ognii ∈ 1, 2, ..., 5,

Hi : pi =∫ cibi

14√2π

e−(a−12)2/(2×16) da, per almeno un i ∈ 1, 2, ..., 5,

dove bi e ci sono gli estremi di Ai. Poiché l’ipotesi nulla specifica completamente la pdf del carattere A, lefrequenze teoriche sono definite da

E[Nij |pi = pi0] = Npi0.

Prima di definire la statistica test da adottare, poiché la classe [20,+∞) ha frequenza osservata inferiore a5, si procede innanzitutto ad accorpare questa classe con la classe precedente. Le classi di durata diventanoallora 4 e la statistica test da adottare è

X2 =4∑

i=1

(Ni −Npi0)2

Npi0,

che ha distribuzione chi-quadrato con 4− 1 = 3 gradi di libertà.Poiché il livello di significatività fissato è α = 0.01 e dalla tavola della distribuzione chi-quadrato risultaχ20.01,3 = 11.341, la regione di rifiuto del test è

R = χ2 : χ2 > 11.341.

Per determinare le frequenze attese sotto l’ipotesi nulla occorre, come detto, moltiplicare l’ampiezza N delcampione per le probabilità pi0. Queste probabilità possono essere facilmente calcolate utilizzando le tavoledella distribuzione normale standard. Così, ad esempio, per le prime due classi si ottiene

p10 = P (A < 5) = P

(Z <

5− 12

4

)= P (Z < −1.75)

= Φ(−1.75) = 1− Φ(1.75) = 1− 0.9599

= 0.0401,

Primi elementi di inferenza statistica (ed. maggio 2012) 162 M. Di Marzio

Page 170: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

22. ESERCIZI SVOLTI

e

p20 = P (A ∈ [5, 10)) = P

(5− 12

4< Z <

10− 12

4

)= P (−1.75 < Z < −0.5)

= Φ(−0.5)− Φ(−1.75) = (1− Φ(0.5))− (1− Φ(1.75)) = Φ(1.75)− Φ(0.5)

= 0.9599− 0.6915 = 0.2684.

Procedendo in modo analogo per le altre classi, è possibile determinare la realizzazione campionaria dellastatistica test attraverso la tabella seguente

Classi A Classi Z Ni pi0 Npi0 Ni −Npi0 (Ni −Npi0)2/Npi0

< 5 (-∞, -1.75) 6 0.0401 2.005 3.995 7.960

[5, 10) [-1.75, -0.5) 12 0.2684 13.420 -1.420 0.150

[10, 15) [-0.5, 0.75) 15 0.4649 23.245 -8.245 2.925

≥ 15 [0.75, +∞) 17 0.2266 11.330 5.67 2.837

Totale 50 1 50 13.872

Poiché la realizzazione campionaria della statistica test è χ2 = 13.872, risulta χ2 > 11.341 e si rifiuta l’ipotesinulla al livello di significatività fissato. Si conclude allora che la durata delle telefonate interurbane effettuatedagli abbonati della compagnia non ha distribuzione N (12, 16).

Esercizio 22.2. In un’azienda, il numero X di incidenti avvenuti agli addetti alla produzione nell’ultimoanno ha dato luogo alla seguente distribuzione di frequenze

N. incidenti (xi) 0 1 2 3 4 ≥ 5

Frequenze (Ni) 10 7 11 9 7 6 50

Verificare al livello α = 0.05 l’ipotesi che gli incidenti che colpiscono gli addetti alla produzione dell’aziendaseguono una distribuzione di Poisson.

Soluzione Indicata con pi la probabilità che un operaio casualmente selezionato abbia subito xi incidenti, ilsistema di ipotesi da sottoporre a verifica è

H0 : pi =(λt)xie−λt

xi!per ogni i ∈ 1, 2, ..., 6,

H1 : pi =(λt)xie−λt

xi!per almeno un i ∈ 1, 2, ..., 6.

Poiché il parametro λt che caratterizza la distribuzione degli incidenti sotto l’ipotesi nulla è incognito, siprocede alla sua stima. In particolare, ricordando che la stima di massima verosimiglianza del parametro λtdi una distribuzione di Poisson è data dalla media campionaria, si ottiene

λt = x =

∑6i=1 xiNi

N

=0× 10 + 1× 7 + 2× 11 + 3× 9 + 4× 7 + 5× 6

50= 2.28.

La frequenza attesa sotto l’ipotesi nulla in corrispondenza dell’i-esima modalità è allora data da

Npi0 = 502.28xie−2.28

xi!,

e la statistica test da adottare per sottoporre a verifica il sistema di ipotesi è

X2 =

6∑i=1

(Ni −Npi0)2

Npi0,

che ha approssimativamente distribuzione chi-quadrato con 6− 1− 1 = 4 gradi di libertà.Poiché α = 0.05 e dalle tavole della distribuzione chi-quadrato risulta χ2

0.05,4 = 9.49, la regione di rifiuto deltest è definita da

R = χ2 : χ2 > 9.49.La realizzazione campionaria della statistica test è determinata attraverso la tabella seguente

M. Di Marzio 163 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 171: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

xi Ni pi0 Npi0 Ni −Npi0 (Ni −Npi0)2/Npi0

0 10 0.1023 5.115 4.885 4.665

1 7 0.2332 11.660 -4.660 1.862

2 11 0.2658 13.290 -2.290 0.394

3 9 0.2020 10.100 -1.100 0.120

4 7 0.1152 5.760 1.240 0.267

≥ 5 6 0.1838 9.190 -3.190 1.107

Totale 50 1 50 8.415

Poiché la realizzazione campionaria della statistica test è χ2 = 8.415, risulta χ2 < 9.49 e, al livello disignificatività fissato, i dati non smentiscono l’ipotesi nulla. Si conclude allora che il numero di incidentisubiti dagli addetti alla produzione dell’azienda ha distribuzione di Poisson.

Esercizio 22.3. Presso la popolazione dei dipendenti di una grande azienda i caratteri sesso(A) e settore dilavoro(B) presentano le seguenti distribuzioni di probabilità

A p(A)

F 0.6

M 0.4

1

B p(B)

Produzione (p) 0.6

Vendite (v) 0.3

Direzione (d) 0.1

1

Su un campione di N = 54 dipendenti dell’azienda, è stata rilevata la seguente distribuzione doppia difrequenza dei caratteri A e B

BA p v d Ni•

F 8 10 6 24

M 13 7 10 30

N•j 21 17 16 54

Verificare al livello α = 0.05 l’ipotesi che il settore di lavoro sia indipendente dal sesso degli impiegatidell’azienda.

Soluzione Indicata con pij la probabilità che un dipendente dell’azienda casualmente selezionato abbia sessoAi e lavori nel settore Bj , il sistema di ipotesi da verificare è

H0 : pij = pi•p•j per ogni (i, j) ∈ 1, 2 × 1, 2, 3,H1 : pij = pi•p•j per almeno un (i, j) ∈ 1, 2 × 1, 2, 3,

dove pi•(rispettivamente p•j) è la probabilità con cui il carattere A(risp. B) assume la modalità Ai(risp.Bj). Poiché le probabilità pi• e p•j sono note per ogni i ∈ 1, 2 e per ogni j ∈ 1, 2, 3, le frequenze attesesotto l’ipotesi nulla sono definite da

E[Nij |pij = pi•p•j ] = Npi•p•j ,

e la distribuzione doppia di frequenza dei caratteri A e B è riportata di seguito

B

A p v d Ni•

F 19.44 9.72 3.24 32.4

M 12.96 6.48 2.16 21.6

N•j 32.4 16.2 5.4 54

Primi elementi di inferenza statistica (ed. maggio 2012) 164 M. Di Marzio

Page 172: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

22. ESERCIZI SVOLTI

La statistica test adottata per verificare l’ipotesi di indipendenza è

X2 =2∑

i=1

3∑j=1

(Nij −Npi•p•j)2

Npi•p•j

che ha approssimativamente distribuzione chi-quadrato con 2× 3− 1 = 5 gradi di libertà. Poiché α = 0.05,e dalle tavole della distribuzione chi-quadrato risulta χ2

0.05,5 = 11.070, la regione di rifiuto è definita da

R = χ2 : χ2 > 11.070.

La realizzazione campionaria della statistica test è determinata attraverso la seguente tabella

(Ai, Bj) Nij Npi•p•j Nij −Npi•p•j (Nij −Npi•p•j)2/(Npi•p•j)

(F, p) 8 19.44 -11.44 6.7322

(F, v) 10 9.72 0.28 0.0081

(F, d) 6 3.24 2.76 2.3511

(M, p) 13 12.96 0.04 0.0001

(M, v) 7 6.48 0.52 0.0417

(M, d) 10 2.16 7.84 28.4563

54 54 37.5895

Poiché la realizzazione campionaria della statistica test è χ2 = 37.5895, risulta χ2 > 11.070 e si rifiuta allivello di significatività fissato l’ipotesi di indipendenza tra sesso e settore di lavoro.

Esercizio 22.4. Un’indagine svolta su un campione di N = 132 aziende italiane appartenenti a settoriproduttivi diversi, ha evidenziato le seguenti percentuali di produzione esportata

Produzione esportata

Settore produttivo < 20% 20%− 40% > 40% Ni•

Alimentare (A) 43 16 3 62

Siderurgico (S) 6 11 10 27

Tessile (T) 9 18 16 43

N•j 58 45 29 132

Verificare, al livello α = 0.001, che la percentuale di produzione esportata sia indipendente rispetto al settoreproduttivo di appartenenza delle aziende italiane.

Soluzione Sia pij la probabilità che un’azienda casualmente selezionata abbia la percentuale i di produzioneesportata ed appartenga al settore produttivo j e sia pi• (rispettivamente p•j) la probabilità che un’aziendaselezionata casualmente abbia percentuale i di produzione esportata (risp. appartenga al settore produttivoj). Il sistema di ipotesi da sottoporre a verifica è

H0 : pij = pi•p•j per ogni (i, j) ∈ 1, 2, 3 × 1, 2, 3

H1 : pij = pi•p•j per almeno un (i, j) ∈ 1, 2, 3 × 1, 2, 3.

Poiché le distribuzioni marginali dei due caratteri considerati sono incognite, occorre determinarne le rispet-tive stime

pi• =Ni•

Ne p•j =

N•j

N.

Le frequenze attese sotto l’ipotesi nulla risultano pertanto definite da

E[Nij |pij = pi•p•j ] =Ni•N•j

N,

M. Di Marzio 165 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 173: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

e la statistica test adottata per saggiare l’ipotesi di indipendenza è

X2 =3∑

i=1

3∑j=1

(Nij − Ni•N•j

N

)2Ni•N•j

N

,

che ha distribuzione chi-quadrato con (3− 1)(3− 1) = 4 gradi di libertà.Poiché α = 0.001 e dalla tavola della distribuzione chi-quadrato risulta χ2

0.001,4 = 18.47, la regione di rifiutodel test è definita da

R = χ2 : χ2 > 18.47.La realizzazione campionaria della statistica test è determinata allora attraverso la tabella seguente

Modalità NijNi•N•j

N Nij − Ni•N•jN

(Nij − Ni•N•j

N

)2/Ni•N•j

N

(A, 20%) 43 27.24 15.76 9.11

(A, 20%− 40%) 16 21.14 -5.14 1.25

(A,> 40%) 3 13.62 -10.62 8.28

(S, 20%) 6 11.86 -5.86 2.90

(S, 20%− 40%) 11 9.20 1.80 0.35

(S,> 40%) 10 5.93 4.07 2.79

(T, 20%) 9 18.89 -9.89 5.18

(T, 20%− 40%) 18 14.66 3.34 0.76

(T,> 40%) 16 9.45 6.55 4.55

132 132 35.17

Poiché la realizzazione campionaria della statistica test è χ2 = 35.17, risulta χ2 > 18.47 e si rigetta, allivello di significativà prescelto, l’ipotesi di indipendenza tra percentuale di produzione esportata e settore diappartenenza delle aziende italiane.

Esercizio 22.5. Su due campioni di persone rispettivamente residenti in regioni del nord e del sud dell’Italia, è stato condotto un sondaggio su una nuova proposta di legge, ottenendo i risultati seguenti

Aree

Pareri Sud Nord Ni•

Favorevole (f) 60 40 100

Contrario (c) 80 100 180

N•j 140 140 280

Verificare al livello α = 0.01 che in entrambe le aree geografiche italiane la proposta di legge raccolga il 50%di pareri favorevoli.

Soluzione Nel problema in esame le popolazioni di interesse sono rappresentate dai residenti nel Nord enel Sud Italia. L’ipotesi da verificare è se tali popolazioni siano omogenee rispetto al giudizio su una nuovaproposta di legge ed in particolare se in entrambe ci sia la stessa percentuale (50%) di persone favorevoli e dipersone contrarie alla nuova proposta. Pertanto, indicata con pij la probabilità che selezionato casualmenteun individuo questo sia residente nella zona j-sima e presenti la preferenza i-sima, il sistema di ipotesi daverificare è

H0 : pi1 = pi2 = 0.5 per ogni i ∈ 1, 2,H1 : pi1 = pi2 per almeno un i ∈ 1, 2.

Le frequenze attese sotto l’ipotesi nulla sono allora definite da

E[Nij |pi1 = pi2 = 0.5] = N•jpi0 = N•j × 0.5.

La distribuzione delle frequenze teoriche è riportata nella tabella seguente

Primi elementi di inferenza statistica (ed. maggio 2012) 166 M. Di Marzio

Page 174: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

22. ESERCIZI SVOLTI

Aree

Pareri Sud Nord Ni•

Favorevole (f) 70 70 140

Contrario (c) 70 70 140

N•j 140 140 280

La statistica test da usare per saggiare l’ipotesi di indipendenza è

X2 =2∑

i=1

2∑j=1

(Nij −N•jpi0)2

N•jpi0

che ha distribuzione chi-quadrato con 2 (2− 1) = 2 gradi di libertà.Poiché α = 0.01 e dalla tavola della distribuzione chi-quadrato risulta χ2

0.01,2 = 9.210, la regione di rifiutodel test è

R = χ2 : χ2 > 9.210.La realizzazione campionaria della statistica test è determinata come segue

Nij N•jpi0 Nij −N•jpi0 (Nij −N•jpi0)2/N•jpi0

(f, S) 60 70 -10 1.4286

(f, N) 40 70 -30 12.8571

(c, S) 80 70 10 1.4286

(c,N) 100 70 30 12.8571

280 280 28.5714

Poiché χ2 = 28.5714 risulta χ2 > 9.210, e si rifiuta al livello α = 0.01 l’ipotesi che in entrambe le areegeografiche il 50% dei residenti sia favorevole alla nuova proposta di legge.

Esercizio 22.6. Un’azienda produttrice di componenti elettronici realizza gli assemblaggi necessari all’otten-imento di un certo tipo di trasformatori attraverso quattro macchinari A, B, C e D. Si estrae un campionedalla produzione di ciascuna macchina ottenendo i risultati seguenti.

Macchinari

Assemblaggi A B C D Ni•

Difettosi (d) 10 16 14 20 60

Non difettosi (nd) 50 34 46 50 180

N•j 60 50 60 70 240

Verificare al livello α = 0.05 che tra i macchinari dell’azienda non c’è differenza di prestazioni.

Soluzione Nel problema in esame le popolazioni di interesse sono rappresentate dalle produzioni dei 4 macchi-nari dell’azienda. L’ipotesi da verificare è se tali popolazioni siano omogenee rispetto alle caratteristiche didifettosità. In particolare, indicata con pij la probabilità che scelto casualmente un prodotto dalla produzionedella j-sima macchina esso presenti la caratteristica i-sima, il sistema da verificare è

H0 : pi1 = pi2 = pi3 = pi4 = pi0 per ogni i ∈ 1, 2,

H1 : H0 non vera per almeno un i ∈ 1, 2.

Poiché le probabilità pi0 comuni sotto l’ipotesi nulla sono incognite, si procede alla loro stima come segue

p10 =N1•

N=

60

240= 0.25, p20 =

N2•

N=

180

240= 0.75.

Le frequenze attese sotto l’ipotesi nulla sono allora definite da

E[Nij |pi1 = pi2 = pi3 = pi4 = pi0] = N•j pi0 =N•jNi•

N, per i ∈ 1, 2,

e se ne riporta la distribuzione nella tabella che segue

M. Di Marzio 167 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 175: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Macchinari

Assemblaggi A B C D Ni•

Difettosi (d) 15 12.5 15 17.5 60

Non difettosi (nd) 45 37.5 45 52.5 180

N•j 60 50 60 70 240

La statistica test da impiegare per verificare l’ipotesi di omogeneità tra le prestazioni dei macchinari è alloradefinita da

X2 =2∑

i=1

4∑j=1

(Nij − N•jNi•

N

)2N•jNi•

N

,

che ha distribuzione chi-quadrato con (2− 1) (4− 1) = 3 gradi di libertà.Poiché α = 0.05 e dalla tavola della distribuzione chi-quadrato risulta χ2

0.05,3 = 7.815, la regione di rifiutodel test è

R = χ2 : χ2 > 7.815.

La realizzazione campionaria della statistica test è determinata attraverso la tabella seguente

NijN•jNi•

N Nij − N•jNi•N

(Nij − N•jNi•

N

)2/N•jNi•

N

(d,A) 10 15 -5 1.6667

(d, B) 16 12.5 3.5 0.9800

(d,C) 14 15 -1 0.0667

(d,D) 20 17.5 2.5 0.3571

(nd,A) 50 45 5 0.5555

(nd,B) 34 37.5 -3.5 0.3266

(nd,C) 46 45 1 0.0222

(nd,D) 50 52.5 -2.5 0.1190

240 240 4.094

Poiché χ2 = 4.094 risulta χ2 < 7.815, e si accetta l’ipotesi di omogeneità tra le prestazioni dei quattromacchinari dell’azienda.

Primi elementi di inferenza statistica (ed. maggio 2012) 168 M. Di Marzio

Page 176: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

23Predizione

Indice23.1 Predittori ottimi non condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . 16923.2 Predittori ottimi condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17023.3 Due modelli di media condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . 171

23.1 Predittori ottimi non condizionati

Supponiamo di sapere come un carattere Y si distribuisce presso una popolazione, cioè di conoscere fY . Spessoè di interesse prevedere, sulla base di fY , il valore y associato a un individuo estratto a caso. La predizionedi y produce un numero il piu possibile prossimo a y. Si noti che la predizione può essere considerata unaprocedura logicamente contraria a quella della stima. Infatti l’obiettivo non è conoscere una caratteristica diuna pdf ignota sulla base dei dati, come accade per la stima, ma predire i dati che verranno estratti da unapdf completamente nota. Poiché la predizione, che indichiamo con cfY , sfrutta solo la conoscenza di fY , nonavrà natura casuale, ma sarà sempre la stessa ogni volta che y dovrà essere previsto.Chiamiamo la v.c. E = Y − cfY errore di approssimazione o predizione. Per errore quadratico medio (orischio) di predizione si intende il valore atteso del quadrato dell’errore di predizione

EQMP[cfY ] = E[E2] = E[(Y − cfY )2].

Come valore atteso della funzione di v.c. (Y − cfY )2, il rischio avrà le seguenti espressioni1

E[E2] =

∑t

j=1(yj − cfY )2p(yj) se Y è discreta con t modalità,

∫ +∞−∞ (y − cfY )

2fY dy se Y è continua.

La predizione ottima di y è quel numero c∗fY per cui il rischio è minimo, in formule

c∗fY = argmincfY

E[(Y − cfY )2].

È facile dimostrare che c∗fY = E[Y ]. Infatti

EQMP[cfY ] = E[(Y − cfY )2]

= E[(Y − E[Y ] + E[Y ]− cfY )2]

= E[(Y − E[Y ])2] + E[(E[Y ]− cfY )2] + 2E[(Y − E[Y ])(E[Y ]− cfY )]

= E[(Y − E[Y ])2] + E[(E[Y ]− cfY )2] + 2(E[Y ]− cfY )E[(Y − E[Y ])]

= E[(Y − E[Y ])2] + E[(E[Y ]− cfY )2]

= Var[Y ] + E[(E[Y ]− cfY )2]

1Nel resto del capitolo X e Y saranno supposte continue.

M. Di Marzio 169 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 177: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

23.2. Predittori ottimi condizionati

ora, Var[Y ] non dipende da cfY , così E[(E[Y ] − cfY )2] ≥ 0, la predizione ottima c∗fY di y è quella che annulla

E[(E[Y ]− cfY )2]. Di conseguenza

c∗fY = E[Y ] e EQMP[c∗fY ] = Var[Y ].

Un’altra evidente proprietà di c∗fY è che in media essa produce previsioni esatte, infatti

E[Y − c∗fY ] = E[Y ]− E[Y ] = 0.

23.2 Predittori ottimi condizionatiSia data una v.c. doppia (X,Y ) di cui conosciamo fXY . Assumiamo di voler predire i valori di Y sapendoche essa è correlata con X, e che x può essere usata per predire y.Con riferimento al loro differente ruolo, X è chiamata variabile esplicativa e Y variabile risposta.

Esempio 23.1. Alcune coppie di variabili esplicative e risposta: il prezzo e il fatturato; l’altezza e il peso; la quantitàdi studio e il rendimento; il titolo di studio e la retribuzione; i prezzi del sottostante di un’opzione e dell’opzione.

Se, come è naturale, scegliamo di utilizzare anche l’informazione contenuta in x, allora il nostro predittoresi deve basare sulla pdf condizionata fY |x, non semplicemente sulla marginale fY (y) =

∫fXY (x, y) dx. Tale

problema è chiamato predizione condizionata, qui il predittore, che indichiamo come gfY |x , è una funzionedi x, così come lo sarà pure il rischio

EQMP[gfY |x ] = E[(Y − gfY |x)2],

dove il valore atteso è preso rispetto alla densità condizionata fY |x. Per le stesse ragioni viste nel caso noncondizionato, anche qui il predittore ottimo di y, cioè la funzione che minimizza EQMP[gfY |x ], è il valoreatteso, che in questo caso è condizionato. Tale valore atteso può essere inteso come funzione deterministica ocome v.c.. Infatti dopo l’osservazione di x esso è una funzione deterministica di x, cioè µY |x = E[Y |X = x].Ma prima di osservare x la media condizionata è una v.c., poiché applicata alla v.c. X, cioè µY |X = E[Y |X];in quest’ultimo caso il valore atteso è preso rispetto alla pdf fXY . Così, osservato x, abbiamo le seguentiespressioni di media condizionata e relativo rischio ottimo

µY |x = E[Y |X = x], EQMP[µY |x] = Var[Y |X = x]

dove valore atteso e varianza sono entrambi calcolati usando la pdf condizionata fY |x.Prima di osservare x abbiamo invece le seguenti espressioni

µY |X = E[Y |X], E[EQMP[µY |X ]] = E[Var[Y |X]]

dove valore atteso e varianza sono entrambi calcolati usando la pdf congiunta fXY . Prima di osservare x ilrischio è naturalmente definito come il valore atteso di EQMP[µY |X ]. Infatti se esiste un rischio condizionatoper ogni valore x, allora il rischio prima di osservare x sarà una media di tutti quelli condizionati.Ora è facile dimostrare che il rischio ottimo condizionato prima di osservare x è minore del rischio ottimonon condizionato visto nella sezione precedente, per cui sarà sempre conveniente fare predizioni condizionate.In formule:

E[EQMP[µY |X ]] = E[Var[Y |X]] ≤ EQMP[E[Y]] = Var[Y]

così da concludere che una predizione condizionata ha rischio non maggiore di quello di una predizione noncondizionata E[Y ], risultando formalmente giustificata la scelta – operata prima di osservare x – di usarel’informazione contenuta in x per predire il valore di Y .Infatti ricordando che Var[X] = E[X2]− (E[X]2) si ha che

Var[Y |X] = E[(Y − E[Y ])2|X]

= E[Y 2|X]− (E[Y |X])2,

e risulta

E[Var[Y |X]] = E[E[Y 2|X]− (E[Y |X])2]

= E[E[Y 2|X]]− E[(E[Y |X])2]

= E[Y 2]− E[(E[Y |X])2] + (E[Y ])2 − (E[Y ])2

= Var[Y ]− E[(E[Y |X])2] + (E[Y ])2

= Var[Y ]− E[(E[Y |X])2] + (E[E[Y |X])2

= Var[Y ]− Var[E[Y |X]] ≤ Var[Y ]

Primi elementi di inferenza statistica (ed. maggio 2012) 170 M. Di Marzio

Page 178: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

23. PREDIZIONE

nei passaggi dalla seconda alla terza equazione e dalla quarta alla quinta abbiamo usato la proprietà dellemedie iterate (sez. 9.4). Così E[Var[Y |X]] ≤ Var[Y ]. La funzione µY |· è chiamata in molti modi diversi. Inquesta sede i termini predittore ottimo di Y tramite X, linea delle medie condizionate di Y rispettoa X e funzione di regressione di Y su X saranno usati come sinonimi.

Esempio 23.2. Data una v.c. doppia (X,Y ), con la seguente pdf di Y condizionata a x:per x ∈ [0, 1

2]

fY |x(y) =

1

2x0 ≤ y ≤ 2x

0 altrimenti

mentre per x ∈ ( 12, 1]

fY |x(y) =

1 0 ≤ y ≤ 1

0 altrimenti.

Ricavare:

a) il predittore ottimo di Y tramite X;

b) il rischio di predizione.

a) Poichè la v.c. Y si distribuisce uniformente, la funzione di regressione di Y dato X è la seguente

µY |x =

x se 0 ≤ x ≤ 1

21

2se 1/2 ≤ x ≤ 1.

b) Mentre il rischio di predizione è

Var[Y |X = x] =

x2

30 ≤ x ≤ 1

2

1

12

1

2≤ x ≤ 1.

La figura 23.1 rappresenta sia la la linea delle medie (in grassetto), sia tutti i possibili valori della coppia (x, y) (areaombreggiata).

Y

X1/20 1

Figura 23.1: Predittore ottimo dell’esempio 23.2.

23.3 Due modelli di media condizionata

La specificazione della media condizionata µY |· richiede la conoscenza della pdf congiunta fXY . Infatti dafXY si ricava fY |X , e con rispetto a quest’ultima essa si calcola la media condizionata. Nella trattazione chesegue ci limiteremo studiare il caso in cui è noto che (X,Y ) ha pdf normale doppia. Esso somma la semplicitàdi trattazione a una notevole applicabilità negli studi pratici.Sarà inoltre presentato un secondo rilevante caso, dove la specificazione di µ[Y |·] non richiede l’uso della pdfcongiunta, infatti spesso si può affermare che il predittore ha forma lineare indipendentemente da quale siala pdf di (X,Y ).

M. Di Marzio 171 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 179: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

23.3. Due modelli di media condizionata

⋄ Modello normale Come si è appreso nella sezione 9.9, se (X,Y ) ha pdf normale doppia di parametriµX , σ2

X , µY , σ2Y , e ρXY , allora la pdf condizionata fY |x è anch’essa normale. Il suo valore atteso

µY |X = µY + ρXYσY

σX(X − µX)

è, come si è visto nella sezione precedente, il predittore ottimo di Y condizionato a X. Si deve sotto-lineare che esso è lineare in X. Mentre la sua varianza, cioè Var[Y |X] = σ2

Y (1− ρ2XY ), ne costituisce ilrischio condizionato, che evidentemente è lo stesso per ogni valore di X. Per cui, eccezionalmente, nelcaso di normalità i rischi prima e dopo l’ossevazione di X sono gli stessi, formalmente

E[Var[Y |X]] = E[EQMP[µY |X ]] = E[σ2Y (1− ρ2XY )] = σ2

Y (1− ρ2XY ) = Var[Y |X].

Come si vede, il rischio è inversamente proporzionale al quadrato del coefficiente di correlazione, cosìpiù al crescere della correlazione dimuinuisce il rischio (migliora la precisione) del predittore µY |·. Ciòè intuitivo se si considera che l’informazione su Y contenuta in X è proporzionale al valore del lorocoefficiente di correlazione ρXY . Ad esempio, se le vv.cc. sono incorrelate sono anche indipendenti perl’ipotesi di normalità, così ci aspettiamo che l’uso di x per predire Y sia superfluo. In questo caso ilrischio del predittore condizionato raggiunge il suo massimo che è σ2

Y . Si noti che tale massimo coincidecon il rischio del predittore non condizionato, ciò conferma che il predittore condizionato ha rischionon maggiore di quello non condizionato. Se al contrario la correlazione è molto alta, il rischio è moltobasso, infatti i dati tendono ad ammassarsi intorno a una retta (si veda la figura 9.3), e di conseguenzaun predittore lineare fornisce approssimazioni soddisfacenti.

Esempio 23.3. Abbia (X,Y ) pdf normale con σ2Y = 10 e ρXY = 0.25. Se si ignora la v.c. X, e si operano

predizioni su Y attraverso E[Y ], il rischio è

EQMP[E[Y ]] = Var[Y ] = 10.

Se invece si ricorre alla funzione di regressione di Y su X, allora

EQMP[µY |X ] = (1− ρ2XY )σ2Y = (1− 0.0625)10 = 9.9375.

Sfruttando l’informazione ausiliaria contenuta in X si riduce il rischio di oltre il 6%.

⋄ Linearità Spesso non si conosce la pdf congiunta, ma si può ragionevolmente supporre che la mediacondizionata è funzione lineare di X, ossia che

E[Y |X] = µY |X = β0 + β1X.

Questa specificazione esprime una famiglia di rette indicizzata dalla coppia di parametri (β0, β1). Sideve comunque conoscere quale particolare retta costituisce il predittore ottimo. A tale scopo occorrespecificare i parametri β0 e β1 che caratterizzano la funzione di regressione come segue. Poiché β0+β1Xdovrà essere il predittore ottimo di Y dato X, i parametri (β0, β1) devono essere tali da minimizzare ilrischio. Anzitutto troviamo una espressione conveniente per quest’ultimo

EQMP[µY |X ] = E[(Y − (β0 + β1X))2]

= E[Y 2 + (β0 + β1X)2 − 2Y (β0 + β1X)]

= E[Y 2 + β20 + β2

1X2 + 2β0β1X − 2β0Y − 2β1XY ]

= E[Y 2] + β20 + β2

1E[X2] + 2β0β1E[X]− 2β0E[Y ]− 2β1E[XY ],

per determinare β0 e β1 si procede al calcolo delle derivate parziali rispetto a β0 e β1, ottenendo ilseguente sistema

∂EQMP[µY |X ]

∂β0= 2β0 + 2β1E[X]− 2E[Y ]

∂EQMP[µY |X ]

∂β1= 2β1E[X2] + 2β0E[X]− 2E[XY ]

ed eguagliando a 0 le equazioni del sistema si ricavaβ0 + β1E[X] = E[Y ]

β0E[X] + β1E[X2] = E[XY ] .

Primi elementi di inferenza statistica (ed. maggio 2012) 172 M. Di Marzio

Page 180: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

23. PREDIZIONE

Moltiplicando la prima equazione per E[X], e sottraendo l’equazione così ottenuta dalla seconda equazionedel sistema si determina β1

β1 =E[XY ]− E[X]E[Y ]

E[X2]− (E[X])2

=Cov[X,Y ]

Var[X],

e di conseguenza, specificando β1 nella prima equazione del sistema si ottiene

β0 = E[Y ]− β1E[X]

= E[Y ]− Cov[X,Y ]

Var[X]E[X].

Il predittore lineare ottimo è allora

µY |X = E[Y ]− Cov[X,Y ]

Var[X]E[X] +

Cov[X,Y ]

Var[X]X

= E[Y ] +Cov[X,Y ]

Var[X](X − E[X])

e l’errore quadratico medio di previsione ad esso corrispondente, che è il minimo possibile, si calcolacome segue

EQMP[µY |X ] = E[(Y − µY |X)2]

= E

[Y − E[Y ]− Cov[X,Y ]

Var[X](X − E[X])

2]

= E

[(Y − E[Y ])2 +

Cov[X,Y ]

Var[X](X − E[X])

2

− 2(Y − E[Y ])

Cov[X,Y ]

Var[X](X − E[X])

]

= Var[Y ] +

(Cov[X,Y ]

Var[X]

)2

Var[X]− 2(Cov[X,Y ])2

Var[X]

= Var[Y ]− (Cov[X,Y ])2

Var[X]

= Var[Y ]

(1− (Cov[X,Y ])2

Var[Y ]Var[X]

)Avviene, senza alcuna sorpresa, che il predittore lineare ottimo coincide con quello ottenuto nel casodella normale, dove si era constatato che il predittore ottimo è lineare.

Esempio 23.4. Nella figura 23.2 osserviamo un modello di predittore lineare ottimo. Si possono osservare le treprevisioni µY |x1

, µY |x2, µY |x3

operate dal predittore ottimo µY |x = β0 + β1x. I Rispettivi valori di Y verificatisi sonoy1, y2, y3, mentre gli errori di previsione sono e1, e2, e3.

Riassumendo, abbiamo discusso le seguenti specificazioni del predittore lineare ottimo:

⋄ se (X,Y ) ha pdf normale con parametri µX , µY , σ2X , σ2

Y , ρXY :

µY |X = µY + ρXYσY

σX(X − µX);

⋄ se la media di Y è funzione lineare di X:

µY |X = E[Y ] +Cov[X,Y ]

Var[X](X − E[X]).

La quantità ρXYσY

σX

(risp. Cov[X,Y ]

Var[X]

)misura di quanto varia la media di Y per variazioni marginali di X ed è

anche chiamata coefficiente di regressione; la quantità µY +ρXYσY

σX−µX

(risp.E[Y ] + Cov[X,Y ]

Var[X] − E[X])

rappresenta l’intercetta verticale.

M. Di Marzio 173 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 181: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

23.3. Due modelli di media condizionata

Figura 23.2: Esempio di modello predittivo lineare ottimo.

Primi elementi di inferenza statistica (ed. maggio 2012) 174 M. Di Marzio

Page 182: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24Inferenza su medie condizionate

Indice24.1 Stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17524.2 Proprietà degli stimatori B0 e B1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 17924.3 Stime intervallari e test su β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18124.4 Test di linearità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

24.1 StimaData la v.c. doppia (X,Y ), immaginiamo di voler determinare la media di Y condizionata ad un certo valore diX, cioè µY |x = E[Y |X = x], quando non abbiamo completa conoscenza di fXY . Tale predittore non può esserecalcolato, quanto meno perché, come detto, fXY non è del tutto nota. Comunque si può sempre stimarlo sullabase di una realizzazione (x1, y1), (x2, y2), ..., (xn, yn) di un campione casuale (X1, Y1), (X2, Y2), ..., (Xn, Yn)generato da fXY .Di seguito sono illustrati alcuni metodi di costruzione di stimatori di µY |x, ognuno di essi presuppone undifferente grado conoscenza di fXY : naturalmente più ipotesi si possono fare a priori, più accurato1 risulteràlo stimatore che ne verrà fuori. In breve, si può affermare quanto segue sui metodi che presenteremo.Un metodo che non richiede informazioni extra-campionarie è quello non parametrico. Ovviamente esso nonpuò incorrere nell’errore di errata specificazione, ma è poco efficace. Il metodo dei minimi quadrati presupponepiù informazione a priori poichè richiede che il predittore ottimo sia una retta. Il metodo della massimaverosimiglianza fa uso del massimo dell’informazione a priori, infatti richiede sia l’epressione parametricadella media condizionata µY |x sia la conoscenza della famiglia parametrica di appartenenza della densitàcongiunta fXY . Al termine della sezione 24.2 si vedrà che il metodo della massima verosimiglianza ha proprietàmigliori del metodo dei minimi quadrati. Infine il metodo dell’analogia svolge un ruolo assai mediocre poichè,sebbene semplice e intuitivo, richiede la conoscenza della funzione di regressione avendo particolari proprietàdi accuratezza.Nella tabella 24.1 è mostrata la notazione usata per la distribuzione di frequenza rilevata sul campione (Xha r modalità, Y ne ha t). In particolare, data una numerosità n, sono riportate le seguenti frequenzeassolute: nij che è associata alla coppia (xi, yj), ni• che è associata a xi e infine n•j che è associata ayj . I dati campionari sono di solito graficamente rappresentati attraverso il diagramma di dispersione,cioè un sistema di assi cartesiani dove ogni asse indica un carattere e ogni punto una delle r × t coppie(xi, yj), i = 1, ..., r, j = 1, ..., t di modalità osservate.

Metodo non parametrico Un metodo non parametrico per la stima di medie condizionate consistenel calcolo diretto delle stesse sui dati campionari, in corrispondenza dei diversi valori assunti da X:

mY |xi=

1

ni•

t∑j=1

yjnij .

Inoltre, congiungendo attraverso segmenti i punti di coordinate (xi,mY |xi) si ottiene una spezzata,

detta spezzata di regressione. Sebbene la spezzata dia un’idea dell’andamento globale del fenomeno,1Esattamente come nel resto dell’inferenza, un metodo si intende tanto più accurato quanto migliori sono le proprietà

possedute.

M. Di Marzio 175 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 183: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24.1. Stima

Y

X y1 y2 · · · yj · · · yt Totale

x1 n11 n12 · · · n1j · · · n1t n1•

x2 n21 n22 · · · n2j · · · n2t n2•...

......

......

...

xi ni1 ni2 · · · nij · · · nit ni•...

......

......

...

xr nr1 nr2 · · · nrj · · · nrt nr•

n•1 n•2 · · · n•j · · · n•t n

Tabella 24.1: Notazione per la distribuzione doppia di frequenza dei caratteri X e Y .

chiaramente i valori della spezzata diversi dai punti di coordinate (xi,mY |xi) non possono in alcun modo

essere considerati come stime di medie condizionate.

Esempio 24.1. Abbiamo osservato un campione casuale di numerosità n = 51 con la seguente distribuzionedoppia di frequenze

Y

X 1 2 3 4 5 6 7 8 9 10 11 12

1 1 2 3 2 1 0 0 0 0 0 0 0 9

2 0 0 0 2 3 5 5 3 2 1 0 0 22

3 0 0 0 0 1 4 4 1 0 0 0 0 10

4 0 0 0 0 0 0 1 2 2 2 2 1 10

1 2 4 4 5 9 10 6 4 3 2 1 51

Nella figura 24.1 di sinistra i dati sono rappresentati attraverso il diagramma di dispersione. Ogni coppia (xi, yi)è rappresentata da un punto; ma essendo molte coppie uguali molti punti sono sovrapposti così nel grafico nonne possiamo contare 51.

Consideriamo adesso le stime dei previsori ottimi in corrispondenza dei valori di X osservati:

X 1 2 3 4

mY |xi3 6.36 6.50 9.50

Nella figura 24.1 di destra possiamo notare la spezzata di regressione.

Metodo dell’analogia Nel caso non comune che la formula del predittore sia nota una strategia moltointuitiva per ottenere uno stimatore del predittore consiste nel sostituire le quantità del campione allequantità della popolazione contenute nella formula.

Esempio 24.2. Immaginiamo di sapere che il predittore ottimo abbia forma µy +ρXYσXσY

(x−µX), inoltre sia(1.1, 1.7), (0.9, 2), (1.3, 2.3) la realizzazione di un campione casuale estratto dalla pdf incognita della v.c. (X,Y ).Sulla base dei dati campionari risulta

x =1.1 + 0.9 + 1.3

3= 1.1, s2X =

(1.1− 1.1)2 + (0.9− 1.1)2 + (1.3− 1.1)2

3= 0.0267,

y =1.7 + 2 + 2.3

3= 2, s2Y =

(1.7− 2)2 + (2− 2)2 + (2.3− 2)2

3= 0.06

erXY =

(1.1− 1.1)(1.7− 2) + (0.9− 1.1)(2− 2) + (1.3− 1.1)(2.3− 2)√0.0267× 0.06

= 0.5.

Primi elementi di inferenza statistica (ed. maggio 2012) 176 M. Di Marzio

Page 184: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24. INFERENZA SU MEDIE CONDIZIONATE

Figura 24.1: Rappresentazione grafica di dati bidimensionali.

Pertanto la stima del predittore lineare ottimo, ottenuta con il metodo dell’analogia, è data da

mY |x = 2 + 0.5

√0.0267√0.06

(x− 1.1) = 1.175 + 0.33x.

Metodo dei minimi quadrati Nella sezione 23.3 è stato definito il predittore lineare ottimo µY |· =β0 + β1·, ottimo perchè β0 e β1 sono stati determinati in modo da rendere minimo l’errore quadraticoatteso di predizione.

Se fXY è ignota, ma si sa che la media condizionata è funzione lineare di X, non resta che stimareβ0 e β1. A tal fine una strategia ragionevole appare il trattare la realizzazione campionaria comepopolazione, ed applicare ad essa il metodo descritto nella sezione 23.3 per la determinazione di β0 eβ1.

Così, data la realizzazione (x1, y1), (x2, y2), ..., (xn, yn) di un campione casuale estratto da fXY , iparametri della retta delle medie condizionate vengono stimati tramite il metodo dei minimi quadrati,secondo il quale le stime di β0 e β1 minimizzano

EQMP[β0 + β1xi] =n∑

i=1

(yi − (β0 + β1xi))2,

cioè la versione empirica dell’errore quadratico di predizione.

Poichè risultan∑

i=1

(yi − (β0 + β1xi))2 =

n∑i=1

(y2i + (β0 + β1xi)2 − 2yi(β0 + β1xi))

=n∑

i=1

(y2i + β20 + β2

1x2i + 2β0β1xi − 2β0yi − 2β1xiyi)

=n∑

i=1

y2i + nβ20 + β2

1

n∑i=1

x2i + 2β0β1

n∑i=1

xi − 2β0

n∑i=1

yi − 2β1

n∑i=1

xiyi,

le derivate parziali rispetto a β0 e β1 sono∂EQMP[β0 + β1xi]

∂β0= 2nβ0 + 2β1

∑ni=1 xi − 2

∑ni=1 yi

∂EQMP[β0 + β1xi]

∂β1= 2β1

∑ni=1 x

2i + 2β0

∑ni=1 xi − 2

∑ni=1 xiyi,

da cui eguagliando a 0 si ottienenβ0 + β1

∑ni=1 xi =

∑ni=1 yi

β0

∑ni=1 xi + β1

∑ni=1 x

2i =

∑ni=1 xiyi.

M. Di Marzio 177 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 185: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24.1. Stima

Moltiplicando per∑n

i=1 xi

n la prima equazione del sistema e sottraendo l’equazione così ottenuta dallaseconda equazione del sistema, si ottiene

b1 =n∑n

i=1 xiyi −∑n

i=1 xi

∑ni=1 yi

n∑n

i=1 x2i − (

∑ni=1 xi)2

=

∑ni=1(xi − x)(yi − y)∑n

i=1(xi − x)2

= rXYsYsX

e di conseguenza

b0 =

∑ni=1 yin

− b1

∑ni=1 xi

n

= y − rXYsYsX

x.

Metodo della massima verosimiglianza Se oltre all’ipotesi di linearità vale anche l’ipotesi di nor-malità della v.c. (X,Y ), allora la distribuzione condizionata di Y sarà normale (sez. 9.9) con mediaβ0 + β1x e varianza incognita che indichiamo con σ2. In questo caso è possibile stimare β0, β1 e σ2

ricorrendo al metodo della massima verosimiglianza. La funzione di verosimiglianza è data dal prodottodelle densità condizionate:

L(β0, β1, σ2) =

n∏i=1

1√2πσ2

e−(yi − (β0 + β1xi))

2

2σ2

= (2πσ2)−n/2e−

∑ni=1(yi − (β0 + β1xi))

2

2σ2,

e la corrispondente funzione di log-verosimiglianza è

L(β0, β1, σ2) = −n

2log 2π − n

2log σ2 −

∑ni=1(yi − (β0 + β1xi))

2

2σ2.

La stima di massima verosimiglianza per σ2 è ottenuta da

∂L(β0, β1, σ2)

∂σ2= − n

2σ2+

∑ni=1(yi − (β0 + β1xi))

2

2σ4= 0

moltiplicando entrambi i membri dell’equazione per 2σ4 e risolvendo. Si ottiene infine:

s2 =

∑ni=1(yi − (β0 + β1xi))

2

n.

Le stime di massima verosimiglianza di β0 e β1 si ottengono invece risolvendo il seguente sistema∂L(β0, β1, σ

2)

∂β0= −

nβ0 + β1

∑ni=1 xi −

∑ni=1 yi

σ2= 0

∂L(β0, β1, σ2)

∂β1= −

β1

∑ni=1 x

2i + β0

∑ni=1 xi −

∑ni=1 xiyi

σ2= 0,

a questo punto si osservi che moltiplicando entrambi i membri di ciascuna equazione del sistema perσ2 si ritrovano le equazioni proprie del metodo dei minimi quadrati. Quindi il metodo di massimaverosimiglianza e il metodo dei minimi quadrati producono stime identiche se fXY ha pdf normale.Si noti, infine, che le stesse stime sono generate anche dal metodo dell’analogia. Così in tutti i casiparametrici abbiamo ottenuto

B1 =

∑ni=1(xi − x)(Yi − Y )∑n

i=1(xi − x)2; B0 = Y −B1x ; S2 =

∑ni=1(Yi −mY |xi

)2

n.

Si noti che gli stimatori sono espressi come funzione del campione casuale (x1, Y1), (x2, Y2), ..., (xn, Yn)che proviene dalla pdf condizionata fY |x.

Primi elementi di inferenza statistica (ed. maggio 2012) 178 M. Di Marzio

Page 186: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24. INFERENZA SU MEDIE CONDIZIONATE

Esempio 24.3. Sia (2, 4), (0, 0.9), (1, 2) la realizzazione di un campione casuale estratto dalla pdf della v.c.(X,Y ). Poiché risulta

x =2 + 0 + 1

3= 1 y =

4 + 0.9 + 2

3= 2.3,

le stime dei minimi quadrati b0 e b1, risultano

b1 =

∑ni=1(xi − x)(yi − y)∑n

i=1(xi − x)2=

(2− 1)(4− 2.3) + (0− 1)(0.9− 2.3) + (1− 1)(2− 2.3)

(2− 1)2 + (0− 1)2 + (1− 1)2= 1.55;

b0 = y − b1x = 2.3− (1.55)1 = 0.75.

Le stime b0 e b1 così ottenute coincidono con le stime di massima verosimiglianza dei parametri β0 e β1, nelcaso in cui (X,Y ) è una v.c. normale. Pertanto la stima del predittore ottimo in entrambi i casi è

mY |x = 0.75 + 1.55x.

24.2 Proprietà degli stimatori B0 e B1

Disponiamo di un campione casuale (x1, Y1), (x2, Y2), ..., (xn, Yn) che proviene dalla pdf condizionata fY |x.Così i valori attesi saranno presi rispetto alla pdf condizionata fY |x, di conseguenza: E[Yi] = β0 + β1xi. Ilnostro scopo adesso è ricavare due importanti proprietà degli stimatori B0 e B1, e cioé la correttezza e lalinearità. Vedremo infine che, sulla base di queste due, sarà possibile stabilire anche la proprietà dell’efficienzarelativa tramite il teorema di Gauss-Markov.

⋄ Correttezza Gli stimatori B0 e B1 sono stimatori corretti rispettivamente per i parametri β0 e β1.Infatti, posto Var[Yi] = σ2, risulta

E[B1] = E[∑n

i=1(xi − x)(Yi − Y )∑ni=1(xi − x)2

]

= E[∑n

i=1(xi − x)Yi −∑n

i=1(xi − x)Y∑ni=1(xi − x)2

]

= E[∑n

i=1(xi − x)Yi∑ni=1(xi − x)2

]

=

∑ni=1(xi − x)(β0 + β1xi)∑n

i=1(xi − x)2

=β0

∑ni=1(xi − x) + β1

∑ni=1(xi − x)xi∑n

i=1(xi − x)2

=β1

∑ni=1(xi − x)xi∑n

i=1(xi − x)2

ora troviamo una espressione conveniente per il numeratore sottraendo da esso la quantità nullax∑n

i=1(xi − x). Così si ha∑n

i=1(xi − x)xi =

∑n

i=1(xi − x)xi − x

∑n

i=1(xi − x)

=∑n

i=1(xi − x)(xi − x)

=∑n

i=1(xi − x)2,

da cui si ottiene

E[B1] =β1

∑ni=1(xi − x)2∑n

i=1(xi − x)2= β1.

M. Di Marzio 179 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 187: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24.2. Proprietà degli stimatori B0 e B1

e di conseguenza

E[B0] = E[Y −B1x]

= E[∑n

i=1 Yi

n

]− E[B1x]

=1

n

n∑i=1

E[Yi]− xE[B1]

=1

n

(nβ0 + β1

n∑i=1

xi

)− β1x

= β0 + β1x− β1x

= β0.

⋄ Linearità Gli stimatori B0 e B1 sono stimatori lineari, nel senso che essi sono funzioni lineari dellevv.cc. Y1, Y2, . . . , Yn. Per provarlo basta porre

ci =1

n− x(xi − x)∑n

i=1(xi − x)2di =

xi − x∑ni=1(xi − x)2

risultando B0 =∑n

i=1 ciYi e B1 =∑n

i=1 diYi. Infatti

n∑i=1

ciYi =n∑

i=1

(1

n− x(xi − x)∑n

i=1(xi − x)2

)Yi

=n∑

i=1

(Yi

n− x(xi − x)Yi∑n

i=1(xi − x)2

)

= Y −x∑n

i=1 Yi(xi − x)∑ni=1(xi − x)2

ma essendo Y∑n

i=1(xi − x) = 0, si può sottrarlo al numeratore della frazione ottenendo

n∑i=1

ciYi = Y −x(∑n

i=1 Yi(xi − x)− Y∑n

i=1(xi − x))∑n

i=1(xi − x)2

= Y −x∑n

i=1(xi − x)(Yi − Y )∑ni=1(xi − x)2

= Y −B1x

= B0.

Inoltre procedendo in modo simile si dimostra anche la linearità di B1:

n∑i=1

diYi =

∑ni=1(xi − x)Yi∑ni=1(xi − x)2

=

∑ni=1 Yi(xi − x)− Y

∑ni=1(xi − x)∑n

i=1(xi − x)2

=

∑ni=1(xi − x)(Yi − Y )∑n

i=1(xi − x)2

= B1.

Primi elementi di inferenza statistica (ed. maggio 2012) 180 M. Di Marzio

Page 188: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24. INFERENZA SU MEDIE CONDIZIONATE

Un notevole risultato relativo agli stimatori dei minimi quadrati B0 e B1 è fornito dal seguente teorema diGauss–Markov: All’interno della classe degli stimatori lineari e corretti, gli stimatori dei minimi quadratisono quelli con varianza minima.Infine, se vale l’ipotesi di normalità B0 e B1 possono essere considerati stimatori di massima verosimiglianza,e di conseguenza sono coerenti, asintoticamente normali e a varianza asinoticamente minima nella classe ditutti gli stimatori. Evidentemente le proprietà degli stimatori di massima verosimiglianza sono migliori diquelle dei minimi quadrati (riassunte nel teorema di Gauss–Markov).

24.3 Stime intervallari e test su β1

Sappiamo che la costruzione di stimatori intervallari e test statistici per β1 richiede la conoscenza di adattequantità pivotali.Ora nei casi dove (X,Y ) è normale bivariata oppure semplicemente µY |X(x) = β0 + β1x, siamo giunti allostimatore puntuale B1. Di tale stimatore conosciamo il valore atteso. Se riusciamo ad ottenerne la varianzae la pdf, allora abbiamo prodotto ulteriori informazioni per costruire una quantità pivotale. Iniziamo con lavarianza. A tale scopo, ricordando che si tratta di una varianza condizionata, assumiamo che quest’ultimasia costante per tutte le xi. Questa ipotesi, molto semplificatrice, viene detta omoschedasticità. Si noti chenon è necessario assumere esplicitamente l’omoschedasticità se si assume che fXY è normale, infatti in questocaso essa è già una caratteristica del modello, come già osservato nella sezione 9.9.Ricordando che B1 =

∑ni=1 diYi, dove di =

xi−x∑ni=1(xi−x)2 , si ottiene

Var[B1] = Var

[n∑

i=1

diYi

]= σ2

n∑i=1

d2i

= σ2n∑

i=1

(xi − x∑n

i=1(xi − x)2

)2

= σ2

∑ni=1(xi − x)2

∑n

i=1(xi − x)22

=σ2∑n

i=1(xi − x)2.

Riguardo il calcolo della pdf dobbiamo introdurre l’ipotesi di normalità di fXY . Infatti in tal caso la pdfmarginale fY è anche normale (sez. 9.9). Ma B1 è una somma ponderata delle Yi, i = 1, ..., n che, a lorovolta, sono i.i.d.. Così B1 ha distribuzione normale (sez. 11.4). Così nel caso di normalità di (X,Y )

B1 ∼ N

(β1,

σ2

devx

).

Da qui sarà facile costruire quantità pivotali sia se σ2 è nota, sia se non lo è. Si deve tuttavia osservare chenella pratica quasi mai ricorre il caso di varianza nota.

σ2 nota Abbiamo la seguente quantità pivotale

B1 − β1

σ/√devx

che ha pdf normale standard.

σ2 non nota Stimiamo σ con S =

√∑ni=1(mY |xi

− Yi)2

n− 2. Si ha la quantità pivotale

B1 − β1

S/√devx

che ha pdf t di Student con n− 2 gradi di libertà. Una formula di calcolo spesso conveniente è∑n

i=1(mY |xi

− Yi)2 =

∑n

i=1Y 2i − nY

2 −B21devx.

M. Di Marzio 181 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 189: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24.4. Test di linearità

Sulla base di queste quantità pivotali possiamo inferire circa β1.

⋄ Stima intervallare Dato un livello di confidenza α, a seconda che la varianza sia nota oppure no,abbiamo le seguenti due inversioni

σ2 nota

P

(−zα

2<

B1 − β1

σ/√devx

< zα2

)= P

(B1 −

zα2σ

√devx

< β1 < B1 +zα

√devx

)= 1− α.

σ2 non nota

P

(−tα

2 ,n−2 <B1 − β1

S/√devx

< tα2 ,n−2

)= P

(B1 −

tα2 ,n−2S√devx

< β1 < B1 +tα

2 ,n−2S√devx

)= 1− α.

⋄ Test statistici Siamo interessati a sapere se l’evidenza empirica sostiene oppure no l’ipotesi che β1

abbia un certo valore β10 (che va letta come ‘beta-uno-zero’). Così mettiamo alla prova i seguentisistemi di ipotesi

H0 : β1 = β10

H1 : β1 > β10

H0 : β1 = β10

H1 : β1 < β10

H0 : β1 = β10

H1 : β1 = β10.

Anche qui, prefissato il livello di significatività α, abbiamo due casi a seconda che la varianza sia notao meno.

σ2 nota Sotto l’ipotesi nulla lo stimatore puntuale ha distribuzione normale con parametri β10 eσ2/devx. Così la statistica test

B1 − β10

σ/√devx

ha distribuzione normale standard se è vera l’ipotesi nulla.

σ2 non nota Sotto l’ipotesi nulla si si ha la seguente statistica test

B1 − β10

S/√devx

che ha distribuzione t di Student con n− 2 gradi di libertà.

Le zone di rifiuto dei test Z e T sono riportate nella tabella seguente a seconda di H1:

Regioni di rifiuto R

H0 H1 Z T

β1 > β10 z : z > zα t : t > tα,n−2

β1 = β10 β1 < β10 z : z < zα t : t < tα,n−2

β1 = β10 z : |z| > zα2 t : |t| > tα

2 ,n−2

24.4 Test di linearità

Data una popolazione fXY ci chiediamo se il predittore ottimo sia lineare. Ovviamente se il predittore lineareè quello ottimo, allora il suo rischio presso la densità fXY deve essere basso. Uno stimatore del rischio è S2.Partendo da

n∑i=1

(Yi − Y )2 =

n∑i=1

(Yi −mY |xi+mY |xi

− Y )2,

si ottiene facilmente chen∑

i=1

(Yi − Y )2 =

n∑i=1

(mY |xi− Yi)

2 +

n∑i=1

(mY |xi− Y )2

Primi elementi di inferenza statistica (ed. maggio 2012) 182 M. Di Marzio

Page 190: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

24. INFERENZA SU MEDIE CONDIZIONATE

cioè la devianza di Y , chiamata totale si scompone in devianza dell’errore o residua e devianza spiegata dallaregressione. Il rapporto

F =

∑ni=1(mY |xi

− Y )2∑ni=1(mY |xi

−Yi)2

(n−2)

è chiaramente una misura empirica della bontà di accostamento e quindi del rischio. Infatti, poiché laloro somma è fissa e pari alla devianza totale, all’aumentare del numeratore il denominatore diminuisce eviceversa. Se allora F è molto grande l’accostamento è buono, viceversa è molto scarso se F assume valoriinferiori all’unità. Si dimostra inoltre che F sotto l’ipotesi H0 : β1 = 0 (che significa assenza di linearità) hadistribuzione F di Fisher con 1 e n− 2 gradi di libertà. Così il test F per la verifica della linearità a livelloα si riferisce al sistema di ipotesi

H0 : β1 = 0

H1 : β1 = 0 ,

e ha zona di rifiuto pari a R = f : f ≥ fα,1,n−2. Dove la soglia va calcolata per 1 e (n− 2) gradi di libertà.Allora F è una statistica test per verificare la presenza di legame lineare tra Y da X. Se F assume un valoreelevato e quindi la statistica cade nella zona di rifiuto, i dati smentiscono l’ipotesi nulla di indipendenza econsideriamo valido il modello di regressione ipotizzato.Si deve osservare che nel caso di una unica variabile esplicativa il test F equivale a un test T con ipotesi nullaH0 : β1 = 0.

Esempio 24.4. Considerata la realizzazione del campione casuale utilizzata nell’ esempio 24.3 si vuole condurre untest di linearità al livello α = 0.05. Il sistema di ipotesi da verificare è alloraH0 : β1 = 0

H1 : β1 = 0 ,

e la statistica test da adottare è

F =

∑3i=1(mY |xi

− Y )2∑3i=1(mY |xi

− Yi)2/1.

Essendo f0.05,1,1 = 161.4, la regione di rifiuto del test è

R = f : f ≥ 161.4.

I dati a disposizione possono riassumersi come segue

xi yi mY |xi= 0.75 + 1.55xi

2 4 3.85

0 0.9 0.75

1 2 2.3

e poiché y = 2.3, risulta

n∑i=1

(mY |xi− y)2 = (3.85− 2.3)2 + (0.75− 2.3)2 + (2.3− 2.3)2 = 4.805,

en∑

i=1

(mY |xi− yi)

2 = (4− 3.85)2 + (0.9− 0.75)2 + (2− 2.3)2 = 0.135,

così la realizzazione della statistica test èf =

4.805

0.135/1= 35.59.

Essendo 35.59 < 161.4, si rifiuta l’ipotesi di non linearità (indipendenza lineare) e quindi di buon adattamento delmodello lineare ai dati osservati.

M. Di Marzio 183 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 191: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

25Esercizi svolti

Esercizio 25.1. Data una v.c. doppia (X,Y ) con la seguente pdf condizionata:per x ∈ [0, 1

2 ]

fY |x(y) =

1

2x0 ≤ y ≤ 2x

0 altrimenti

mentre per x ∈ ( 12 , 1]

fY |x(y) =

1 1 ≤ y ≤ 0

0 altrimenti,

e date le seguenti pdf marginali

fX(x) =

8

3x se 0 ≤ x ≤ 1/2

4

3se 1/2 ≤ x ≤ 1,

determinare:

a) la stima del predittore lineare ottimo di Y tramite X;

b) l’errore di predizione.

Soluzione a) Per determinare la stima del predittore lineare ottimo occorre stimare i parametri β0 e β1 checompaiono nella sua espressione. Quindi, procediamo con il calcolare i valori attesi delle vv.cc. X ed Y

E[X] =

∫ 1

0

xfX(x)dx =

∫ 1/2

0

x8

3xdx+

∫ 1

1/2

x8

3

1

2dx =

1

9+

1

2=

11

18

e

E[Y ] =

∫ 1

0

yfY (y)dy =

∫ 1

0

y

(4

3− 2

3y

)dy =

∫ 1

0

4

3ydy −

∫ 1

0

2

3y2dy =

2

3− 2

9=

4

9,

e le varianze

Var[X] = E[X2]− (E[X])2 =31

72− 121

324=

37

648;

e

Var[Y ] = E[Y 2]− (E[Y ])2 =5

18− 16

81=

13

162.

Primi elementi di inferenza statistica (ed. maggio 2012) 184 M. Di Marzio

Page 192: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

25. ESERCIZI SVOLTI

Occorre ora calcolare la covarianza tra X e Y . Poiché la pdf congiunta è fXY (x, y) = fY |x(y)fX(x),quest’ultima risulta essere pari a 4

3 per 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1. Allora abbiamo che

E[XY ] =

∫ 1/2

0

∫ 2x

0

xy4

3dydx+

∫ 1

1/2

∫ 1

0

xy4

3dydx

=4

3

∫ 1/2

0

x

(y2

2

∣∣∣∣2x0

)dx+

4

3

∫ 1

1/2

x

(y2

2

∣∣∣∣10

)dx

=2

34

(x4

4

∣∣∣∣1/20

)+

2

3

(x2

2

∣∣∣∣11/2

)=

2

3

1

16+

2

3

(1

2− 1

8

)=

1

24+

1

4=

7

24.

La covarianza risulta allora

Cov[X,Y ] = E[XY ]− E[X]E[Y ] =7

24− 22

81=

13

648.

Si ottiene quindi

β1 =Cov[XY ]

Var[X]=

13

648× 648

37=

13

37

e

β0 = E[Y ]− β1E[X] =4

9− 13

37× 11

18=

17

74.

Così la stima del predittore lineare ottimo è

mY |x =13

37x+

17

74.

b) L’errore di predizione è ricavato come segue

EQMP[µY |x] = Var[Y | x]

= Var[Y ]

(1− (Cov[X,Y ])2

Var[Y ]Var[X]

)=

13

162

(1−

(13

648

)2162

13× 648

37

)= 0.073.

Esercizio 25.2. L’ufficio vendite di una grande azienda concede dilazioni di pagamento ai clienti in base alnumero di ordini da essi mensilmente effettuati. La direzione dell’azienda, per valutare la corretta gestionedella clientela da parte dell’ufficio, rileva il numero X di ordini effettuati da ciascun cliente nell’ultimo mesee la durata Y (giorni) delle dilazioni ad essi concesse. I dati sono riportati nella tabella seguente:

X

Y (1, 3] (3, 5] (5, 7] (7, 9]

7 8 4 2 0 14

14 4 6 0 0 10

21 0 5 4 11 20

28 0 0 6 10 16

12 15 12 21 60

a) Rappresentare i dati in tabella attraverso il diagramma di dispersione e tracciare la spezzata di regres-sione;

M. Di Marzio 185 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 193: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

b) determinare la stima del predittore lineare ottimo delle dilazioni tramite il numero degli ordini mensilieffettuati;

c) qual è la durata della dilazione di pagamento che ci si aspetta l’azienda concederà ad un cliente cheeffettua 10 ordini al mese?

Soluzione a) Per la rappresentazione grafica dei dati è necessario determinare, preventivamente, il valorecentrale delle classi di modalità del carattere X. Si ottiene, pertanto:

X

Y 2 4 6 8

7 8 4 2 0 14

14 4 6 0 0 10

21 0 5 4 11 20

28 0 0 6 10 16

12 15 12 21 60

Le stime del predittore lineare ottimo mY |xirisultano

mY |xiX

9.334 2

14.467 4

22.167 6

24.334 8

Il diagramma di dispersione dei dati e la spezzata di regressione sono rappresentanti nella figura 25.1.

0 2 4 6 80

5

10

15

20

25

30

Figura 25.1: Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo dell’esercizio25.2.

b) Poiché x = 5.4, y = 18.434, devx = 314.4, e codxy = 803.556, le stime dei parametri β1 e β0 del predittorelineare ottimo risultano rispettivamente:

b1 =codxydevx

=803.556

314.4= 2.56, b0 = y − b1x = 18.434− 2.56× 5.4 = 4.61,

e quindi la stima del predittore lineare ottimo è

mY |x = 4.61 + 2.56x.

Sempre nella 25.1 si può osservare il grafico del predittore lineare ottimo.c) Quindi, se un cliente effettua x = 10 ordini mensili, si può prevedere che gli verrà concessa una dilazionedella durata di

mY |10 = 4.61 + 2.56× 10 = 30.21 ≃ 30 giorni.

Primi elementi di inferenza statistica (ed. maggio 2012) 186 M. Di Marzio

Page 194: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

25. ESERCIZI SVOLTI

Esercizio 25.3. Una multinazionale, al fine di valutare l’efficienza nella gestione delle risorse umane imp-iegate nella produzione, rileva il numero X di addetti ai macchinari nel settore produzione e la quantitàprodotta Y da ciascuna macchina per completare il ciclo produttivo. I dati raccolti sono riportati nella tabellaseguente:

X

Y 6 7 8 9

38 8 5 3 0 16

44 3 4 0 0 7

51 3 5 3 4 15

57 1 1 2 3 7

60 0 0 2 3 5

15 15 10 10 50

a) Rappresentare i dati in tabella attraverso il diagramma di dispersione e stimare l’andamento delle mediedel carattere Y condizionate alle modalità di X attraverso la spezzata di regressione;

b) stimare il predittore lineare ottimo della quantità prodotta tramite il numero di addetti ai macchinari;

c) qual è la quantità che un macchinario produrrà se il numero di addetti è pari a 10?

Soluzione a) Per la costruzione della spezzata di regressione occorre determinare le medie condizionatemY |xi

:

mY |xiX

43.067 6

45.200 7

50.100 8

55.500 9

Diagramma di dispersione dei dati e la spezzata di regressione sono riportati nella figura 25.2.

5 6 7 8 9 1030

35

40

45

50

55

60

65

Figura 25.2: Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo.

b) Poiché x = 7.3, y = 47.6, devx = 60.5 e codxy = 251, le stime dei parametri del predittore lineare ottimosono rispettivamente:

b1 =codxydevx

=251

60.5= 4.15; b0 = y − b1x = 47.6− 4.15× 7.3 = 17.3.

Così abbiamomY |x = 17.3 + 4.15x.

M. Di Marzio 187 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 195: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Sempre nella figura 25.2 è riportato il grafico del predittore lineare ottimo.c) Quindi, se il numero di addetti a un macchinario è x = 10, la quantità che si prevede sarà prodotta dalmacchinario è

mY |10 = 17.3 + 4.15× 10 = 58.8.

Esercizio 25.4. Un centro di ricerca, nell’ambito di un’indagine sui livelli dei salari degli operai metalmec-canici, ha intervistato 20 operai di una grande azienda automobilistica, rilevando gli anni di lavoro X ed ilsalario Y annualmente percepito (migliaia di euro). L’elaborazione dei dati raccolti ha dato luogo ai seguentirisultati:

x = 10.5; y = 20; codxy = 340.6; devx = 234.4.

Stimare il predittore lineare ottimo del salario percepito dagli operai tramite gli anni di lavoro X.

Soluzione Le stime dei parametri del predittore lineare ottimo sono rispettivamente

b1 =codxydevx

=340.6

234.4= 1.45; b0 = y − b1x = 20− 1.45× 10.5 = 4.775.

Pertanto, la stima del predittore ottimo lineare risulta essere

mY |x = 4.775 + 1.45x;

si prevede quindi che una variazione di un anno nell’anzianità lavorativa degli operai determini un incrementoin media di 1450 euro nel salario annualmente percepito.

Esercizio 25.5. Nell’ambito di un’indagine sulla presenza delle aziende italiane nei mercati esteri, sonostati rilevati, su un campione di 10 aziende, il numero X di clienti esteri e l’ammontare Y delle esportazioni(migliaia di euro). L’indagine ha prodotto i risultati seguenti:

X 18 26 28 34 36 42 48 52 54 60

Y 54 64 54 62 68 70 76 66 76 74

a) Stimare il predittore lineare ottimo dell’ammontare delle esportazione tramite il numero di clienti esteri.

b) Assumendo che fY |xi= N (β0 + β1xi, 16), costruire l’intervallo di confidenza per il coefficiente di

regressione dell’ammontare delle esportazione sul numero di clienti esteri al livello 1− α = 90%.

Soluzione a) Poiché x = 39.8, y = 66.4, devx = 1683.6 e codxy = 840.8, le stime dei parametri del predittorelineare ottimo dell’ammontare delle esportazioni tramite il numero dei clienti esteri risultano rispettivamente:

b1 =codxydevx

=840.8

1638.6= 0.4994 e b0 = y − b1x = 66.4− 0.4994× 39.8 = 46.52.

Pertanto, la stima del predittore lineare ottimo delle esportazioni tramite il numero dei clienti esteri è

mY |x = 46.52 + 0.4994x.

b) L’ assunzione di normalità distributiva delle Yi equivale ad assumere che

B1 ∼ N(β1,

σ2

devx

).

Essendo nota la varianza condizionata σ2, la quantità pivotale cui ricorrere per la stima intervallare delcoefficiente di regressione di Y su X è data da

B1 − β1

σ/√devx

∼ N (0, 1) .

Pertanto, l’intervallo di confidenza per il coefficiente β1, al livello 1− α = 90% risulta:

P

(−zα/2 <

B1 − β1

σ/√devx

< zα/2

)= P

(B1 − zα/2σ/

√devx < β1 < B1 + zα/2σ/

√devx

)= 0.90.

essendo 1 − α = 0.90 e, dunque, α = 0.1, dalle tavole della normale standardizzata si ricavano i valori dellesoglie

±zα/2 = ±z0.05 = ±1.64.

Primi elementi di inferenza statistica (ed. maggio 2012) 188 M. Di Marzio

Page 196: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

25. ESERCIZI SVOLTI

Essendo√devx =

√10∑i=1

(xi − x)2= 41.03, sostituendo allo stimatore B1 la stima b1 = 0.4994 ottenuta

considerando le realizzazioni yi in precedenza osservate sul campione di aziende, l’intervallo di confidenza allivello del 90% per il coefficiente di regressione di Y su X risulta:

iβ1=

(0.4994− 1.64

4

41.03, 0.4994 + 1.64

4

41.03

)= (0.3395, 0.6593) .

Esercizio 25.6. La società capogruppo di un gruppo aziendale, al fine di verificare la corretta applicazione diuna strategia di rinnovamento della struttura tecnico-produttiva dettata alle sue controllate, ha rilevato per 5di esse il numero X di nuovi macchinari acquistati e l’incremento Y della produzione realizzato nell’ultimomese:

X 1 2 3 5 10

Y 102 192 270 410 760

a) Stimare il predittore lineare ottimo dell’incremento della quantità prodotta tramite il numero dei macchi-nari introdotti.

b) Posto fY |xi= N (β0+β1xi, σ

2), costruire l’intervallo di confidenza per il coefficiente di regressione dellaquantità prodotta sul numero di macchinari introdotti dalle aziende al livello 1− α = 95%.

Soluzione a) Poiché x = 4.2, y = 346.8, devx = 50.8 e codxy = 3663.2, le stime dei parametri del predittorelineare ottimo dell’incremento della quantità prodotta risultano, rispettivamente,

b1 =codxydevx

=3663.2

50.8= 72.11 e b0 = y − b1x = 346.8− 72.11× 4.2 = 43.937.

Pertanto, la stima del predittore lineare ottimo dell’ incremento della quantità prodotta tramite il numerodei macchinari introdotti è

mY |x = 43.937 + 72.11x.

b) Accogliendo l’ipotesi di normalità distributiva delle v.c. Yi lo stimatore B1 avrà distribuzione:

B1 ∼ N(β1,

σ2

devx

)e la quantità pivotale cui ricorrere per la costruzione dell’ intervallo di confidenza del coefficiente di regressione,essendo incognito σ2, risulta:

B1 − β1

S/√devx

,

che ha approssimativamente distribuzione t di Student con n− 2 gradi di libertà, con

S =

√∑ni=1(mY |xi

− Yi)2

n− 2

lo stimatore dell s.q.m. condizionato.Pertanto, l’intervallo di confidenza per il coefficiente β1, al livello 1− α = 95% risulta:

P

(−tα/2,n−2 <

B1 − β1

S/√devx

< tα/2,n−2

)= P

(B1 − tα/2,n−2S/

√devx < β1 < B1 + tα/2,n−2S/

√devx

)= 0.95.

Sulle tavole della t di Student, in corrispondenza del valore α/2 = 0.025 e dei gradi di libertà n−2 = 5−2 = 3,si individuano i valori ±tα/2,n−2 = ±t0.025,3 = ±3.182.Essendo

s =

√∑ni=1(mY |xi

− yi)2

n− 2=

√364.3133

5− 2= 11.02

e

devx =

√√√√ n∑i=1

(xi − x)2= 7.127,

sostituendo allo stimatore B1 la stima b1 = 72.11, l’intervallo di confidenza al livello del 95% per il coefficientedi regressione di Y su X risulta:

iβ1 =

(72.11− 3.182

11.02

7.127, 72.11 + 3.182

11.02

7.127

)= (67.19, 77.03) .

M. Di Marzio 189 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 197: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Esercizio 25.7. Un’azienda, al fine di valutare l’entità delle risorse monetarie da destinare alla pubblicitàdei suoi prodotti, ha riconsiderato l’ammontare X (migliaia di euro) degli investimenti effettuati in campagnepubblicitarie e l’incremento Y (migliaia di euro) di fatturato realizzato con riferimento agli ultimi 5 anni diattività:

X 2 4 6 8 10

Y 18 26 16 34 36

Sulla base delle osservazioni compiute, l’azienda ritiene che l’incremento di fatturato potenzialmente realizz-abile sia legato all’entità degli investimenti effettuati in campagne pubblicitarie da una relazione di dipendenzalineare.

a) Determinare la stima del coefficiente di regressione dell’incremento di fatturato sull’entità degli inves-timenti in pubblicità.

b) Assumendo che fY |xi= N (β0 + β1xi, 36), verificare l’ipotesi H0 : β1 = 4 contro l’ipotesi alternativa

bidirezionale H1 : β1 = 4, al livello di significatività α = 0.01.

Soluzione a) Essendo devx = 40 e codxy = 88, la stima del coefficiente di regressione dell’incremento difatturato sull’ammontare degli investimenti in campagne pubblicitarie risulta:

b1 =codxydevx

=88

40= 2.2.

b) Essendo nota la devianza condizionata σ2, la statistica test da impiegare per saggiare l’ipotesi nulla è:

B1 − β10

σ/√devx

che ha distribuzione N (0, 1).

Essendo σ =√36 = 6 e

√devx =

√n∑

i=1

(xi − x)2=

√40 = 6.32, la realizzazione campionaria della statistica

test sotto l’ipotesi nulla risulta:

z =2.2− 4

6/6.32= −1.89.

Dalle tavole della normale standard si ricava zα/2 = z0.005 = 2.57 e, poiché |z| < zα/2 si accetta, al livellodi significatività prescelto, l’ipotesi nulla in base alla quale l’incremento di 1000 euro degli investimenti inpubblicità determina in media un incremento di 4000 euro nell’ammontare di fatturato annuo.

Esercizio 25.8. L’ufficio vendite di una grande azienda ha rilevato, con riferimento ad un campione diordini di acquisto, il valore X (migliaia di euro) delle forniture richieste ed il ritardo Y (giorni) nel relativopagamento da parte dei clienti.

X 9 6 8 5

Y 5 3 5 3

L’ufficio vendite ritiene che i ritardi nel pagamento degli ordini di acquisto sia legato al loro ammontare dauna relazione di dipendenza lineare.

a) Determinare la stima del coefficiente di regressione del ritardo nei pagamenti da parte dei clientisull’ammontare degli ordini di acquisto.

b) Assumendo che fY |xi= N (β0 + β1xi, σ

2), verificare l’ipotesi H0 : β1 = 0.5 contro l’ipotesi alternativaunidirezionale H1 : β1 > 0.5, al livello di significatività α = 0.2.

Soluzione a) Poiché devx = 10 e codxy = 6, la stima dei minimi quadrati del coefficiente di regressione chedescrive la dipendenza lineare tra il ritardo nei pagamenti da parte dei clienti e l’ammontare degli ordini diacquisto risulta:

b1 =codxydevx

=6

10= 0.6.

b) Essendo incognito σ2 la statistica test da adottare per saggiare l’ipotesi nulla è:

β∗1 − β10

S/√devx

Primi elementi di inferenza statistica (ed. maggio 2012) 190 M. Di Marzio

Page 198: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

25. ESERCIZI SVOLTI

che si distribuisce come una t di Student con n− 2 = 4− 2 = 2 gradi di libertà.Essendo √

devx =

√√√√ n∑i=1

(xi − x)2=

√10 = 3.16

e

s =

√∑ni=1(mY |xi

− Yi)2

n− 2=

√0.4

2= 0.447

la realizzazione campionaria della statistica test sotto l’ipotesi nulla risulta:

t =0.6− 0.5

0.447/3.16= 0.7.

Dalle tavole della t di Student si ricava il valore soglia della regione di rifiuto tα,n−2 = t0.2,2 = 1.061, e poichérisulta t < 1.061, si accetta l’ipotesi nulla al livello di significatività prescelto.

Esercizio 25.9. Una multinazionale, al fine di valutare le politiche di gestione del personale adottate dallesue filiali, ha rilevato per 5 di esse l’ammontare X (migliaia di euro) degli investimenti in nuove tecnologieed il numero Y di dipendenti licenziati con riferimento all’ultimo anno. I risultati ottenuti sono riportati diseguito:

X 10 15 20 25 30

Y 2 4 3 6 5

a) Stimare il predittore lineare ottimo del numero dei dipendenti licenziati tramite l’ammontare degliinvestimenti in nuove tecnologie.

b) Verificare a livello 1−α = 0.95 l’ipotesi di indipendenza lineare del numero dei licenziamenti dall’entitàdegli investimenti in nuove tecnologie.

Soluzione a) Poiché x = 20, y = 4, devx = 250 e codxy = 40, le stime dei parametri del predittore lineareottimo del numero dei licenziamenti risultano rispettivamente:

b1 =codxydevx

=40

250= 0.16 e b0 = y − b1x = 4− 0.16× 20 = 0.8.

Pertanto, la stima della funzione di regressione del numero dei licenziamenti sull’ammontare degli investimentiin nuove tecnologie è

mY |x = 0.8 + 0.16x,

ottenendo:

xi 10 15 20 25 30

yi 2 4 3 6 5

mY |xi2.4 3.2 4 4.8 5.6

b) L’ipotesi da sottoporre a verifica è H0 : β1 = 0. La statistica test cui ricorrere per la verifica di ipotesi è:

F =

∑ni=1(mY |xi

− y)2∑ni=1(mY |xi

− yi)2/(n− 2)

che sotto l’ipotesi di indipendenza formulata ha distribuzione F di Fisher con 1 e n− 2 = 5− 2 = 3 gradi dilibertà.Quindi la statistica test, in corrispondenza del campione osservato, risulta:

f =6.4/1

3.6/3= 5.333.

Dalle tavole della F di Fisher, in corrispondenza di 1 e 3 gradi di libertà e del livello α = 0.05, si ricava il valoredella soglia della zona di rifiuto f0.05;1;3 = 10.13. Poiché f < f0.05;1;3, si accetta l’ipotesi di indipendenzalineare del numero di licenziamenti dall’ammontare degli investimenti in nuove tecnologie.

M. Di Marzio 191 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 199: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Esercizio 25.10. Dimostrare che lo stimatore dei minimi quadrati B0 è il più efficiente nella classe deglistimatori lineari e corretti di β0.

Soluzione Per dimostrare che B0 è il più efficiente nella classe degli stimatori lineari non distorti occorredimostrare che Var[B0] è uniformemente minima rispetto alla varianza di ogni stimatore lineare non distortodi β0. Chiaramente, poichè le Yi sono vv.cc. indipendenti e Var[Yi] = σ2 per oni i ∈ 1, 2, ..., n risulta

Var[B0] = Var[ n∑i=1

ciYi

]= σ2

n∑i=1

c2i .

Si consideri ora un generico stimatore T =∑n

i=1 uiYi tale che E[T ] = β0. Siccome

E[T ] = E[ n∑i=1

uiYi

]

=n∑

i=1

uiE[Yi] =n∑

i=1

ui(β0 + β1xi)

= β0

n∑i=1

ui + β1

n∑i=1

uixi,

allora dovrà risultaren∑

i=1

ui = 1 en∑

i=1

uixi = 0.

La varianza di T è invece

Var[T ] = Var[ n∑i=1

uiYi

]= σ2

n∑i=1

u2.

Ricordando che B0 =∑n

i=1 ciYi, e posto

ui = ci +∆i per ogni i ∈ 1, 2, ..., n,

dovrà aversin∑

i=1

ci +n∑

i=1

∆i = 1 en∑

i=1

cixi +n∑

i=1

∆ixi = 0,

ma poiché, essendo B0 corretto, si han∑

i=1

ci = 1 en∑

i=1

cixi = 0

dovrà risultaren∑

i=1

∆i = 0 en∑

i=1

∆ixi = 0.

Si ha alloran∑

i=1

u2i =

n∑i=1

(ci +∆i)2

=

n∑i=1

c2i +

n∑i=1

∆2i + 2

n∑i=1

ci∆i,

e essendo

2n∑

i=1

ci∆i =n∑

i=1

(1

n− x(xi − x)∑n

i=1(xi − x)2

)∆i

=n

n

n∑i=1

∆i −x∑n

i=1(xi − x)∆i∑ni=1(xi − x)2

= 0− x

∑ni=1 xi∆i − x

∑ni=1 ∆i∑n

i=1(xi − x)2

= −x0− 0∑n

i=1(xi − x)2= 0,

Primi elementi di inferenza statistica (ed. maggio 2012) 192 M. Di Marzio

Page 200: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

25. ESERCIZI SVOLTI

risultan∑

i=1

u2i =

n∑i=1

c2i +n∑

i=1

∆2i

e quindin∑

i=1

c2i ≤n∑

i=1

u2i .

Ricordando allora che Var[T ] = σ2∑n

i=1 u2i e Var[B0] = σ2

∑ni=1 c

2i , si conclude che

Var[B0] ≤ Var[T ],

e quindi B0 ha varianza minima nella classe degli stimatori lineari corretti di β0. Esercizio 25.11. Determinare le varianze degli stimatori dei minimi quadrati B0 e B1 dei parametri β0 eβ1 del predittore lineare ottimo.

Soluzione Poiché B0 =n∑

i=1

ciYi e B1 =n∑

i=1

diYi, dove

ci =1

n− x(xi − x)∑n

i=1(xi − x)2e di =

xi − x∑ni=1(xi − x)2

,

ed essendo Var[Yi] = σ2, si ha

Var[B0] = Var[ n∑i=1

ciYi

]= σ2

n∑i=1

c2i

= σ2n∑

i=1

(1

n− x(x− x)∑n

i=1(xi − x)2

)2

= σ2n∑

i=1

(1

n2+

x2(x− x)2∑ni=1(xi − x)4

− 2x(x− x)

n∑n

i=1(xi − x)2

)= σ2

(n

n2+

x2∑n

i=1(xi − x)2∑ni=1(xi − x)4

−2x∑n

i=1(x− x)

n∑n

i=1(xi − x)2

)= σ2

(1

n+

x2∑ni=1(xi − x)2

)= σ2

(∑ni=1(xi − x)2 + nx2

n∑n

i=1(xi − x)2

)= σ2

(∑ni=1 x

2i + nx2 − 2x

∑ni=1 xi + nx2

n∑n

i=1(xi − x)2

)= σ2

(∑ni=1 x

2i + 2nx2 − 2x

∑ni=1 xi

n∑n

i=1(xi − x)2

)= σ2

(∑ni=1 x

2i + 2x(nx−

∑ni=1 xi)

n∑n

i=1(xi − x)2

)= σ2

∑ni=1 x

2i

n∑n

i=1(xi − x)2

e

Var[B1] = Var[ n∑i=1

diYi

]= σ2

n∑i=1

d2i

= σ2n∑

i=1

(xi − x∑n

i=1(xi − x)2

)2

= σ2

∑ni=1(xi − x)2∑ni=1(xi − x)4

=σ2∑n

i=1(xi − x)2.

M. Di Marzio 193 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 201: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26Affidabilità

Indice26.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19426.2 Andamenti tipici del tasso di guasto . . . . . . . . . . . . . . . . . . . . . . . . . 19526.3 Tasso di guasto di alcune variabili casuali continue . . . . . . . . . . . . . . . . 19626.4 Stima della durata media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19826.5 Sistemi complessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20026.6 Sistemi in serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20026.7 Sistemi in parallelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20126.8 Sistemi in serie con parti positivamente correlate . . . . . . . . . . . . . . . . . 20126.9 Sistemi in parallelo con parti positivamente correlate . . . . . . . . . . . . . . . 202

26.1 DefinizioniL’affidabilità di un prodotto si definisce come l’attitudine dello stesso a svolgere una certa funzione sottoprefissate condizioni operative, e per un dato periodo di tempo. Obiettivo primario della teoria dell’affidabilitàè lo studio della durata di funzionamento.Dal punto di vista statistico la durata di funzionamento – cioè il tempo di attesa di un guasto – può essereconcepito come la realizzazione di una variabile casuale T continua e non negativa. La pdf di T , fT , è chiamatafunzione di densità di guasto. Inoltre la funzione di ripartizione di T è chiamata funzione di inaffidabilità,infatti FT (t) = P(T ≤ t) esprime la probabilità di durata inferiore o uguale a t. Per converso la (funzionedi) affidabilità è definita come

R(t) = 1− FT (t),

essa fornisce la probabilità di sopravvivere al tempo t.Consideriamo il caso di funzionamento senza guasti fino al tempo t, vogliamo conoscere la probabilità cheil guasto avvenga entro un brevissimo intervallo di tempo (t, t + dt). Chiaramente stiamo cercando unaprobabilità condizionata che può esprimersi come:

P(T ∈ (t, t+ dt)|T > t) =P(T ∈ (t, t+ dt) ∩ T > t)

P(T > t)

=P(T ∈ (t, t+ dt))

1− FT (t)

=fT (t)dt

1− FT (t)

= λ(t)dt.

La funzione di densità condizionataλ (t) =

fT (t)

1− FT (t)

è chiamata tasso (istantaneo) di guasto, ed esprime l’attitudine al guasto al tempo t a condizione chefino ad allora non se ne sia verificato alcuno. Ciò a differenza di fT (t), che è proporzionale alla probabilità diguasto in t indipendentemente da quanto avvenuto in precedenza.

Primi elementi di inferenza statistica (ed. maggio 2012) 194 M. Di Marzio

Page 202: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26. AFFIDABILITÀ

Ricaviamo adesso una relazione importante per cui a partire da λ(t) si ottiene FT (t). Per definizione

λ (s) =fT (s)

1− FT (s)

=F′T (s)

1− FT (s)

= − d

dslog(1− FT (s)).

Integrando entrambi i membri tra 0 e t, si ottiene∫ t

0

λ(s)ds = − log(1− FT (t)) + log(1− FT (0))

= − log(1− FT (t))

infatti log(1− FT (0)) = 0 poché la durata è descritta da una v.c. positiva per cui FT (0) = 0. Moltiplicandoper −1 e risolvendo rispetto a 1− FT (t) si ha

exp

−∫ t

0

λ(s)ds

= 1− FT (t).

Così abbiamo che

R(t) = exp

−∫ t

0

λ(s)ds

e FT (t) = 1− exp

−∫ t

0

λ(s)ds

.

Quindi se conosciamo il tasso di guasto possiamo risalire alla relativa funzione di ripartizione.Infine un’altra grandezza molto importante è la durata media di funzionamento definita come il valoreatteso della funzione di densità di guasto

E[T ] =

∫ +∞

0

t fT (t)dt.

Nell’ambito della teoria dell’affidabilità l’inferenza si basa su un campione casuale reperito da una popolazionedi oggetti le cui durate sono considerabili vv.cc. i.i.d.. La distribuzione comune delle durate di tutti glioggetti si suppone nota a meno di un parametro θ. L’obiettivo è stimare θ, infatti questo renderà possibileapprossimare importanti caratteristiche incognite di T come λ(t) e E[T ].

26.2 Andamenti tipici del tasso di guastoIl tasso di guasto è uno strumento molto adatto per valutare un oggetto lungo l’intero periodo di funzion-amento. Spesso vengono utilizzate rappresentazioni grafiche del tasso di guasto poiché offrono una visionesemplice e intuitiva del comportamento del prodotto. Infatti grazie a queste è possibile stabilire, in modovisivo, se il prodotto invecchia prematuramente, se ha alta probabilità di guasto all’inizio della propria vitautile, ecc.. Una tipica curva tasso di guasto per componenti elettronici (che hanno un periodo di funzion-amento in assenza di usura) è rappresentata nella figura 26.1, dove si può osservare che durante tutta la

Figura 26.1: Tipica funzione tasso di guasto per componenti elettronici.

vita del prodotto esiste una probabilità costante di guasto dovuta a fattori casuali esterni. Inoltre nella

M. Di Marzio 195 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 203: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26.3. Tasso di guasto di alcune variabili casuali continue

fase iniziale si aggiunge la probabilità di guasto prematuro dovuta a difetti di produzione, chiaramente taleprobabilità decresce col tempo fino ad annullarsi dopo poco. Nella fase centrale (o di maturità) si verificail funzionamento in assenza di difetti produttivi e nel pieno dell’efficienza: il guasto è solo dovuto a fattoricasuali esterni. Infine nella fase finale, quando il pezzo comincia ad invecchiare, al danneggiamento casualesi aggiunge una probabilità di guasto crescente perché l’usura aumenta al passare del tempo.Rispetto ai componenti elettronici, la curva del tasso di guasto per componenti meccanici può essere diversa,la figura 26.2 ne riporta un esempio tipico. La seconda fase ha una durata molto minore, e la fase di usurainizia presto ma determina una pendenza meno accentuata, infatti per il componente meccanico l’usurainsorge molto presto ma non porta troppo velocemente all’inefficienza.

Figura 26.2: Tipica funzione tasso di guasto per componenti meccanici.

26.3 Tasso di guasto di alcune variabili casuali continueAbbiamo appreso che la durata di vita T è una v.c. continua e non negativa. Così ogni v.c. continua lacui funzione di densità fornisce probabilità non nulle solo per valori positivi, può essere usata come modelloteorico della durata di vita. Di conseguenza per ognuna di tali densità si possono ricavare funzione di tassodi guasto e durata media. Di seguito studiamo le vv.cc. normale, uniforme e esponenziale come modelli didurata.

⋄ Se T ∼ N (µ, σ2), allora T può assumere anche valori negativi: questo comporta che una probabilitàdi guasto positiva risulta definita anche per tempi negativi. Così non tutte le possibili vv.cc. normalicostituiscono un modello ammissibile, ma solo quelle che hanno una media sufficientemente più grandedella varianza di modo che la quasi totalità della densità risulti distribuita sul semiasse positivo deireali. La funzione di tasso di guasto associata alla densità normale è così definita

λ(t) =fT (t)

1− FT (t)=

(σ√2π)−1 exp

− (t− µ)2

2σ2

1− Φ(t)

.

In quanto sempre crescente, il tasso di guasto della normale può essere utilizzato se il guasto è dovutoesclusivamente a fenomeni di usura. Nella figura 26.3 è rappresentata la funzione tasso di guasto per

0

0.2

0.4

0.6

0.8

1

t

λ(t)

σ = 1.5

σ = 1

σ =0.5

µ

Figura 26.3: Funzioni tasso di guasto per la densità normale con σ = 0.5, 1, 1.5.

la densità normale al variare dello s.q.m.. Se lo s.q.m. è molto basso, fino a poco prima della media il

Primi elementi di inferenza statistica (ed. maggio 2012) 196 M. Di Marzio

Page 204: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26. AFFIDABILITÀ

tasso di guasto è quasi piatto poiché la probabilità di rottura fino a quel punto è molto ridotta, mentrein corrispondenza di un suo intorno aumenta drasticamente. Se invece lo s.q.m. è alto i tempi di rotturanon sono concentrati e si possono verificare anche molto prima o molto dopo la media. Questo generauna funzione più o meno lineare. In definitiva, la forma complessiva della funzione descrive una curvatanto meno concava quanto più lo s.q.m. è basso.

⋄ Se T ∼ E(θ), la corrispondente funzione tasso di guasto è:

λ(t) =fT (t)

1− FT (t)=

θe−θt

1− (1− e−θt)= θ.

Nella figura 26.4 è rappresentata la funzione tasso di guasto per la densità esponenziale al variare del

0

0.5

1

1.5

2

t

λ(t)

θ=0.5

θ=1

θ=1.5

Figura 26.4: Funzioni tasso di guasto per la densità esponenziale con θ = 0.5, 1, 1.5.

parametro θ. Come si vede, essa è costante, così rappresenta perfettamente una fase di vita del prodottodove solo i danneggiamenti casuali hanno influenza sulla durata (spesso si tratta della fase centrale).Certamente un tasso di guasto costante è un modo alternativo di definire l’assenza di memoria dellapdf esponenziale. L’ampio uso pratico della pdf esponenziale è teoricamente giustificato dal teorema diDrenick, che in affidabilità è l’analogo del teorema centrale del limite. Esso stabilisce che per un sistemacostituito da numerosi oggetti le cui curve di affidabilità sono diverse, all’aumentare del numero deicomponenti il tasso di guasto di lungo periodo dell’intero sistema tende ad essere costante nel tempo,per cui la durata del sistema è rappresentabile da una distribuzione esponenziale.

⋄ Se T ∼ U(a, b), la funzione di tasso di guasto corrispondente è:

λ(t) =fT (t)

1− FT (t)=

1/(b− a)

1− (t− a)/(b− a)=

1

b− t.

Nella figura 26.5 è rappresentata la funzione tasso di guasto per la densità U(0, b) al variare di b. Nel

0 0.5 1 1.5 2 2.5 3 3.5−20

0

20

40

60

80

100

120

t

λ(t)

b=1 b=2 b=3

Figura 26.5: Funzioni tasso di guasto per la densità uniforme con b = 1, 2, 3.

caso della uniforme il tasso di guasto presenta un asintoto verticale in corrispondenza dell’estremosuperiore del supporto; questo perché se la durata è uniforme con parametri a e b, e se fino a prima di bl’oggetto non si è ancora guastato, in b si deve per forza guastare. Così viene modellata la circostanzainsolita di avere una durata massima nota a priori. Per via della sua forma, questo modello di tasso diguasto detiene scarsa rilevanza pratica.

M. Di Marzio 197 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 205: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26.4. Stima della durata media

26.4 Stima della durata media

Consideriamo una popolazione di oggetti che hanno durate descritte da vv.cc. i.i.d.. Ipotizziamo che leconoscenze a priori permettano di specificare una data famiglia parametrica di pdf per la v.c. durata. In par-ticolare una specificazione spesso ricorrente riguarda la famiglia esponenziale θe−θt, θ > 0, t ≥ 0. L’obiettivoè stimare il parametro θ e di conseguenza la durata media 1/θ. Esistono diversi metodi di campionamento,in corrispondenza di ciascuno dei quali è definito uno stimatore di massima verosimiglianza di θ.

⋄ Campionamento con prove simultanee La realizzazione campionaria si ottiene mettendo a fun-zionare n oggetti simultaneamente, registrando i tempi di durata ad ogni guasto, e interrompendol’esperimento quando si siano guastati r oggetti. Le durate ottenute si dispongono in ordine non de-crescente, di conseguenza in questo caso l’i-esimo oggetto del campione è quello che si guasta al tempo ti,che a sua voltà è l’i-esimo tempo più breve. Otteniamo ora uno stimatore della durata media col meto-do della massima verosimiglianza. La funzione di verosimiglianza è la probabilità della realizzazionecampionaria intesa come funzione del parametro, e quindi, in questo caso, il prodotto dei seguenti duefattori

1) La densità associata a r oggetti che abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr, cioè∏r

j=1 θe−θtj ,

2) La probabilità che i restanti n− r durino più di tr cioè (1− FT (tr))n−r = (e−θtr )n−r.

In definitiva si ha:

L(θ; t1, t2, ..., tr) = (e−θtr )n−rr∏

j=1

θe−θtj

= θre−(n−r)θtre−θ∑r

j=1 tj

= θr exp

−θ

r∑j=1

tj + (n− r)tr

;

per cui

L(θ; t1, t2, ..., tr) = r log θ − θ

[ r∑j=1

tj + (n− r)tr

],

derivando e uguagliando a zero si ha

∂L(θ; t1, t2, ..., tr)∂θ

=r

θ−

r∑j=1

tj − (n− r)tr = 0

risolvendo per 1/θ si ottiene la stima di massima verosimiglianza della media

1

θ=

r∑j=1

tj + (n− r)tr

r.

⋄ Campionamento con interruzione prefissata Questo caso è simile al precedente, l’unica differenzaè che l’esperimento si interrompe ad un tempo prefissato T. La realizzazione campionaria utile perstimare θ è generata facendo funzionare n oggetti contestualmente, a differenza di prima, però, ilcampionamento termina al tempo T. Qui la funzione di verosimiglianza è il prodotto tra

1) la densità che r oggetti abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr ≤ T, cioè∏r

j=1 θe−θtj ,

2) la probabilità che i restanti n− r durino più di T, cioè e−θT(n−r).

In definitiva si ha:

L(θ; t1, t2, ..., tr) =

r∏j=1

θe−θtj × e−θT(n−r)

= θr exp−θr∑

j=1

tj + (n− r)T,

Primi elementi di inferenza statistica (ed. maggio 2012) 198 M. Di Marzio

Page 206: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26. AFFIDABILITÀ

per cui

L(θ; t1, t2, ..., tr) = r log θ − θ

[ r∑j=1

tj + (n− r)T

].

Derivando e uguagliando a zero si ricava

∂L(θ; t1, t2, ..., tr)∂θ

=r

θ−[ r∑j=1

tj + (n− r)T

]= 0

così, risolvendo per 1/θ, si perviene alla stima di massima verosimiglianza

1

θ=

r∑j=1

tj + (n− r)T

r.

⋄ Campionamento con prove sequenziali A differenza dei due casi precedenti, dove le prove sonocontestuali, in questo caso il campionamento impone prove successive. Immaginiamo di disporre di unariserva infinita di oggetti e di esaminarli uno dopo l’altro, mettendone in funzione uno nuovo ogni voltache il precedente si guasta; l’esperimento termina al tempo prefissato T. Se entro T si sono guastati roggetti, i nostri dati sono le durate t1, t2, ..., tr. Si noti che, a differenza di prima, qui l’i-esimo oggettonon è l’oggetto dalla i-esima durata più breve, ma l’ i-esimo messo in funzione.

Anzitutto se il numero di guasti è pari ad r, allora∑r

i=1 ti < T e tr+1 > T −r∑

i=1

ti. Così i due fattorisono:

1) la densità associata a r oggetti che abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr tali che∑r

i=1 ti < T,cioè

∏rj=1 θe

−θtj ,

2) la probabilità che tr+1 > T−r∑

i=1

ti, cioè e−θ(T−∑r

j=1 tj).

Di conseguenza la funzione di verosimiglianza è:

L(θ; t1, t2, ..., tr) =r∏

j=1

θe−θtj × e−θ(T−∑r

j=1 tj)

= θre−θ∑r

j=1 tj−θT+θ∑r

j=1 tj

= θre−θT,

di conseguenzaL(θ; t1, t2, ..., tr) = r log θ − θT.

Derivando e uguagliando a zero si ha

∂L(θ; t1, t2, ..., tr)∂θ

=r

θ− T = 0

quindi risolvendo per 1/θ si ottiene la stima di massima verosimiglianza

1

θ=

T

r.

quando la durata è descritta da una densità esponenziale, a seconda del disegno campionario considerato, glistimatori di massima verosimiglianza del tempo medio di funzionamento nei casi trattati sono:

1

θ=

∑rj=1 tj + (n− r)tr

r∑rj=1 tj + (n− r)T

rT

r.

Il numeratore di ciascuna espressione è chiamato total time on test cioè, a ben vedere, indica il tempototale di funzionamento degli oggetti considerati nell’esperimento. In questo senso tutte le stime di massimaverosimiglianza condividono una stessa logica: il tempo medio di funzionamento è espresso come il tempototale di funzionamento degli oggetti considerati nel campione diviso per il numero r dei guasti osservati.

M. Di Marzio 199 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 207: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26.5. Sistemi complessi

26.5 Sistemi complessi

Per sistema complesso si intende un insieme di elementi interconnessi. Il problema che ci poniamo è misurarel’affidabilità del sistema complesso. Appare generalmente indicato basarsi sullo studio dell’affidabilità dellesingole componenti. La rappresentazione del legame affidabilistico tra queste ultime avviene tramite lostrumento del diagramma a blocchi. Il diagramma è sempre formato da un insieme di blocchi collegati daponti tale che esiste almeno un cammino blocchi-ponti che collega due blocchi particolari, detti rispettivamenteingresso e uscita.L’interpretazione del diagramma a blocchi è la seguente. Se una componente è guasta ogni cammino che lainclude è interrotto in quel punto, mentre il sistema funziona fino a che vi sia un cammino non interrotto trail punto di ingresso e il punto di uscita.Il diagramma può anche essere interpretato come un sistema elettrico dove i singoli componenti sono inter-ruttori. Se un interruttore è aperto, di lì l’elettricità non passa. Così l’elettricità attraversa il sistema solo seesiste un cammino tra l’ingresso e l’uscita formato da interruttori chiusi.

Esempio 26.1. Come esempio si consideri il sistema complesso rappresentato nella figura 26.6 dove le linee rap-presentano i ponti, i rettangoli i blocchi, la figura circolare a sinistra l’entrata e quella a destra l’uscita. Il sistema

Figura 26.6: Sistema complesso con 6 componenti.

non funziona se è guasto almeno uno dei componenti con etichetta appartenente all’insieme 1, 2, 3, 6, oppure se siail blocco 4 sia il blocco 5 sono guasti. Se invece è guasto solo il blocco 5, oppure è guasto solo il blocco 4 il sistemafunziona.

26.6 Sistemi in serie

Una relazione affidabilistica molto ricorrente tra componenti di sistemi complessi è la disposizione in serie.In questo caso perché il sistema non funzioni è sufficiente che uno solo dei componenti sia guasto. Nellafigura 26.7 è rappresentato il diagramma a blocchi relativo a un sistema con quattro componenti in serie.Come detto, il sistema in serie funziona solo se tutte le parti funzionano. Pertanto, se le durate in vita delle

Figura 26.7: Sistema in serie con 4 componenti.

componenti sono indipendenti, allora l’affidabilità del sistema è pari al prodotto delle rispettive affidabilità

RS(t) = R1(t)× R2(t)× ...× Rn(t),

dove RS(t) è l’affidabilità al tempo t del sistema S, e Ri(t) l’affidabilità al tempo t della i-esima tra le ncomponenti.Si noti che se t > 0, allora Ri(t) < 1, quindi con l’aumentare delle parti l’affidabilità del sistema diminuisce.Così per aumentare l’affidabilità del sistema o si utilizzano componenti maggiormente affidabili, oppure siriduce il numero delle componenti.Chiaramente, se le singole funzioni di affidabilità sono diverse tra loro, RS(t) può rivelarsi complessa. Tuttavia,se vale l’assunzione che le funzioni di densità di guasto sono esponenziali, allora si ottiene una formulazionemolto semplice. Infatti, se abbiamo un sistema in serie con n componenti le cui rispettive densità di guastosono fi(t) = λie

−λit per i = 1, 2, ..., n, allora la i-esima affidabilità è pari a

Ri(t) = 1− Fi(t)

= 1− (1− e−λit)

= e−λit

Primi elementi di inferenza statistica (ed. maggio 2012) 200 M. Di Marzio

Page 208: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26. AFFIDABILITÀ

di conseguenza l’affidabilità del sistema sarà

RS(t) = e−λ1t × e−λ2t × ...× e−λnt

= exp

(−t

n∑i=1

λi

).

Essendo FS(t) = 1− RS(t), la funzione di densità di guasto del sistema è pari a

fS(t) =dFS(t)

dt

= 0− d

dtexp

(−t

n∑i=1

λi

)

=n∑

i=1

λi exp

(−t

n∑i=1

λi

)

che è una pdf esponenziale con parametro λS =∑n

i=1 λi pertanto il tasso di guasto è

λS(t) =n∑

i=1

λi

(la notazione dell’equazione sopra potrebbe essere un po’ fuorviante poiché in effetti in questo caso particolareil tasso di guasto non dipende dal tempo). Infine si deduce facilmente il tempo medio di funzionamento, cioè1/∑n

i=1 λi.

26.7 Sistemi in parallelo

Un sistema è definito in parallelo se può considerarsi non funzionante solo quando tutti i blocchi tra entratae uscita sono guasti. In figura 26.8 è rappresentato il diagramma a blocchi di un sistema in parallelo di 3componenti. In un sistema in parallelo ogni componente garantisce le prestazioni richieste al sistema anche

Figura 26.8: Sistema in parallelo con 3 componenti.

se tutti gli altri componenti sono guasti. Ovviamente è molto costoso, infatti ad una funzione che è in gradodi svolgere un singolo componente sono dedicati più componenti. La formula dell’affidabilità di un sistema inparallelo può esprimersi come il complemento a 1 della probabilità che tutti i componenti siano guasti. Così,se le durate sono indipendenti si ha:

RS(t) = 1−n∏

i=1

Fi(t),

dove RS(t) è l’affidabilità del sistema S al tempo t, e Fi(t) la probabilità di guasto entro tempo t associataalla i-esima tra le n componenti. Per definizione Fi(t) < 1, quindi l’affidabilità di S aumenta col numerodelle componenti o con l’affidabilità delle singole.

26.8 Sistemi in serie con parti positivamente correlate

Consideriamo un sistema con due componenti, a e b, e indichiamo con A e B i rispettivi eventi di rottura.Se abbiamo una configurazione in serie l’affidabilità del sistema è definita come P(A∩ B). Ora indichiamo leprobabilità di guasto come segue:

pA = P(A) e pB = P(B).

M. Di Marzio 201 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 209: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

26.9. Sistemi in parallelo con parti positivamente correlate

Se i due componenti sono positivamente correlati, la probabilità condizionata che a si guasti quando si è giàguastato b deve essere maggiore o uguale alla probabilità che a si guasti, cioè

P(A|B) ≥ P(A).

Egualmente, la correlazione positiva implica che P(A|B) ≥ P(A), ma dato che P(A ∩ B) = P(A | B)P(B), diconseguenza

P(A ∩ B) ≥ P(A)P(B) = (1− pA)(1− pB),

questo significa che l’affidabilità P(A ∩ B) di un sistema in serie è maggiore o uguale il prodotto delleaffidabilità individuali delle parti. Notando che il membro di destra rappresenta l’affidabilità nel caso diindipendenza, se ne deduce che la presenza di correlazione aumenta l’affidabilità del sistema. Al contrario,poiché A ∩ B ⊂ B e A ∩ B ⊂ A

P(A ∩ B) ≤ minP(A),P(B) = min1− pA, 1− pB,

in definitiva si ottienemin1− pA, 1− pB ≥ P(A ∩ B) ≥ (1− pA)(1− pB).

Tale conclusione si estende al caso di un sistema di n componenti, se Ai indica la rottura della i-esimacomponente, i limiti per l’affidabilità del sistema sono

min1− pi, i = 1, ..., n ≥ P

(n∩

i=1

Ai

)≥

n∏i=1

(1− pi).

26.9 Sistemi in parallelo con parti positivamente correlateUtilizzando la notazione della sezione precedente, la rottura per un sistema a due componenti in parallelo èindicata dall’evento A ∩B. Si è visto che la correlazione positiva implica che P(A | B) ≥ P(A), e ricordandoche P(A ∩B) = P(A | B)P(B), allora

P(A ∩B) ≥ P(A)P(B) = pApB

questo è un limite inferiore per la probabilità di rottura quando A e B sono correlate positivamente. Perconverso, il limite superiore è dato da

P(A ∩B) ≤ minP(A),P(B) = minpA, pB.

In definitivaminpA, pB ≥ P(A ∩B) ≥ pApB .

Il caso generale esteso a n componenti correlate con eventi di rottura individuali Ai, i = 1, ..., n si esprimecome

minpi, i = 1, ..., n ≥ P

(n∩

i=1

Ai

)≥

n∏i=1

pi.

La prima delle due disuguaglianze rivela che, a differenza del caso di sistemi in serie, la correlazione positivaimplica una diminuzione dell’affidabilità anche per sistemi in parallelo.

Primi elementi di inferenza statistica (ed. maggio 2012) 202 M. Di Marzio

Page 210: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

27Esercizi svolti

Esercizio 27.1. Un esperimento di prova simultanea di 30 transistor viene interrotto al decimo guasto. Sisa che il tempo di vita di ogni transistor è descritto da una v.c. esponenziale di parametro incognito θ. Siosservano, per i componenti che si guastano, le ore di vita seguenti:

t1 = 4.1 t2 = 7.3 t3 = 13.2 t4 = 18.8 t5 = 24.5

t6 = 30.8 t7 = 38.1 t8 = 45.5 t9 = 53 t10 = 62.2.

Qual è la stima di massima verosimiglianza per la vita media dei transistor?

Soluzione La stima di massima verosimiglianza della durata media dei transistor nel caso di prove simultaneecon interruzione all’r-esimo guasto è

1

θ=

∑rj=1 tj + (n− r)tr

r

nel nostro caso r = 10 e n = 30. Per cui:1

θ=

297.5 + 20× 62.2

10= 154.15.

Si noti come la stima di massima verosimiglianza si discosti molto dai tempi di guasto registrati perché aldenominatore troviamo il numero di guasti r mentre al numeratore abbiamo la somma di n > r durate.

Esercizio 27.2. Si tengono in prova contemporaneamente 30 oggetti per stimarne il tempo di vita deci-dendo di interrompere l’esperimento alla centesima ora. Alla fine dell’esperimento si sono avuti 20 guasti,rispettivamente ai tempi

1.2 1.8 2.2 4.1 5.6 8.4 11.8 13.4 16.2 21.729 41 42 42.4 49.3 60.5 61 94 98 99.2

qual è la stima di massima verosimiglianza della durata media se si ipotizza che le durate si distribuisconocome v.c. esponenziali i.i.d. di parametro θ?

Soluzione In questo caso abbiamo avuto l’interruzione ad un tempo prefissato che è di 100 ore. Allora lastima di massima verosimiglianza della durata media è

1

θ=

∑rj=1 tj + (n− r)T

r

nel nostro caso r = 20, n = 30 e T = 100. Per cui:

1

θ=

702.8 + 10× 100

20= 85.14.

Esercizio 27.3. Il rischio di contrarre un tumore ai polmoni per un fumatore almeno quarantenne può essereapprossimato dalla funzione:

λ (t) = 0.027 + 0.025

(t− 40

40

)4

, t > 40

dove t rappresenta l’età in anni. Supponendo che un fumatore di 40 anni non muoia per altre cause e chenon smetta mai di fumare, qual è la probabilità che giunga a 50 anni di età senza contrarre questa malattia?

M. Di Marzio 203 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 211: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Soluzione Se T è l’età in cui il fumatore muore, abbiamo:

P (T > 50) = 1− P (T ≤ 50) = R(50)

da cui, sfruttando la relazione

R(t) = exp

−∫ t

0

λ(s)ds

otteniamo

R(50) = exp

−∫ 50

40

0.027 +0.025

404(t− 40)

4dt

= exp

(0.027t+

0.025

404(t− 40)

5

5

∣∣∣∣5040

)

= exp

0.027× 50 +

0.025

404(50− 40)

5

5− 0.027× 40

≃ e−0.27

= 0.7632.

Esercizio 27.4. Il tempo T di vita di un prodotto ha tasso di guasto pari a:

λ (t) = t3, t > 0.

Calcolare:

a) la funzione di ripartizione e la funzione di densità di T ;

b) la probabilità che un esemplare funzioni tra gli istanti 0.4 e 1.4;

c) la probabilità che un esemplare di età 1 funzioni almeno per un’altra unità di tempo.

Soluzione a) La funzione di ripartizione di T si ottiene applicando la relazione tra FT e λ.

FT (t) = 1− exp

−∫ t

0

λ(s)ds

= 1− exp

−∫ t

0

s3ds

= 1− exp

(1

4s4∣∣∣∣t0

)

= 1− exp

− t4

4

la funzione di densità si ottiene derivando

fT (t) = F′T (t)

= 0− exp

t4

4

(−1

4× 4t3

)= t3e−t4/4.

b)

P(0.4 < T < 1.4) = FT (1.4)− FT (0.4)

= 1− exp

−1.44

4

−(1− exp

−0.44

4

)= 0.6109.

Primi elementi di inferenza statistica (ed. maggio 2012) 204 M. Di Marzio

Page 212: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

27. ESERCIZI SVOLTI

c) In questo caso bisogna calcolarsi una probabilità condizionata:

P(T ≥ 2|T > 1) =R(2)

R(1)=

exp−∫ 2

0s3ds

exp

−∫ 1

0s3ds

= exp

−∫ 2

0

s3ds+

∫ 1

0

s3ds

= exp

−(∫ 1

0

s3ds+

∫ 2

1

s3ds

)+

∫ 1

0

s3ds

= exp

−∫ 2

1

s3ds

= exp

(s4

4

∣∣∣∣21

)

= exp

−(24

4− 1

4

)= 0.0235.

Esercizio 27.5. Gli interruttori a, b, c, d sono collegati ai cavi elettrici A e B.La corrente attraversa un interruttore se esso è chiuso, nella figura 27.1 sono tutti aperti. Gli interruttori siaprono o si chiudono tutti contemporaneamente; inoltre la probabilità di malfunzionamento (non chiudersi)per ogni interruttore sia π.

a) Qual è la probabilità che il circuito da A a B si chiuda?

b) Se si aggiunge un cavo e, qual è la probabilità che il circuito non si chiuda?

c) Se si aggiunge un interruttore ad e, con che probabilità il circuito da A a B non si chiuda?

Soluzione a) Il caso è rappresentato nella figura 27.1, dove il collegamento tra A e B può essere descrittocome una coppia di sistemi in serie disposti in parallelo. Un sistema in serie composto dagli interruttori

Figura 27.1: Sistema dell’esercizio 27.5 punto a).

a, b, e l’altro dagli interruttori c, d. La probabilità di funzionare per un singolo interruttore è 1 − π

così la probabilità di funzionare per uno dei due sistemi in serie è (1− π)2 mentre quella di non funzionare

1− (1− π)2. Essendo le due linee in parallelo, almeno una deve funzionare. La probabilità che almeno una

funzioni è data dalla differenza tra 1 e probabilità che entrambe non funzionino, cioè 1−[1− (1− π)

2]2

.

b) L’inserimento del cavo e porta a una nuova configurazione del circuito, come è illustrato nella figura27.2. In particolare si hanno due sistemi in serie, uno formato dagli interruttori a, e, c, e un altro formato

Figura 27.2: Sistema dell’esercizio 27.5 punto b).

dagli interruttori b, e, d. Ciascuno dei due sistemi è in parallelo. Ognuno dei due sistemi ha probabilità dinon funzionare π2 e quella di funzionare 1− π2. Essendo a loro volta i due sistemi in serie, l’intero circuitofunziona con probabilità (1− π2)2. La probabilità cercata, quella di non funzionare, è allora 1− (1− π2)2.

M. Di Marzio 205 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 213: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

c) L’inserimento di un interruttore al cavo e porta ad una ulteriore configurazione del circuito, come sipuò vedere in figura 27.3. In particolare, se l’interruttore e non funziona, anch’esso con probabilità π,

Figura 27.3: Sistema dell’esercizio 27.5 punto c).

allora il sistema diventa come nella domanda a). Se invece l’interruttore e funziona, con probabilità 1− π,si è esattamente nel caso della domanda b). Così, applicando il teorema delle probabilità totali per eventiincompatibili si ha:

P(circuito funziona) = P(circuito funziona ∩ e funziona) + P(circuito funziona ∩ e non funziona)= P(e funziona)P(circuito funziona|e funziona)+ P(e non funziona)P(circuito funziona|e non funziona)

= (1− π)(1− π2)2 + π1− [1− (1− π)2]2

mentre quella complementare è la probabilità cercata

1− π1− [1− (1− π)2]2 − (1− π)(1− π2)2 = 2π5 − 5π4 + 2π3 + 2π2.

Esercizio 27.6. Un componente elettronico è formato da tre elementi in serie ciascuno con tempi di vitaindipendenti ed esponenziali di parametri rispettivamente λ = 0.3, µ = 0.1, γ = 0.2 rispettivamente, comesi può vedere in figura 27.4. Indichiamo con T la v.c. ‘tempo di vita del componente’.

Figura 27.4: Sistema dell’esercizio 27.6 punto a).

a) Come si distribuisce T? Qual è la sua vita media?

b) Per aumentare l’affidabilità e ridurre gli interventi di sostituzione, viene proposto di aggiungere uncomponente identico in parallelo. Come si distribuisce la vita del nuovo complesso?

c) Un’altra possibilità consiste nel considerare un complesso triplicando il primo componente e raddoppiandoil terzo. Qual è la probabilità che questo nuovo complesso sopravviva al tempo t = 1?

Soluzione a) Se indichiamo con T1, T2 e T3 i tempi di vita dei singoli elementi, essendo il sistema è in serie,è chiaro che T = min(T1, T2, T3) per cui:

1− FT (t) = Pmin(T1, T2, T3) > t= P(T1 > t ∩ T2 > t ∩ T3 > t)

= P(T1 > t)P(T2 > t)P(T3 > t)

= R1(t)R2(t)R3(t)

= (1− (1− e−λt))(1− (1− e−µt))(1− (1− e−γt))

= e−(λ+µ+γ)t.

Questo implica cheFT (t) = 1− e−(λ+µ+γ)t,

così la v.c. T si distribuisce come una esponenziale con parametro λ+ µ+ γ. La media di T vale dunque:

E[T ] =1

λ+ µ+ γ= 1.67.

b) Se T e W sono i tempi di vita dei componenti in parallelo, come è rappresentato nella figura 27.5, il tempodi vita dell’intero complesso è X = maxT,W. Calcoliamo la funzione di ripartizione GX(t) di X

Primi elementi di inferenza statistica (ed. maggio 2012) 206 M. Di Marzio

Page 214: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

27. ESERCIZI SVOLTI

Figura 27.5: Sistema dell’esercizio 27.6 punto b).

GX(t) = PmaxT,W ≤ t = P(T ≤ t ∩W ≤ t) = P(T ≤ t)P(W ≤ t)

=(1− e−(λ+µ+γ)t

)2la pdf di X è data dalla derivata, gX(t) = G′

T (t):

gX(t) = 2(1− e−(λ+µ+γ)t

)e−(λ+µ+γ)t(λ+ µ+ γ),

da cui sostituendo si ha

gX(t) = 2

(1− e−(0.3+0.1+0.2)t

)e−(0.3+0.1+0.2)t(0.3 + 0.1 + 0.2)

= 2

(1− e−(0.6)t

)e−(0.6)t(0.6)

= 1.2

(1− e−0.6t

)e−0.6t

= 1.2e−0.6t − 1.2e−1.2t.

c) Il tempo di vita dell’intero complesso è minT1, T2, T3 dove T1 è il tempo di vita del complesso dei primitre componenti, T2 il tempo di vita del quarto componente e T3 il tempo di vita del complesso del quinto esesto componente, come si può vedere in figura 27.6.

Figura 27.6: Sistema dell’esercizio 27.6 punto c).

P(T1 ≤ t) = (1− e−λt)3, P(T2 ≤ t) = 1− e−µt, , P(T3 ≤ t) = (1− e−γt)2;

per cui, molto semplicemente, si ha:

P(T > t) = P(T1 > t)P(T2 > t)P(T3 > t)

= (1− (1− e−λt)3)e−µ t(1− (1− e−γ t)2),

da cui, andando a sostituire i rispettivi valori, si ha

P(T1 ≤ 1) = (1− (1− e−0.3×1)3)e−0.1×1(1− (1− e−0.2×1)2)

≃ 0.97.

Esercizio 27.7. Un deposito d’acqua è localizzato in una regione semiarida. Il clima locale è caratterizzatoda tempeste alluvionali che hanno luogo casualmente durante tutto l’anno. Inoltre ci può essere insufficienzadi acqua se alla fine della primavera il livello di acqua immagazzinato è basso e la successiva estate si rivelasecca. Si indichi con F l’evento di una alluvione catastrofica, con D l’evento di una estate secca, e con Lun livello basso delle riserve idriche a fine primavera. Da analisi idrogeologiche si sono stimate le relativeprobabilità πF , πD e πL. Infine, sia E un guasto del sistema, cioè il deposito riceve più acqua di quella chepuò trattenere, oppure non riesce a soddisfare la domanda. Così E = F ∪ DL. I dati climatici mostranocorrelazione positiva tra D e L, ma correlazione negativa tra F e DL. Studiare l’affidabilità del sistemaE = F ∩DL.

M. Di Marzio 207 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 215: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Soluzione F e DL sono correlate negativamente, allora P(F | DL) ≤ P(F ). Per cui:

P(E) ≤ (1− πF )(1− P(DL)).

P(DL) non è nota, quindi vanno stimati il suo minimo e il suo massimo dati da:

min(1− πD, 1− πL) ≤ P(DL) ≤ 1− πDπL ⇒ P(DL) ≥ πDπL

di conseguenzaP(E) ≤ (1− πF )(1− πDπL).

Per esempio, se πF = 0.01, πD = 0.15 e πL = 0.1, allora

P(E) ≤ (1− 0.01)(1− 0.15× .1) = 0.99× 0.985 = 0.975.

Il che significa che il sistema ha una probabilità di guasto di almeno il 2.5%.

Esercizio 27.8. Due rifugi montani sono connessi dalle due strade a e b. Durante una tempesta di nevec’è una probabilità di 0.2 che il traffico venga interrotto in a (evento A), e una probabilità pari a 0.1 che iltraffico venga interrotto in b (evento B). Studiare l’affidabilità del collegamento stradale tra i due rifugi sianell’ipotesi di indipendenza delle occorrenze di interruzioni e sia nell’ipotesi che una limitata dotazione diattrezzature permette la rimozione della neve su entrambe le strade.

Soluzione Il collegamento stradale tra i due rifugi può essere considerato un sistema in parallelo con probabil-ità di guasti individuali πA = 0.2, e πB = 0.1. Assumendo l’indipendenza dei guasti, il rischio di interruzionedella comunicazione stradale πf è semplicemente

πf = πAπB = 0.2× 0.1 = 0.02.

Se le attrezzature permettono di rimuovere la neve, allora bisogna considerare gli eventi di guasto positiva-mente correlati. Per cui l’affidabilità πf del sistema può essere stimata attraverso limiti inferiori e superiorinel seguente modo. Siccome

πf = P(A ∩B) = P(A|B)P(B) = P(B|A)P(A) ≤ min(πA, πB)

allora1− πf = πf ≥ 1−min(πA, πB) = max(1− πA, 1− πB) ≥ min(1− πA, 1− πB).

Inoltre, siccome le componenti sono correlate

πf = P(A ∩B) = P(A|B)P(B) = P(B|A)P(A) ≥ P(A)P(B) = πAπB ;

di conseguenza1− πAπB ≥ πf ≥ min(1− πA, 1− πB);

cioè0.98 ≥ πf ≥ 0.80 e 0.10 ≥ πf ≥ 0.02.

Primi elementi di inferenza statistica (ed. maggio 2012) 208 M. Di Marzio

Page 216: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

AAnalisi matematica

IndiceA.1 Insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209A.2 Estremo superiore, estremo inferiore, massimo e minimo . . . . . . . . . . . . 210A.3 Intervalli di numeri reali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211A.4 Valore assoluto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211A.5 Simboli di sommatoria e produttoria . . . . . . . . . . . . . . . . . . . . . . . . . 211A.6 Doppia sommatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212A.7 Lo spazio Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213A.8 Funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213A.9 Funzioni esponenziale e logaritmo . . . . . . . . . . . . . . . . . . . . . . . . . . 214A.10 Funzioni limitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215A.11 Limiti di funzioni e continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216A.12 Derivata di una funzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217A.13 Derivate parziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218A.14 Integrali indefiniti e integrali definiti . . . . . . . . . . . . . . . . . . . . . . . . . 218A.15 Calcolo di integrali doppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

A.1 InsiemiUn insieme è una collezione di oggetti distinti detti elementi dell’insieme. Un insieme è generalmente indicatocon una lettera maiuscola, mentre il suo generico elemento è indicato con una lettera minuscola. Per indicarein simboli che a è un elemento dell’insieme A si scrive a ∈ A.Un insieme può essere indicato elencando i suoi elementi oppure specificando, se esiste, una proprietà cheaccomuna questi elementi.

Esempio A.1. Seguono alcuni esempi di insiemi.

⋄ Insieme dei numeri naturali compresi tra 1 e 5:

1, 2, 3, 4, 5 o x ∈ N : 1 ≤ x ≤ 5.

⋄ Insieme dei numeri interi negativi maggiori di −7:

−1,−2,−3,−4,−5,−6 o x ∈ Z− : x > −7.

⋄ Insieme delle prime 4 lettere dell’alfabeto latino:

a, b, c, d.

Dati due insiemi A e B, A è un sottoinsieme di B, in simboli A ⊆ B (o B ⊇ A), se tutti gli elementi di Asono anche elementi di B, ovvero:

A ⊆ B se e solo se a ∈ B per ogni a ∈ A.

M. Di Marzio 209 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 217: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A.2. Estremo superiore, estremo inferiore, massimo e minimo

Si noti che se A ⊆ B e B ⊆ A, allora A e B hanno gli stessi elementi, ovvero A = B. Se non si ha A = B,allora si avrà A = B e si dirà che A è diverso da B. Se invece A ⊆ B e A = B, si scrive A ⊂ B (o B ⊃ A), eA è detto sottoinsieme proprio di B.

Esempio A.2. L’insieme dei numeri naturali N = 0, 1, 2, ... è sottoinsieme proprio dell’insieme dei numeri interiZ = ...,−2,−1, 0, 1, 2, ....L’insieme Z è sottoinsieme proprio dell’insieme dei numeri razionali Q = p/q : p ∈ Z, q ∈ Z, q = 0.L’insieme Q è sottoinsieme proprio del’insieme R dei numeri reali. In definitiva, valgono le seguenti relazioni diinclusione

N ⊂ Z ⊂ Q ⊂ R.

Si definisce cardinalità di un insieme A, e si indica con ♯A, il numero di elementi dell’insieme A. Un insiemeA si definisce finito se ha un numero finito di elementi o, in simboli, se ♯A < ∞. Se A non è finito, allora sidice infinito. Un insieme infinito si definisce numerabile se può essere posto in corrispondenza biunivoca conl’insieme N dei numeri naturali.

Esempio A.3. Gli insiemi dell’esempio A.1 sono tutti insiemi finiti aventi rispettivamente cardinalità 5, 6 e 4.

Esempio A.4. Sono esempi di insiemi infiniti:

⋄ l’insieme N dei numeri naturali,

⋄ l’insieme Z dei numeri interi,

⋄ l’insieme R dei numeri reali.

Esempio A.5. Seguono alcuni esempi di insiemi numerabili

⋄ L’insieme N dei numeri naturali è ovviamente un insieme numerabile;

⋄ l’insieme dei numeri naturali dispari è numerabile, poichè esiste una corrispondenza biunivoca tra ogni n ∈ Ned ogni numero naturale dispari 2n+ 1;

⋄ gli insiemi dell’esempio A.1 sono tutti insiemi numerabili.

Si dimostra, infine, che l’insieme R dei numeri reali non è numerabile.

A.2 Estremo superiore, estremo inferiore, massimo e minimo

Un insieme A ⊂ R si definisce limitato superiormente se esiste un numero che risulta maggiore di tutti glielementi dell’insieme. Si definisce estremo superiore di un insieme A limitato superiormente, e si indicacon supA, un numero M tale che:

i) per ogni a ∈ A risulta a ≤ M ;

ii) per ogni ϵ > 0 esiste almeno un elemento a di A tale che M − ϵ < a ≤ M.

Un insieme A ⊂ R si definisce limitato inferiormente se esiste un numero che risulta minore di tutti glielementi dell’insieme. Si definisce estremo inferiore di un insieme A limitato inferiormente, e si indica coninf A, un numero m tale che:

i) per ogni a ∈ A risulta a ≥ m;

ii) per ogni ϵ > 0 esiste almeno un elemento a di A tale che m < a ≤ m+ ϵ.

Segue un’ importante proprietà degli insiemi di numeri reali, anche nota come proprietà della completezza diR.Ogni insieme non vuoto di numeri reali limitato superiormente (rispettivamente inferiormente) è dotato diestremo superiore (risp. estremo inferiore).Pertanto se A ⊂ R è un insieme non vuoto limitato superiormente (risp. inferiormente) esiste sempresupA ∈ R (risp. inf A ∈ R). Infine, se supA è un elemento di A, allora esso definisce il massimo di A che siindica con maxA; se inf A è un elemento di A, allora esso definisce il minimo di A che si indica con minA.

Primi elementi di inferenza statistica (ed. maggio 2012) 210 M. Di Marzio

Page 218: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A. ANALISI MATEMATICA

A.3 Intervalli di numeri realiDati due numeri reali a e b, tali che a < b, è possibile definire i seguenti intervalli limitati di estremi a e b:

[a, b] = x ∈ R : a ≤ x ≤ b[a, b) = x ∈ R : a ≤ x < b(a, b] = x ∈ R : a < x ≤ b(a, b) = x ∈ R : a < x < b.

Quando uno degli estremi dell’intervallo non è finito, l’intervallo si dice illimitato e possono aversi i seguenticasi:

[a,+∞) = x ∈ R : x ≥ a(a,+∞) = x ∈ R : x > a(−∞, b] = x ∈ R : x ≤ b(−∞, b) = x ∈ R : x < b.

InfineR = (−∞,+∞).

Dato x0 ∈ R, si definisce intorno di x0 di raggio δ > 0 l’intervallo (x0−δ, x0+δ). Dalla definizione di intornodiscende che ogni intervallo aperto in R contiene un intorno di ciascuno dei sui punti.

A.4 Valore assolutoSi definisce valore assoluto di un numero reale x, il numero reale

|x| =

x se x ≥ 0

−x se x < 0.

Esempio A.6. | − 3| = 3; |1.2| = 1.2.

Dalla definizione di valore assoluto discende che, dato un numero reale positivo a, la disuguaglianza

|x| < a

equivale a x < a, se x ≥ 0 e −x < a se x < 0; quindi le seguenti tre espressioni sono intercambiabili

|x| < a, −a < x < a, x ∈ (−a, a).

Esempio A.7. Dati due numeri reali x e y, dove y ∈ R+ la relazione

|x− 3| < y

può essere riscritta come3− y < x < 3 + y.

Infatti per x− 3 ≥ 0 si ha x− 3 < y e quindi x < 3 + y; per x− 3 < 0 si ha −(x− 3) < y e quindi 3− y < x.

A.5 Simboli di sommatoria e produttoriaSi consideri un insieme finito di n numeri reali x1, x2, ..., xn. La somma dei numeri x1, x2, ..., xn può esserescritta in forma compatta utilizzando il simbolo di sommatoria

∑n∑

i=1

xi = x1 + x2 + ...+ xn.

Dato un numero reale k, si hanno le identità seguenti

n∑i=1

k = k + k + ...+ k︸ ︷︷ ︸n volte

= nk,

M. Di Marzio 211 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 219: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A.6. Doppia sommatoria

e

n∑i=1

kxi = kx1 + kx2 + ...+ kxn

= k(x1 + x2 + ...+ xn)

= kn∑

i=1

xi.

Il prodotto tra i numeri x1, x2, ..., xn può essere scritto in forma compatta, ricorrendo al simbolo di produttoria∏n∏

i=1

xi = x1 × x2 × ...× xn.

Inoltre, dato un numero reale k, risulta

n∏i=1

k = k × k × ...× k︸ ︷︷ ︸n volte

= kn,

en∏

i=1

kxi = kx1 × kx2 × ...× kxn

= kn(x1 × x2 × ...× xn)

= knn∏

i=1

xi.

Se non c’è equivoco su quali siano gli estremi della produttoria (sommatoria), questi possono anche essereomessi, scrivendo, ad esempio,

∏xi oppure

∑xi.

A.6 Doppia sommatoria

Considerato l’insieme di numeri reali con doppio indice

xij , i ∈ 1, 2, ..., n, j ∈ 1, 2, ...,m,

che può essere rappresentato in forma di tabella comex11 x12 · · · x1m

x21 x22 · · · x2m

......

......

xn1 xn2 · · · xnm

,

la somma degli elementi xij può essere scritta ricorrendo al simbolo di doppia sommatoria∑∑

n∑i=1

m∑j=1

xij = x11 + x12 + ...+ x1m + x21 + x22 + ...+ x2m + ....+ xn1 + xn2 + ...+ xnm.

Dato un numero reale k si ha inoltren∑

i=1

m∑j=1

kxij = kn∑

i=1

m∑j=1

xij ,

en∑

i=1

m∑j=1

k = nmk.

Primi elementi di inferenza statistica (ed. maggio 2012) 212 M. Di Marzio

Page 220: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A. ANALISI MATEMATICA

Dati due insiemi di numeri reali x1, x2, ..., xn e y1, y2, ..., ym, la somma dei prodotti tra ciascun elementodel primo insieme e ciascun elemento del secondo, può scriversi come

n∑i=1

m∑j=1

xiyj = x1y1 + x1y2 + ...+ x1ym + x2y1 + x2y2 + ...+ x2ym + ...+ xny1 + xny2 + ...+ xnym.

Risulta inoltren∑

i=1

m∑j=1

xiyj = (x1 + x2 + ...+ xn)(y1 + y2 + ...+ ym)

=n∑

i=1

xi

m∑j=1

yj

Infine, per l’insieme di numeri reali

zij , i ∈ 1, 2, ..., n, j ∈ 1, 2, ...,m,

si han∑

i=1

m∑j=1

xizij = x1z11 + x1z12 + ...+ x1z1m + x2z21 + x2z22 + ...+ x2z2m + ...+ xnzn1 + xnzn2 + ...+ xnznm

=n∑

i=1

xi

m∑j=1

zij

.

A.7 Lo spazio Rn

Fissato un intero n ≥ 1, l’insieme Rn, anche detto spazio dei reali in n dimensioni, è l’insieme definito dalprodotto cartesiano 1dell’insieme R per se stesso n volte; in formule

Rn = R× R× ...× R︸ ︷︷ ︸n volte

.

L’insieme Rn ha quindi per elementi tutte le possibili n-uple di numeri reali x definite come

x = (x1, x2, ..., xn) con xi ∈ R per ogni i ∈ 1, 2, ..., n.

Gli elementi x ∈ Rn si definiscono numeri reali in n dimensioni. Geometricamente x ∈ Rn individua lecoordinate di un punto in un iperspazio n-dimensionale.

Esempio A.8. Seguono alcuni esempi di numeri reali in n dimensioni:

⋄ x = 0.4 è un numero reale (in una dimensione);

⋄ x = (0, 0, 0) è un numero reale in 3 dimensioni;

⋄ x = (0.2, 0.4, 1, 1, 66) è un numero reale in 5 dimensioni.

A.8 FunzioniSiano X ed Y due insiemi di numeri reali. Una funzione f da X in Y è una legge che associa ad ogni x ∈ Xuno e un solo y ∈ Y ; y è detto valore della funzione f in x, in simboli

y = f(x).

Gli insiemi X e Y sono detti rispettivamente dominio e codominio di f , mentre l’insieme f(X) = f(x) :x ∈ X ⊆ Y è detto insieme delle immagini di f .

1Dati due insiemi A e B, si definisce prodotto cartesiano di A e B, e si indica con A × B, l’insieme di tutte le coppieordinate (a, b) con a ∈ A e b ∈ B.

M. Di Marzio 213 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 221: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A.9. Funzioni esponenziale e logaritmo

La corrispondenza univoca che f realizza dall’insieme X all’insieme Y è espressa in simboli da

f : X → Y.

Se f esprime una corrispondenza biunivoca tra X ed Y , ossia se ad ogni elemento y ∈ Y corrisponde uno edun solo elemento x ∈ X tale che f(x) = y e viceversa, allora f definisce una funzione biettiva.Se il dominio di f è definito dal prodotto cartesiano tra n insiemi di numeri reali, ossia se X ⊂ Rn, allora fè detta funzione di n variabili reali.

Esempio A.9. Sia f una funzione definita in R da f(x) = x, allora

f : R → R

è una funzione di una variabile reale che associa ad ogni elemento di R se stesso ed è detta funzione identità.

Esempio A.10. Sia f una funzione definita nello spazio R2 da

f(x) = x1 + x2 per ogni x = (x1, x2).

Alloraf : R2 → R

è una funzione di due variabili reali, che associa ad ogni elemento di R2, cioè ad ogni coppia di numeri reali, il numeroreale dato dalla loro somma.

Dati due numeri interi positivi m e n, tali che m < n, si dice che la funzione f opera una riduzione dellospazio dei reali in n dimensioni nello spazio dei reali in m dimensioni se

f : Rn → Rm,

o equivalentemente sef : X → Y,

dove X ⊆ Rn e Y ⊆ Rm.

Esempio A.11. La funzione f dell’esempio 7, associando ad ogni coppia di numeri reali (x1, x2) il numero realex1 + x2, opera una riduzione dello spazio R2 nello spazio R.

Esempio A.12. Sia f una funzione definita nello spazio R3 da

f(x) = (x1 + x2, x3) per ogni x = (x1, x2, x3).

La funzione f opera una riduzione dello spazio R3 nello spazio R2. Infatti poichè (x1 + x2, x3) è un numero reale in2 dimensioni, si ha

f : R3 → R2.

A.9 Funzioni esponenziale e logaritmo

La funzione esponenziale f(x) = ex (dove e indica il numero di Nepero 2.7182845... ) è una funzione cheassocia ad ogni numero reale x il numero reale ex che può anche scriversi come exp(x) o expx. Di seguitosono elencate alcune proprietà della funzione esponenziale:

i) per ogni numero reale x, ex > 0;

ii) se x > 0, ex > 1 e e−x = 1/(ex) < 1;

iii) data una coppia di reali a e b, vale la seguente identità

eaeb = ea+b,

e più, in generale, considerati i numeri reali x1, x2, ..., xn,

ex1ex2 ...exn =

n∏i=1

exi = e(x1+x2+...+xn) = e∑n

i=1 xi .

Primi elementi di inferenza statistica (ed. maggio 2012) 214 M. Di Marzio

Page 222: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A. ANALISI MATEMATICA

La funzione logaritmo in base b è definita per ogni numero reale positivo x da

f(x) = logb x,

dove b è la base del logaritmo e x > 0 è l’argomento del logaritmo. Il logaritmo di x è l’esponente da dare ab per ottenere x; in simboli

f(x) = logb x ⇔ x = bf(x).

Se b = e, ossia quando il logaritmo ha come base e, si ha la funzione f(x) = logex definita logaritmo naturale:loge x è spesso indicato semplicemente come log x o come lnx. Dalla definizione di logaritmo discende che

log 1 = 0, log e = 1;

poiché e0 = 1 e e1 = e.Nel seguito sono enunciate alcune proprietà della funzione logaritmo.

i) Per ogni coppia di numeri reali positivi a e b risulta

log(ab) = log a+ log b.

In generale, dati n numeri reali positivi x1, x2, ..., xn si ha

log(x1 × x2 × ...× xn) = log

(n∏

i=1

xi

)= log x1 + log x2 + ...+ log xn =

n∑i=1

log xi.

ii) Dato il numero reale positivo a e il numero naturale n risulta

log an = n log a.

iii) Per ogni coppia di numeri reali positivi a e b risulta

log(ab

)= log a− log b.

Si osservi che la proprietà iii) discende dalla i) e dalla ii). Infatti, poichè a/b = ab−1 per la i) si ha log(a/b) =log a+log b−1 e applicando la ii) al secondo addendo a destra dell’uguglianza si ottiene log(a/b) = log a−log b.

A.10 Funzioni limitateSia X ⊆ R e f : X → R. La funzione f si dice limitata superiormente (rispettivamente limitatainferiormente) in un insieme A ⊆ X se esiste un numero reale M (risp. m) tale che f(x) ≤ M (risp.f(x) ≥ m) per ogni x ∈ A. La funzione f si definisce limitata in A se e solo se è limitata sia superiormentesia inferiormente in A.Se f è una funzione limitata superiormente in A ⊆ X, allora l’insieme delle immagini f(A) ⊆ R è limitatosuperiormente e dalla proprietà della completezza enunciata nella sezione A.2 discende che l’insieme f(A) èdotato di estremo superiore. L’estremo superiore di f(A) è anche detto estremo superiore di f in A e siindica con

supA

f o supx∈A

f(x).

Pertanto, se f è limitata superiormente in A, supA f = sup f(A). Se supA f ∈ f(A) allora esso definisce ilmassimo di f in A che si indica con

maxA

f o maxx∈A

f(x).

Sia f una funzione limitata inferiormente in A ⊆ X, allora l’insieme f(A) ⊆ R è limitato inferiormente edalla proprietà della completezza discende che f(A) è dotato di estremo inferiore. L’estremo inferiore di f(A)è anche detto estremo inferiore di f in A e si indica con

infA

f o infx∈A

f(x).

Pertanto, se f è limitata inferiormente in A, infA f = inf f(A). Se infA f ∈ f(A) allora esso definisce ilminimo di f in A che si indica con

minA

f o minx∈A

f(x).

M. Di Marzio 215 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 223: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A.11. Limiti di funzioni e continuità

A.11 Limiti di funzioni e continuità

Sia f una funzione di una variabile reale definita in tutti i punti di un intervallo [a, b] escluso al più il puntoc anch’esso interno all’intervallo. Si dice che, per x che tende a c, la funzione f ha per limite il numero realel e si scrive

limx→c

f(x) = l

se comunque scelto un numero ϵ > 0, arbitrariamente piccolo, si può determinare in corrispondenza ad esso,un intorno completo di c tale che, per ogni x appartenente a tale intorno (escluso al più x = c), si ha

|f(x)− l| < ϵ.

Esempio A.13. Si consideri la funzione f(x) = x2. Poichè al tendere di x a 0 si può sempre scegliere un numeroreale ϵ > 0, arbitrariamente piccolo, tale che |x2 − 0| < ϵ, risulta limx→0 x

2 = 0.

Si dice che per x che tende a c la funzione f(x) ha per limite infinito e si scrive

limx→c

f(x) = ∞,

se comunque fissato un numero reale M > 0, arbitrariamente grande, si può determinare in corrispondenzaad esso, un intorno di c tale che per ogni x appartenente a tale intorno (escluso al più c), si ha

|f(x)| > M.

Esempio A.14. Si consideri la funzione f(x) = 1/x, definita per ogni numero reale x = 0. Al tendere di x a 0la funzione assume valori sempre più grandi in valore assoluto e quindi, è sempre possibile scegliere un numero Marbitrariamente grande, per il quale |f(x)| > M. Si conclude pertanto che limx→0 1/x = ∞.

Si dice che per x che tende all’infinito la funzione f(x) ha limite finito l e si scrive

limx→∞

f(x) = l,

se comunque scelto un numero reale ϵ > 0, arbitrariamente piccolo, si può determinare in corrispondenza adesso, un intorno di infinito tale che, per ogni x appartenente a questo intorno, si ha

|f(x)− l| < ϵ.

Esempio A.15. Si consideri la funzione introdotta nell’esempio A.14. Poichè per x che tende all’infinito è semprepossibile scegliere un numero ϵ > 0, arbitrariamente piccolo, tale che |1/x− 0| < ϵ, risulta limx→∞ 1/x = 0.

Si dice che per x che tende all’infinito, la funzione f(x) ha limite infinito e si scrive

limx→∞

f(x) = ∞,

se, comunque si scelga un numero reale M > 0, arbitrariamente grande, si può determinare, in corrispondenzaad esso, un intorno di infinito tale che, per ogni x appartenente a detto intorno, si ha

|f(x)| > M.

Esempio A.16. Si consideri la funzione f(x) = x3. Poichè al tendere di x ad infinito si può sempre scegliere unnumero reale M > 0, arbitrariamente grande, tale che |x3| > M , risulta limx→∞ x3 = ∞.

Sia f una funzione definita in un intorno di x0 ∈ R. La funzione f è continua in x0 se il limite di f(x) perx che tende ad x0 è pari a f(x0), in simboli

limx→x0

f(x) = f(x0).

In altri termini, f è continua in x0 se per ogni ϵ > 0 esiste un numero reale δ > 0 tale che |f(x)− f(x0)| < ϵquando |x− x0| < δ.Una funzione continua in ogni punto di un insieme I ⊆ R, si definisce continua in I.

Primi elementi di inferenza statistica (ed. maggio 2012) 216 M. Di Marzio

Page 224: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A. ANALISI MATEMATICA

A.12 Derivata di una funzioneSia f una funzione definita in un intervallo I ⊆ R ed x0 un punto interno ad I. Diamo ad x0 un incrementoarbitrario ∆x0 = h, positivo o negativo, tale che (x0 + h) ∈ I. La differenza

∆f(x0) = f(x0 + h)− f(x0),

rappresenta l’incremento che subisce la funzione quando si passa dal valore x0 al valore x0 + h. Il rapporto

∆f(x0)

∆x0=

f(x0 + h)− f(x0)

h

è definito rapporto incrementale della funzione f relativo al punto x0 e all’incremento h. Se esiste ed è finito,il limite per h che tende a zero di tale rapporto incrementale definisce la derivata della funzione f in x = x0.In simboli

f ′(x0) = limh→0

f(x0 + h)− f(x0)

h.

Nel seguito sono riportate alcune funzioni elementari f(x) e le loro funzioni derivate f ′(x).

f(x) = k f ′(x) = 0per ogni k ∈ R

f(x) = kx f ′(x) = kper ogni k ∈ R

f(x) = xk f ′(x) = kxk−1

per ogni k ∈ R

f(x) = kx f ′(x) = kx log kper ogni k > 0, k = 1

f(x) = ex f ′(x) = ex

f(x) = log x f ′(x) = 1x

f(x) = 1x f ′(x) = − 1

x2

Seguono ora alcune tra le regole di derivazione che consentono il calcolo di derivate di funzioni costruite apartire dalle funzioni elementari.Siano f(x) e g(x) due funzioni che ammettono derivate f ′(x) e g′(x). Allora:

a) se h(x) = f(x) + g(x), h′(x) = f ′(x) + g′(x);

b) se h(x) = f(x)g(x), h′(x) = f ′(x)g(x) + f(x)g′(x);

c) se h(x) = f(x)/g(x), h′(x) = f ′(x)g(x)−f(x)g′(x)(g(x))2 ;

d) se h(x) = f(g(x)), h′(x) = f ′(g(x))g′(x).

Esempio A.17. Sia h(x) = x2 + 3x. Posto f(x) = x2 e g(x) = 3x, dalla a) discende che h′(x) = 2x+ 3.

Esempio A.18. Sia h(x) = 3x. Posto f(x) = 3 e g(x) = x, dalla b) discende che h′(x) = 3.

M. Di Marzio 217 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 225: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A.13. Derivate parziali

Esempio A.19. Sia h(x) = e−x2

. Considerate le funzioni f(x) = ex e g(x) = −x2, risulta h(x) = f(g(x)) e poichéf ′(x) = ex e g′(x) = −2x, dalla c) discende che h′(x) = e−x2

(−2x) = −2xe−x2

. Esempio A.20. Sia h(x) = log(1−x2). Considerate le funzioni f(x) = log x e g(x) = 1−x2, risulta h(x) = f(g(x)),ed essendo f ′(x) = 1/x e g′(x) = −2x, dalla c) discende che

h′(x) =1

1− x2(−2x) = − 2x

1− x2.

A.13 Derivate parzialiSia f una funzione di due variabili reali, definita in un intervallo I ⊆ R2 e sia (x0, y0) un punto interno ad I.Si dice che f è derivabile rispetto alla variabile x nel punto (x0, y0) se esiste ed è finito il limite seguente

limx→x0

f(x, y0)− f(x0, y0)

x− x0.

Tale limite definisce la derivata parziale di f rispetto ad x e si indica con

∂f(x0, y0)

∂x.

Analogamente f è derivabile rispetto alla variabile y in (x0, y0) se esiste ed è finito

limy→y0

f(x0, y)− f(x0, y0)

y − y0.

Tale limite è la derivata parziale di f rispetto a y nel punto (x0, y0) e si indica con

∂f(x0, y0)

∂y.

Se f è derivabile rispetto ad x (rispettivamente rispetto ad y) in ogni punto di I, si dice allora che f èderivabile rispetto ad x (risp. y) in I.Il calcolo della derivata parziale di f rispetto ad x (risp. y) avviene considerando y (risp. x) costante ecalcolando la derivata di f come funzione della sola variabile x (risp. y).

Esempio A.21. Sia f(x, y) = xy. Le derivate parziali della funzione f rispetto alle due variabili sono ripettivamente

∂f(x, y)

∂x= y e

∂f(x, y)

∂y= x.

Esempio A.22. Considerata la funzione f definita in R2 da f(x, y) = x2 + 2xy − y2 + 3x + 2y − 1, le derivateparziali della funzione rispetto alle variabili x ed y sono rispettivamente

∂f(x, y)

∂x= 2x+ 2y + 3 e

∂f(x, y)

∂y= 2x− 2y + 2.

A.14 Integrali indefiniti e integrali definitiSia f una funzione di una variabile, definita nell’intervallo [a, b]. Una funzione F derivabile in [a, b] si definisceprimitiva della funzione f se

F ′(x) = f(x) per ogni x ∈ [a, b].

Si noti che se F è una primitiva di f , anche F + c, dove c è un qualsiasi numero reale, è una primitiva dif . L’insieme F + c, c ∈ R di tutte le primitive di f è detto integrale indefinito di f e si indica con ilsimbolo ∫

f(x)dx,

e si scrive anche ∫f(x)dx = F (x) + c.

Nel seguito sono riportate alcune funzioni elementari f(x) e le loro funzioni primitive F (x).

Primi elementi di inferenza statistica (ed. maggio 2012) 218 M. Di Marzio

Page 226: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A. ANALISI MATEMATICA

f(x) = k F (x) = kxper ogni k ∈ R

f(x) = xn F (x) = xn+1

n+1

per ogni n ∈ R

f(x) = ex F (x) = ex

f(x) = 1x F (x) = log x

f(x) = − 1x2 F (x) = 1

x

Esempio A.23. Sia f(x) = x/3 + 2. Risulta allora∫f(x)dx =

x2

6+ 2x+ c.

Infatti dalle regole di derivazione enunciate nella sezione precedente discende che data la funzione F (x) = x2/6+2x+c,si ha F ′(x) = (2x)/6 + 2 = x/3 + 2.

Esempio A.24. Sia f(x) = e−x. Risulta allora∫f(x)dx = −e−x + c.

Se infatti si considera la funzione F (x) = −e−x + c, si ha F ′(x) = (−e−x)(−1) = e−x.

Esempio A.25. Sia f(x) = 1/(1− x). Risulta allora∫f(x)dx = − log(1− x) + c,

poichè data la funzione F (x) = − log(1− x) + c si ha F ′(x) = −1/(1− x)×−1 = 1/(1− x).

Sia f una funzione continua in un intervallo [a, b]. L’area sottesa al grafico di f nell’intervallo [a, b] è misuratadall’ integrale definito di f nell’intervallo [a, b] che in simboli è indicato come∫ b

a

f(x)dx,

dove a e b sono anche detti estremi di integrazione. Di seguito sono enunciate alcune tra le principali proprietàdegli integrali definiti

i) ∫ a

a

f(x)dx = 0;

ii) dato un numero reale k ∫ b

a

kf(x)dx = k

∫ b

a

f(x)dx;

iii) se f e g sono due funzioni continue nell’intervallo [a, b] si ha∫ b

a

(f(x) + g(x))dx =

∫ b

a

f(x)dx+

∫ b

a

g(x)dx.

M. Di Marzio 219 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 227: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A.15. Calcolo di integrali doppi

Se f è integrabile in [a, b], la funzione integrale di f in x ∈ [a, b] è definita da

F(x) =

∫ x

a

f(t)dt.

Dalle proprietà prima enunciate discende che

F(a) =

∫ a

a

f(x)dx = 0 e F(b) =

∫ b

a

f(x)dx.

Teorema A.1. (Teorema fondamentale del calcolo integrale) Se f è una funzione continua nell’intervallo[a, b], la corrispondente funzione integrale è derivabile in [a, b] e per ogni x ∈ [a, b] si ha

F′(x) = f(x).

Dal teorema fondamentale del calcolo integrale discende che la funzione integrale è una primitiva dellafunzione f .Data una primitiva F di f , l’integrale di f definito in [a, b] è uguale alla differenza tra il valore assunto da Fnell’estremo superiore ed il valore di F nell’estremo inferiore di integrazione; in simboli∫ b

a

f(x)dx = F (b)− F (a).

Il numero F (b)− F (a) viene generalmente scritto in forma simbolica come F (x)

∣∣∣∣ba

e perciò si ha

∫ b

a

f(x)dx = F (x)

∣∣∣∣ba

.

Esempio A.26. Sia f(x) = x. Poichè una primitiva di f(x) è F (x) = (x2)/2, si ha∫ 1

0

f(x)dx =x2

2

∣∣∣∣10

=1

2− 0 =

1

2.

Esempio A.27. Sia f(x) = ex. Poichè una primitiva di f(x) è F (x) = ex, risulta∫ 1

0

f(x)dx = ex∣∣∣∣10

= e1 − e0 = e− 1.

Esempio A.28. Sia f(x) = 1/(2x). Poichè una primitiva di f(x) è F (x) = log(2x)/2, risulta∫ 2

1

f(x)dx =log(2x)

2

∣∣∣∣21

=log 4− log 2

2=

log 2

2.

A.15 Calcolo di integrali doppiSia f una funzione di due variabili reali x e y. Il volume racchiuso dalla regione D del piano sotto il graficodi f(x, y) è ottenuto ricorrendo al calcolo dell’integrale doppio di f(x, y) su D.Formalmente, data la funzione f di variabili reali x e y, e la regione

D = (x, y) ∈ R2 : a ≤ x ≤ b, g1(x) ≤ y ≤ g2(x),

dove g1 e g2 sono funzioni continue in [a, b], se esiste l’integrale

F(x) =

∫ g2(x)

g1(x)

f(x, y)dy, per ogni x ∈ [a, b],

ed F è integrabile in [a, b], allora

I =∫ b

a

F(x)dx =

∫ b

a

[∫ g2(x)

g1(x)

f(x, y)dy

]dx =

∫ ∫Df(x, y)dxdy

è l’integrale doppio di f(x, y). La regione D è detta anche dominio di integrazione.

Primi elementi di inferenza statistica (ed. maggio 2012) 220 M. Di Marzio

Page 228: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

A. ANALISI MATEMATICA

Esempio A.29. Data la funzione f(x, y) = ex−y e il dominio di integrazione

D = (x, y) ∈ R2 : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1,

l’integrale doppio di f(x, y) su D è definito da

I =

∫ 1

0

[∫ 1

0

ex−y dy

]dx,

e poichè risulta ∫ 1

0

ex−y dy = −ex−y

∣∣∣∣10

= −ex−1 − (−ex−0) = ex − ex−1,

si ha

I =

∫ 1

0

ex − ex−1 dx = ex − ex−1

∣∣∣∣10

= e− 1− (1− e−1) = e+ e−1 − 2.

Esempio A.30. Consideriamo la funzione f(x, y) = xy con dominio di integrazione

D = (x, y) ∈ R2 : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1− x.

L’integrale doppio di f(x, y) su D è definito da

I =

∫ 1

0

∫ 1−x

0

xy dydx.

Poiché risulta ∫ 1−x

0

xy dy = xy2

2

∣∣∣∣1−x

0

=x(1− x)2

2=

x3 − 2x2 + x

2,

si ha

I =

∫ 1

0

x3 − 2x2 + x

2dx =

1

2

(x4

4− 2

x3

3+

x2

2

) ∣∣∣∣10

=1

24.

Seguono alcune proprietà degli integrali doppi.Dato un numero reale k, si ha ∫ ∫

D

kf(x, y) dxdy = k

∫ ∫D

f(x, y) dxdy.

Date le funzioni g(x) e h(y) continue, rispettivamente, negli intervalli [a, b] e ∈ [c, d] si ha∫ b

a

∫ d

c

g(x)h(y)dxdy =

∫ b

a

g(x)dx

∫ d

c

h(y)dy.

Infine, data una funzione m(x), continua in [a, b], e data la regione

D = (x, y) ∈ R2 : a ≤ x ≤ b, c ≤ y ≤ d,

risulta ∫ ∫D

m(x)f(x, y) dxdy =

∫ b

a

∫ d

c

m(x)f(x, y) dxdy =

∫ b

a

m(x)

[∫ d

c

f(x, y) dy

]dx.

M. Di Marzio 221 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 229: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

BCalcolo combinatorio

IndiceB.1 Disposizioni e permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222B.2 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223B.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

B.1 Disposizioni e permutazioniScegliamo r oggetti da un insieme di n oggetti (r ≤ n) estraendoli uno dopo l’altro. Ogni possibile sequenzacosì ottenuta viene chiamata disposizione (o disposizione semplice). In generale, due disposizioni sidistinguono per la presenza di almeno un oggetto o per l’ordine. Se n = r le disposizioni sono anche dettepermutazioni e sono tra loro differenti solo per l’ordine.Ci si può chiedere quante sono le possibili disposizioni. A tale scopo basta fare il seguente ragionamento.Nella prima estrazione scegliamo dall’intero insieme di oggetti. Così, se r = 1, abbiamo n possibili sceltedi un oggetto. Per la seconda estrazione l’oggetto scelto non è più disponibile (è diventato il primo oggettodella disposizione) e così il numero di oggetti da cui si sceglie è n − 1. Così, se r = 2, abbiamo n(n − 1)possibili disposizioni. Per la terza estrazione gli oggetti scelti nella prima e nella seconda prova non sono piùdisponibili e così il numero di oggetti da cui scegliere è n− 2, allora le disposizioni possibili di r = 3 oggettisaranno n(n− 1)(n− 2). In generale, il numero di possibili disposizioni di n oggetti presi a r alla volta è:

nDr = n(n− 1) · · · (n− r + 1),

ma poichén! = n(n− 1) · · · (n− r + 1)(n− r)(n− r − 1) · · · (3)(2)(1)

moltiplicando e dividendo per (n− r)! si ottiene una più comoda rappresentazione:

nDr = n(n− 1) · · · (n− r + 1)

=n(n− 1) · · · (n− r + 1)(n− r)(n− r − 1) · · · (3)(2)(1)

(n− r)(n− r − 1) · · · (3)(2)(1)

=n!

(n− r)!.

Si noti che se n = r, poichè 0!=1, si ha

Pn =n Dn =n!

(n− n)!=

n!

0!= n!

Esempio B.1. Marco, Agnese e Fabiola si sfidano in una maratona. Il numero dei possibili diversi ordini di arrivoè pari al numero di permuatazioni dell’insieme Marco, Agnese, Fabiola. Quindi i possibili ordini di arrivo sono3! = 6, ossia:

MAF,MFA,FMA,FAM,AMF,AFM.

Primi elementi di inferenza statistica (ed. maggio 2012) 222 M. Di Marzio

Page 230: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

B. CALCOLO COMBINATORIO

B.2 CombinazioniSe da un insieme di n oggetti scegliamo r oggetti distinti (r ≤ n), senza tener conto dell’ordine in cui essisaranno disposti, allora ogni gruppo di r oggetti così ottenuto è chiamato combinazione.Si noti che, a differenza delle disposizioni, due combinazioni si possono distinguere solo per la presenza di unoggetto e non per l’ordine.La formula delle combinazioni si evince da quella delle disposizioni, tenendo presente che, in corrispondenzadi r! disposizioni che hanno gli stessi oggetti e che quindi differiscono solo per l’ordine, abbiamo una solacombinazione. Allora le combinazioni di n oggetti presi r alla volta, indicate con nCr , saranno pari a:

nCr =nDr

r!=

n!

(n− r)!r!.

Il rapporto a destra dell’uguaglianza è generalmente indicato con(nr

)che si legge n sopra r ed è detto

coefficiente binomiale.

Esempio B.2. Si determini quante disposizioni e combinazioni di tre lettere si possono formare con W,X, Y, Z.

4D3 =4!

(4− 3)!= 24; 4C3 =

4D3

3!=

4!

(4− 3)!3!= 4,

inoltre si considerino le 24 disposizioni come rappresentate nella tabella seguente

WXY WYX XWY XYW YWX YXWWXZ WZX XWZ XZW ZWX ZXWWZY WYZ ZWY ZYW YWZ YZWXYZ XZY YXZ YZX ZXY ZYX

subito emerge che ad ogni riga di 6 = (3!) disposizioni corrisponde una sola combinazione.

B.3 Disposizioni con ripetizioneSia nel caso delle disposizioni, sia nel caso delle combinazioni scegliamo r oggetti da un insieme di n oggetti(r ≤ n) senza reinserimento. Un caso diverso si ha quando ogni volta che estraiamo un oggetto lo reinseriamo.Il reinserimento rende possibile la presenza di un oggetto fino a r volte nel gruppo.Chiamiamo disposizioni con ripetizione, tutti quei gruppi di r oggetti che si possono formare a partireda n oggetti, dove due gruppi sono diversi per la presenza di un elemento o per l’ordine, e dove un elementopuò presentarsi più di una volta. Ma quante sono le possibili disposizioni? La risposta è molto semplice.Poichè operiamo il reinserimento, al primo posto del gruppo può esserci qualunque oggetto degli n, ma ancheal secondo, al terzo e così via, così per gruppi da un elemento avremmo n disposizioni, per gruppi da dueelementi avremmo n× n disposizioni, per gruppi da tre elementi n× n× n disposizioni, e così via.In generale abbiamo il seguente numero di disposizioni con ripetizione

nDr = n× n · · · × n︸ ︷︷ ︸r volte

= nr.

Esempio B.3. Si consideri il seguente gruppo di n = 4 oggetti a, b, c, d. Quali sono le disposizioni semplici, lecombinazioni e le disposizioni con ripetizione di ampiezza r = 2?Si hanno le seguenti 4!/(4− 2)! = 12 disposizioni semplici

ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc;

inoltre si hanno le seguenti 4!/[(4− 2)!2!] = 6 combinazioni

ab, ac, ad, bc, bd, cd;infine si hanno le seguenti 42 = 16 disposizioni con ripetizione

aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd.

M. Di Marzio 223 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 231: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

CTavole statistiche

Funzione di ripartizione della distribuzione normale standard

Centili superiori della distribuzione t di Student

Centili superiori della distribuzione Chi-quadrato

Centili superiori della distribuzione F di Fisher

Primi elementi di inferenza statistica (ed. maggio 2012) 224 M. Di Marzio

Page 232: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

C. TAVOLE STATISTICHE

Funzione di ripartizione della distribuzione normale standardLa tavola fornisce i valori della v.c. Z e rispettiva funzione di ripartizione Φ(z) = P(Z ≤ z).

Φ(z)

z *

z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879

0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936

2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.99903.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.99933.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.99953.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.99973.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

M. Di Marzio 225 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 233: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Centili superiori della distribuzione t di StudentDati γ ed r, la tavola fornisce le soglie tγ,r tali che P(Tr > tγ,r) = γ. Per i test bidirezionali γ = α/2, per gli unidirezionali γ = α.

γ

tγ,r *

γr 0.40 0.30 0.20 0.10 0.050 0.025 0.010 0.005 0.0011 0.325 0.727 1.376 3.078 6.314 12.706 31.821 63.657 318.3092 0.289 0.617 1.061 1.886 2.920 4.303 6.965 9.9250 22.3273 0.277 0.584 0.978 1.638 2.353 3.182 4.541 5.8410 10.2154 0.271 0.569 0.941 1.533 2.132 2.776 3.747 4.604 7.1735 0.267 0.559 0.920 1.476 2.015 2.571 3.365 4.032 5.893

6 0.265 0.553 0.906 1.440 1.943 2.447 3.143 3.707 5.2087 0.263 0.549 0.896 1.415 1.895 2.365 2.998 3.499 4.7858 0.262 0.546 0.889 1.397 1.860 2.306 2.896 3.355 4.5019 0.261 0.543 0.883 1.383 1.833 2.262 2.821 3.250 4.29710 0.260 0.542 0.879 1.372 1.812 2.228 2.764 3.169 4.144

11 0.260 0.54 0.876 1.363 1.796 2.201 2.718 3.106 4.02512 0.259 0.539 0.873 1.356 1.782 2.179 2.681 3.055 3.93013 0.259 0.538 0.870 1.350 1.771 2.160 2.650 3.012 3.85214 0.258 0.537 0.868 1.345 1.761 2.145 2.624 2.977 3.78715 0.258 0.536 0.866 1.341 1.753 2.131 2.602 2.947 3.733

16 0.258 0.535 0.865 1.337 1.746 2.120 2.583 2.921 3.68617 0.257 0.534 0.863 1.333 1.740 2.110 2.567 2.898 3.64618 0.257 0.534 0.862 1.330 1.734 2.101 2.552 2.878 3.61019 0.257 0.533 0.861 1.328 1.729 2.093 2.539 2.861 3.57920 0.257 0.533 0.860 1.325 1.725 2.086 2.528 2.845 3.552

21 0.257 0.532 0.859 1.323 1.721 2.080 2.518 2.831 3.52722 0.256 0.532 0.858 1.321 1.717 2.074 2.508 2.819 3.50523 0.256 0.532 0.858 1.319 1.714 2.069 2.500 2.807 3.48524 0.256 0.531 0.857 1.318 1.711 2.064 2.492 2.797 3.46725 0.256 0.531 0.856 1.316 1.708 2.060 2.485 2.787 3.450

26 0.256 0.531 0.856 1.315 1.706 2.056 2.479 2.779 3.43527 0.256 0.531 0.855 1.314 1.703 2.052 2.473 2.771 3.42128 0.256 0.530 0.855 1.313 1.701 2.048 2.467 2.763 3.40829 0.256 0.530 0.854 1.311 1.699 2.045 2.462 2.756 3.39630 0.256 0.530 0.854 1.310 1.697 2.042 2.457 2.750 3.385

31 0.256 0.530 0.853 1.309 1.696 2.040 2.453 2.744 3.37532 0.255 0.530 0.853 1.309 1.694 2.037 2.449 2.738 3.36533 0.255 0.530 0.853 1.308 1.692 2.035 2.445 2.733 3.35634 0.255 0.529 0.852 1.307 1.691 2.032 2.441 2.728 3.34835 0.255 0.529 0.852 1.306 1.690 2.030 2.438 2.724 3.340

36 0.255 0.529 0.852 1.306 1.688 2.028 2.434 2.719 3.33337 0.255 0.529 0.851 1.305 1.687 2.026 2.431 2.715 3.32638 0.255 0.529 0.851 1.304 1.686 2.024 2.429 2.712 3.31939 0.255 0.529 0.851 1.304 1.685 2.023 2.426 2.708 3.31340 0.255 0.529 0.851 1.303 1.684 2.021 2.423 2.704 3.307

41 0.255 0.529 0.850 1.303 1.683 2.020 2.421 2.701 3.30142 0.255 0.528 0.850 1.302 1.682 2.018 2.418 2.698 3.29643 0.255 0.528 0.850 1.302 1.681 2.017 2.416 2.695 3.29144 0.255 0.528 0.850 1.301 1.680 2.015 2.414 2.692 3.28645 0.255 0.528 0.850 1.301 1.679 2.014 2.412 2.690 3.281

46 0.255 0.528 0.850 1.300 1.679 2.013 2.410 2.687 3.27747 0.255 0.528 0.849 1.300 1.678 2.012 2.408 2.685 3.27348 0.255 0.528 0.849 1.299 1.677 2.011 2.407 2.682 3.26949 0.255 0.528 0.849 1.299 1.677 2.010 2.405 2.680 3.26550 0.255 0.528 0.849 1.299 1.676 2.009 2.403 2.678 3.261∞ 0.253 0.524 0.842 1.282 1.645 1.690 2.326 2.576 3.090

Primi elementi di inferenza statistica (ed. maggio 2012) 226 M. Di Marzio

Page 234: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

C. TAVOLE STATISTICHE

Centili superiori della distribuzione Chi-quadratoDati α ed r, la tavola fornisce i valori χ2

α,r tali che P(X2r > χ2

α,r) = α.

* χα,r2

α

αr 0.995 0.99 0.9750 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.0250 0.01 0.005 0.0011 0.00 0.00 0.00 0.00 0.02 0.10 0.45 1.32 2.71 3.84 5.02 6.63 7.88 10.832 0.01 0.02 0.05 0.10 0.21 0.58 1.39 2.77 4.61 5.99 7.38 9.21 10.60 13.823 0.07 0.11 0.22 0.35 0.58 1.21 2.37 4.11 6.25 7.81 9.35 11.34 12.84 16.274 0.21 0.30 0.48 0.71 1.06 1.92 3.36 5.39 7.78 9.49 11.14 13.28 14.86 18.475 0.41 0.55 0.83 1.15 1.61 2.67 4.35 6.63 9.24 11.07 12.83 15.09 16.75 20.526 0.68 0.87 1.24 1.64 2.20 3.45 5.35 7.84 10.64 12.59 14.45 16.81 18.55 22.467 0.99 1.24 1.69 2.17 2.83 4.25 6.35 9.04 12.02 14.07 16.01 18.48 20.28 24.328 1.34 1.65 2.18 2.73 3.49 5.07 7.34 10.22 13.36 15.51 17.53 20.09 21.95 26.129 1.73 2.09 2.70 3.33 4.17 5.90 8.34 11.39 14.68 16.92 19.02 21.67 23.59 27.8810 2.16 2.56 3.25 3.94 4.87 6.74 9.34 12.55 15.99 18.31 20.48 23.21 25.19 29.59

11 2.60 3.05 3.82 4.57 5.58 7.58 10.34 13.70 17.28 19.68 21.92 24.72 26.76 31.2612 3.07 3.57 4.40 5.23 6.30 8.44 11.34 14.85 18.55 21.03 23.34 26.22 28.30 32.9113 3.57 4.11 5.01 5.89 7.04 9.30 12.34 15.98 19.81 22.36 24.74 27.69 29.82 34.5314 4.07 4.66 5.63 6.57 7.79 10.17 13.34 17.12 21.06 23.68 26.12 29.14 31.32 36.1215 4.60 5.23 6.26 7.26 8.55 11.04 14.34 18.25 22.31 25.00 27.49 30.58 32.80 37.7016 5.14 5.81 6.91 7.96 9.31 11.91 15.34 19.37 23.54 26.30 28.85 32.00 34.27 39.2517 5.70 6.41 7.56 8.67 10.09 12.79 16.34 20.49 24.77 27.59 30.19 33.41 35.72 40.7918 6.26 7.01 8.23 9.39 10.86 13.68 17.34 21.60 25.99 28.87 31.53 34.81 37.16 42.3119 6.84 7.63 8.91 10.12 11.65 14.56 18.34 22.72 27.20 30.14 32.85 36.19 38.58 43.8220 7.43 8.26 9.59 10.85 12.44 15.45 19.34 23.83 28.41 31.41 34.17 37.57 40.00 45.31

21 8.03 8.90 10.28 11.59 13.24 16.34 20.34 24.93 29.62 32.67 35.48 38.93 41.40 46.8022 8.64 9.54 10.98 12.34 14.04 17.24 21.34 26.04 30.81 33.92 36.78 40.29 42.80 48.2723 9.26 10.20 11.69 13.09 14.85 18.14 22.34 27.14 32.01 35.17 38.08 41.64 44.18 49.7324 9.89 10.86 12.40 13.85 15.66 19.04 23.34 28.24 33.20 36.42 39.36 42.98 45.56 51.1825 10.52 11.52 13.12 14.61 16.47 19.94 24.34 29.34 34.38 37.65 40.65 44.31 46.93 52.6226 11.16 12.20 13.84 15.38 17.29 20.84 25.34 30.43 35.56 38.89 41.92 45.64 48.29 54.0527 11.81 12.88 14.57 16.15 18.11 21.75 26.34 31.53 36.74 40.11 43.19 46.96 49.64 55.4828 12.46 13.56 15.31 16.93 18.94 22.66 27.34 32.62 37.92 41.34 44.46 48.28 50.99 56.8929 13.12 14.26 16.05 17.71 19.77 23.57 28.34 33.71 39.09 42.56 45.72 49.59 52.34 58.3030 13.79 14.95 16.79 18.49 20.60 24.48 29.34 34.80 40.26 43.77 46.98 50.89 53.67 59.70

31 14.46 15.66 17.54 19.28 21.43 25.39 30.34 35.89 41.42 44.99 48.23 52.19 55.00 61.1032 15.13 16.36 18.29 20.07 22.27 26.30 31.34 36.97 42.58 46.19 49.48 53.49 56.33 62.4933 15.82 17.07 19.05 20.87 23.11 27.22 32.34 38.06 43.75 47.40 50.73 54.78 57.65 63.8734 16.50 17.79 19.81 21.66 23.95 28.14 33.34 39.14 44.90 48.60 51.97 56.06 58.96 65.2535 17.19 18.51 20.57 22.47 24.80 29.05 34.34 40.22 46.06 49.80 53.20 57.34 60.27 66.6236 17.89 19.23 21.34 23.27 25.64 29.97 35.34 41.30 47.21 51.00 54.44 58.62 61.58 67.9937 18.59 19.96 22.11 24.07 26.49 30.89 36.34 42.38 48.36 52.19 55.67 59.89 62.88 69.3538 19.29 20.69 22.88 24.88 27.34 31.81 37.34 43.46 49.51 53.38 56.90 61.16 64.18 70.7039 20.00 21.43 23.65 25.70 28.20 32.74 38.34 44.54 50.66 54.57 58.12 62.43 65.48 72.0540 20.71 22.16 24.43 26.51 29.05 33.66 39.34 45.62 51.81 55.76 59.34 63.69 66.77 73.40

45 24.31 25.90 28.37 30.61 33.35 38.29 44.34 50.98 57.51 61.66 65.41 69.96 73.17 80.0850 27.99 29.71 32.36 34.76 37.69 42.94 49.33 56.33 63.17 67.50 71.42 76.15 79.49 86.6655 31.73 33.57 36.40 38.96 42.06 47.61 54.33 61.66 68.80 73.31 77.38 82.29 85.75 93.1760 35.53 37.48 40.48 43.19 46.46 52.29 59.33 66.98 74.40 79.08 83.30 88.38 91.95 99.6165 39.38 41.44 44.60 47.45 50.88 56.99 64.33 72.28 79.97 84.82 89.18 94.42 98.11 105.9970 43.28 45.44 48.76 51.74 55.33 61.70 69.33 77.58 85.53 90.53 95.02 1.43 104.21 112.3275 47.21 49.48 52.94 56.05 59.79 66.42 74.33 82.86 91.06 96.22 1.84 106.39 110.29 118.6080 51.17 53.54 57.15 60.39 64.28 71.14 79.33 88.13 96.58 101.88 106.63 112.33 116.32 124.8485 55.17 57.63 61.39 64.75 68.78 75.88 84.33 93.39 102.08 107.52 112.39 118.24 122.32 131.0490 59.20 61.75 65.65 69.13 73.29 80.62 89.33 98.65 107.57 113.15 118.14 124.12 128.30 137.2195 63.25 65.90 69.92 73.52 77.82 85.38 94.33 103.90 113.04 118.75 123.86 129.97 134.25 143.34100 67.33 70.06 74.22 77.93 82.36 90.13 99.33 109.14 118.50 124.34 129.56 135.81 140.17 149.45

M. Di Marzio 227 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 235: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Centili

superiori

delladistribuzione

Fdi

Fisher

Per

livellidiα

pari

a0.05,

0.01,

0.001,

ele

coppie

(r1,r2),

latavola

fornisce

ivalori

fα,r

1,r

2tali

cheP(F

r1,r

2>

fα,r

1,r

2)=

α.

* fα,r1 ,r2 α

r1

12

34

56

78

910

12

15

20

30

60

120

∞α

r2

0.05

1161.45

199.5215.71

224.58230.16

233.99236.77

238.88240.54

241.88243.91

245.95248.01

250.1252.2

253.25254.32

0.01

14052.2

4999.55403.4

5624.65763.6

58595928.4

5981.16022.5

6055.96106.3

6157.36208.7

6260.66313

6339.46365.6

0.05

218.51

1919.16

19.2519.3

19.3319.35

19.3719.38

19.419.41

19.4319.45

19.4619.48

19.4919.5

0.01

298.5

9999.17

99.2599.3

99.3399.36

99.3799.39

99.499.42

99.4399.45

99.4799.48

99.4999.5

0.05

310.13

9.559.28

9.129.01

8.948.89

8.858.81

8.798.74

8.78.66

8.628.57

8.558.53

0.01

334.12

30.8229.46

28.7128.24

27.9127.67

27.4927.35

27.2327.05

26.8726.69

26.526.32

26.2226.13

0.001

3167.03

148.5141.11

137.1134.58

132.85131.58

130.62129.86

129.25128.32

127.37126.42

125.45124.47

123.97123.46

0.05

47.71

6.946.59

6.396.26

6.166.09

6.046

5.965.91

5.865.8

5.755.69

5.665.63

0.01

421.2

1816.69

15.9815.52

15.2114.98

14.814.66

14.5514.37

14.214.02

13.8413.65

13.5613.46

0.001

474.14

61.2556.18

53.4451.71

50.5349.66

4948.47

48.0547.41

46.7646.1

45.4344.75

44.444.05

0.05

56.61

5.795.41

5.195.05

4.954.88

4.824.77

4.744.68

4.624.56

4.54.43

4.44.37

0.01

516.26

13.2712.06

11.3910.97

10.6710.46

10.2910.16

10.059.89

9.729.55

9.389.2

9.119.02

0.001

547.18

37.1233.2

31.0929.75

28.8328.16

27.6527.24

26.9226.42

25.9125.39

24.8724.33

24.0623.79

0.05

65.99

5.144.76

4.534.39

4.284.21

4.154.1

4.064

3.943.87

3.813.74

3.73.67

0.01

613.75

10.929.78

9.158.75

8.478.26

8.17.98

7.877.72

7.567.4

7.237.06

6.976.88

0.001

635.51

2723.7

21.9220.8

20.0319.46

19.0318.69

18.4117.99

17.5617.12

16.6716.21

15.9815.75

0.05

75.59

4.744.35

4.123.97

3.873.79

3.733.68

3.643.57

3.513.44

3.383.3

3.273.23

0.01

712.25

9.558.45

7.857.46

7.196.99

6.846.72

6.626.47

6.316.16

5.995.82

5.745.65

0.001

729.25

21.6918.77

17.216.21

15.5215.02

14.6314.33

14.0813.71

13.3212.93

12.5312.12

11.9111.7

0.05

85.32

4.464.07

3.843.69

3.583.5

3.443.39

3.353.28

3.223.15

3.083.01

2.972.93

0.01

811.26

8.657.59

7.016.63

6.376.18

6.035.91

5.815.67

5.525.36

5.25.03

4.954.86

0.001

825.41

18.4915.83

14.3913.48

12.8612.4

12.0511.77

11.5411.19

10.8410.48

10.119.73

9.539.33

0.05

95.12

4.263.86

3.633.48

3.373.29

3.233.18

3.143.07

3.012.94

2.862.79

2.752.71

0.01

910.56

8.026.99

6.426.06

5.85.61

5.475.35

5.265.11

4.964.81

4.654.48

4.44.31

0.001

922.86

16.3913.9

12.5611.71

11.1310.7

10.3710.11

9.899.57

9.248.9

8.558.19

87.81

0.05

10

4.964.1

3.713.48

3.333.22

3.143.07

3.022.98

2.912.85

2.772.7

2.622.58

2.540.01

10

10.047.56

6.555.99

5.645.39

5.25.06

4.944.85

4.714.56

4.414.25

4.084

3.910.001

10

21.0414.91

12.5511.28

10.489.93

9.529.2

8.968.75

8.458.13

7.87.47

7.126.94

6.760.05

11

4.843.98

3.593.36

3.23.09

3.012.95

2.92.85

2.792.72

2.652.57

2.492.45

2.40.01

11

9.657.21

6.225.67

5.325.07

4.894.74

4.634.54

4.44.25

4.13.94

3.783.69

3.360.001

11

19.6913.81

11.5610.35

9.589.05

8.668.35

8.127.92

7.637.32

7.016.68

6.356.186

6-con

tinua-

Primi elementi di inferenza statistica (ed. maggio 2012) 228 M. Di Marzio

Page 236: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

C. TAVOLE STATISTICHE

-seg

ue-

r1

12

34

56

78

910

12

15

20

30

60

120

∞α

r2

0.05

12

4.75

3.89

3.49

3.26

3.11

32.

912.

852.

82.

752.

692.

622.

542.

472.

382.

342.

30.01

12

9.33

6.93

5.95

5.41

5.06

4.82

4.64

4.5

4.39

4.3

4.16

4.01

3.86

3.7

3.54

3.45

3.36

0.001

12

18.6

412

.97

10.8

9.63

8.89

8.38

87.

717.

487.

297

6.71

6.4

6.09

5.76

5.59

5.42

0.05

13

4.67

3.81

3.41

3.18

3.03

2.92

2.83

2.77

2.71

2.67

2.6

2.53

2.46

2.38

2.3

2.25

2.21

0.01

13

9.07

6.7

5.74

5.21

4.86

4.62

4.44

4.3

4.19

4.1

3.96

3.82

3.66

3.51

3.34

3.25

3.17

0.001

13

17.8

212

.31

10.2

19.

078.

357.

867.

497.

216.

986.

86.

526.

235.

935.

635.

35.

144.

970.05

14

4.6

3.74

3.34

3.11

2.96

2.85

2.76

2.7

2.65

2.6

2.53

2.46

2.39

2.31

2.22

2.18

2.13

0.01

14

8.86

6.51

5.56

5.04

4.69

4.46

4.28

4.14

4.03

3.94

3.8

3.66

3.51

3.35

3.18

3.09

30.001

14

17.1

411

.78

9.73

8.62

7.92

7.44

7.08

6.8

6.58

6.4

6.13

5.85

5.56

5.25

4.94

4.77

4.6

0.05

15

4.54

3.68

3.29

3.06

2.9

2.79

2.71

2.64

2.59

2.54

2.48

2.4

2.33

2.25

2.16

2.11

2.07

0.01

15

8.68

6.36

5.42

4.89

4.56

4.32

4.14

43.

893.

83.

673.

523.

373.

213.

052.

962.

870.001

15

16.5

911

.34

9.34

8.25

7.57

7.09

6.74

6.47

6.26

6.08

5.81

5.54

5.25

4.95

4.64

4.47

4.31

0.05

16

4.49

3.63

3.24

3.01

2.85

2.74

2.66

2.59

2.54

2.49

2.42

2.35

2.28

2.19

2.11

2.06

2.01

0.01

16

8.53

6.23

5.29

4.77

4.44

4.2

4.03

3.89

3.78

3.69

3.55

3.41

3.26

3.1

2.93

2.84

2.75

0.001

16

16.1

210

.97

9.01

7.94

7.27

6.8

6.46

6.19

5.98

5.81

5.55

5.27

4.99

4.7

4.39

4.23

4.06

0.05

17

4.45

3.59

3.2

2.96

2.81

2.7

2.61

2.55

2.49

2.45

2.38

2.31

2.23

2.15

2.06

2.01

1.96

0.01

17

8.4

6.11

5.18

4.67

4.34

4.1

3.93

3.79

3.68

3.59

3.46

3.31

3.16

32.

832.

752.

650.001

17

15.7

210

.66

8.73

7.68

7.02

6.56

6.22

5.96

5.75

5.58

5.32

5.05

4.78

4.48

4.18

4.02

3.85

0.05

18

4.41

3.55

3.16

2.93

2.77

2.66

2.58

2.51

2.46

2.41

2.34

2.27

2.19

2.11

2.02

1.97

1.92

0.01

18

8.29

6.01

5.09

4.58

4.25

4.01

3.84

3.71

3.6

3.51

3.37

3.23

3.08

2.92

2.75

2.66

2.57

0.001

18

15.3

810

.39

8.49

7.46

6.81

6.35

6.02

5.76

5.56

5.39

5.13

4.87

4.59

4.3

43.

843.

670.05

19

4.38

3.52

3.13

2.9

2.74

2.63

2.54

2.48

2.42

2.38

2.31

2.23

2.16

2.07

1.98

1.93

1.88

0.01

19

8.18

5.93

5.01

4.5

4.17

3.94

3.77

3.63

3.52

3.43

3.3

3.15

32.

842.

672.

582.

490.001

19

15.0

810

.16

8.28

7.27

6.62

6.18

5.85

5.59

5.39

5.22

4.97

4.7

4.43

4.14

3.84

3.68

3.51

0.05

20

4.35

3.49

3.1

2.87

2.71

2.6

2.51

2.45

2.39

2.35

2.28

2.2

2.12

2.04

1.95

1.9

1.84

0.01

20

8.1

5.85

4.94

4.43

4.1

3.87

3.7

3.56

3.46

3.37

3.23

3.09

2.94

2.78

2.61

2.52

2.42

0.001

20

14.8

29.

958.

17.

16.

466.

025.

695.

445.

245.

084.

824.

564.

294

3.7

3.54

3.38

0.05

21

4.32

3.47

3.07

2.84

2.68

2.57

2.49

2.42

2.37

2.32

2.25

2.18

2.1

2.01

1.92

1.87

1.81

0.01

21

8.02

5.78

4.87

4.37

4.04

3.81

3.64

3.51

3.4

3.31

3.17

3.03

2.88

2.72

2.55

2.46

2.36

0.001

21

14.5

99.

777.

946.

956.

325.

885.

565.

315.

114.

954.

74.

444.

173.

883.

583.

423.

260.05

22

4.3

3.44

3.05

2.82

2.66

2.55

2.46

2.4

2.34

2.3

2.23

2.15

2.07

1.98

1.89

1.84

1.78

0.01

22

7.95

5.72

4.82

4.31

3.99

3.76

3.59

3.45

3.35

3.26

3.12

2.98

2.83

2.67

2.5

2.4

2.31

0.001

22

14.3

89.

617.

86.

816.

195.

765.

445.

194.

994.

834.

584.

334.

063.

783.

483.

323.

150.05

23

4.28

3.42

3.03

2.8

2.64

2.53

2.44

2.37

2.32

2.27

2.2

2.13

2.05

1.96

1.86

1.81

1.76

0.01

23

7.88

5.66

4.76

4.26

3.94

3.71

3.54

3.41

3.3

3.21

3.07

2.93

2.78

2.62

2.45

2.35

2.26

0.001

23

14.2

9.47

7.67

6.7

6.08

5.65

5.33

5.09

4.89

4.73

4.48

4.23

3.96

3.68

3.38

3.22

3.05

0.05

24

4.26

3.4

3.01

2.78

2.62

2.51

2.42

2.36

2.3

2.25

2.18

2.11

2.03

1.94

1.84

1.79

1.73

0.01

24

7.82

5.61

4.72

4.22

3.9

3.67

3.5

3.36

3.26

3.17

3.03

2.89

2.74

2.58

2.4

2.31

2.21

0.001

24

14.0

39.

347.

556.

595.

985.

555.

234.

994.

84.

644.

394.

143.

873.

593.

293.

142.

970.05

25

4.24

3.39

2.99

2.76

2.6

2.49

2.4

2.34

2.28

2.24

2.16

2.09

2.01

1.92

1.82

1.77

1.71

0.01

25

7.77

5.57

4.68

4.18

3.85

3.63

3.46

3.32

3.22

3.13

2.99

2.85

2.7

2.54

2.36

2.27

2.17

0.001

25

13.8

89.

227.

456.

495.

895.

465.

154.

914.

714.

564.

314.

063.

793.

523.

223.

062.

89-c

ontinua-

M. Di Marzio 229 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 237: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

-segue-

r1

12

34

56

78

910

12

15

20

30

60

120

∞α

r2

0.05

26

4.233.37

2.982.74

2.592.47

2.392.32

2.272.22

2.152.07

1.991.9

1.81.75

1.690.01

26

7.725.53

4.644.14

3.823.59

3.423.29

3.183.09

2.962.81

2.662.5

2.332.23

2.130.001

26

13.749.12

7.366.41

5.85.38

5.074.83

4.644.48

4.243.99

3.723.44

3.152.99

2.820.05

27

4.213.35

2.962.73

2.572.46

2.372.31

2.252.2

2.132.06

1.971.88

1.791.73

1.670.01

27

7.685.49

4.64.11

3.783.56

3.393.26

3.153.06

2.932.78

2.632.47

2.292.2

2.10.001

27

13.619.02

7.276.33

5.735.31

54.76

4.574.41

4.173.92

3.663.38

3.082.92

2.750.05

28

4.23.34

2.952.71

2.562.45

2.362.29

2.242.19

2.122.04

1.961.87

1.771.71

1.650.01

28

7.645.45

4.574.07

3.753.53

3.363.23

3.123.03

2.92.75

2.62.44

2.262.17

2.060.001

28

13.58.93

7.196.25

5.665.24

4.934.69

4.54.35

4.113.86

3.63.32

3.022.86

2.690.05

29

4.183.33

2.932.7

2.552.43

2.352.28

2.222.18

2.12.03

1.941.85

1.751.7

1.640.01

29

7.65.42

4.544.04

3.733.5

3.333.2

3.093

2.872.73

2.572.41

2.232.14

2.030.001

29

13.398.85

7.126.19

5.595.18

4.874.64

4.454.29

4.053.8

3.543.27

2.972.81

2.640.05

30

4.173.32

2.922.69

2.532.42

2.332.27

2.212.16

2.092.01

1.931.84

1.741.68

1.620.01

30

7.565.39

4.514.02

3.73.47

3.33.17

3.072.98

2.842.7

2.552.39

2.212.11

2.010.001

30

13.298.77

7.056.12

5.535.12

4.824.58

4.394.24

43.75

3.493.22

2.922.76

2.590.05

35

4.123.27

2.872.64

2.492.37

2.292.22

2.162.11

2.041.96

1.881.79

1.681.62

1.560.01

35

7.425.27

4.43.91

3.593.37

3.23.07

2.962.88

2.742.6

2.442.28

2.12

1.890.001

35

12.98.47

6.795.88

5.34.89

4.594.36

4.184.03

3.793.55

3.293.02

2.722.56

2.380.05

40

4.083.23

2.842.61

2.452.34

2.252.18

2.122.08

21.92

1.841.74

1.641.58

1.510.01

40

7.315.18

4.313.83

3.513.29

3.122.99

2.892.8

2.662.52

2.372.2

2.021.92

1.80.001

40

12.618.25

6.595.7

5.134.73

4.444.21

4.023.87

3.643.4

3.142.87

2.572.41

2.230.05

50

4.033.18

2.792.56

2.42.29

2.22.13

2.072.03

1.951.87

1.781.69

1.581.51

1.440.01

50

7.175.06

4.23.72

3.413.19

3.022.89

2.782.7

2.562.42

2.272.1

1.911.8

1.680.001

50

12.227.96

6.345.46

4.94.51

4.224

3.823.67

3.443.2

2.952.68

2.382.21

2.030.05

60

43.15

2.762.53

2.372.25

2.172.1

2.041.99

1.921.84

1.751.65

1.531.47

1.390.01

60

7.084.98

4.133.65

3.343.12

2.952.82

2.722.63

2.52.35

2.22.03

1.841.73

1.60.001

60

11.977.77

6.175.31

4.764.37

4.093.86

3.693.54

3.323.08

2.832.55

2.252.08

1.890.05

70

3.983.13

2.742.5

2.352.23

2.142.07

2.021.97

1.891.81

1.721.62

1.51.44

1.350.01

70

7.014.92

4.073.6

3.293.07

2.912.78

2.672.59

2.452.31

2.151.98

1.781.67

1.540.001

70

11.87.64

6.065.2

4.664.28

3.993.77

3.63.45

3.232.99

2.742.47

2.161.99

1.790.05

80

3.963.11

2.722.49

2.332.21

2.132.06

21.95

1.881.79

1.71.6

1.481.41

1.320.01

80

6.964.88

4.043.56

3.263.04

2.872.74

2.642.55

2.422.27

2.121.94

1.751.63

1.490.001

80

11.677.54

5.975.12

4.584.2

3.923.7

3.533.39

3.162.93

2.682.41

2.11.92

1.720.05

90

3.953.1

2.712.47

2.322.2

2.112.04

1.991.94

1.861.78

1.691.59

1.461.39

1.30.01

90

6.934.85

4.013.53

3.233.01

2.842.72

2.612.52

2.392.24

2.091.92

1.721.6

1.460.001

90

11.577.47

5.915.06

4.534.15

3.873.65

3.483.34

3.112.88

2.632.36

2.051.87

1.660.05

100

3.943.09

2.72.46

2.312.19

2.12.03

1.971.93

1.851.77

1.681.57

1.451.38

1.280.01

100

6.94.82

3.983.51

3.212.99

2.822.69

2.592.5

2.372.22

2.071.89

1.691.57

1.430.001

100

11.57.41

5.865.02

4.484.11

3.833.61

3.443.3

3.072.84

2.592.32

2.011.83

1.620.05

∞3.84

32.6

2.372.21

2.12.01

1.941.88

1.831.75

1.671.57

1.461.32

1.221

0.01

∞6.63

4.613.78

3.323.02

2.82.64

2.512.41

2.322.18

2.041.88

1.71.47

1.321

0.001

∞10.83

6.915.42

4.624.10

3.743.47

3.273.10

2.962.74

2.512.27

1.991.66

1.451

Primi elementi di inferenza statistica (ed. maggio 2012) 230 M. Di Marzio

Page 238: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

DElenco delle abbreviazioni e dei simboli

v.c. variabile casualepdf funzione di distribuzione (densità) di probabilità di una v.c. discreta (continua)vv.cc. i.i.d. variabili casuali indipendenti e identicamente distribuiteTCL teorema centrale del limite= uguale= diverso< minore≤ minore o uguale> maggiore≥ maggiore o uguale± più e meno≃ approssimativamente uguale∝ proporzionale a⇒ implica⇔ se e solo sef : X → Y funzione f da X in Ylim limite∞ infinitoe numero di Neperoex; expx funzione esponenziale di variabile xlog x logaritmo di x in base e, logaritmo naturale di xmin minimomax massimosupA estremo superiore dell’insieme A∀ per ogniN insieme dei numeri naturaliZ insieme dei numeri interiZ+ insieme dei numeri interi positiviZ− insieme dei numeri interi negativiR insieme dei numeri realiR+ insieme dei numeri reali positiviR− insieme dei numeri reali negativiRk spazio dei numeri reali in k dimensioni∈ appartiene a, è elemento di/∈ non appartiene a, non è elemento di⊂ è un sottoinsieme proprio di⊆ è incluso in, è un sottoinsieme diA ∪ B unione degli insiemi A e BA ∩ B intersezione degli insiemi A e BA − B differenza tra gli insiemi A e BA × B prodotto cartesiano tra gli insiemi A e B∅ insieme vuotoA insieme complementare dell’insieme A♯A cardinalità dell’insieme AΩ spazio fondamentaleω evento elementareP(A) probabilità dell’evento AP(A|B) probabilità dell’evento A condizionata all’evento BP(A,B) probabilità dell’evento A ∩ Bf ′(x0) derivata della funzione f nel punto x0∫f(x)dx integrale indefinito della funzione f(x)∫ b

af(x)dx integrale definito della funzione f(x) nell’intervallo [a, b]∫

D

∫f(x, y)dxdy integrale della funzione f(x, y) nel dominio D

M. Di Marzio 231 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 239: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Pn permutazioni di n oggettipX pdf della v.c. discreta XfX pdf della v.c. continua XFX funzione di ripartizione della v.c. XpXY pdf della v.c. discreta (X,Y )fXY pdf della v.c. continua (X,Y )pY |x pdf della v.c. discreta Y dato X = xfY |x pdf della v.c. continua Y dato X = xE[X] valore atteso della v.c. XE[Y |x] valore atteso della distribuzione della v.c. Y condizionata ad X = xVar[X] varianza della v.c. XVar[Y |x] varianza della distribuzione della v.c. Y condizionata ad X = xDev[X] devianza della v.c. XCov[X,Y ] covarianza tra le vv .cc. X e YCod[X,Y ] codevianza tra le vv.cc. X e YρXY coefficiente di correlazione tra X e Yn! fattoriale di nkDn disposizioni di n oggetti a k a k

kCn;(nk

)combinazioni di n oggetti a k a k

X ∼ B(n, π) la v.c. X ha distribuzione binomiale di parametri n e πX ∼ G(π) la v.c. X ha distribuzione geometrica di parametro πX ∼ I(T, S, n) la v.c. X ha distribuzione ipergeometrica di parametri T , S e nX ∼ P(λt) la v.c. X ha distribuzione di Poisson di parametro λtX ∼ U(a, b) la v.c. X ha distribuzione uniforme in (a, b)X ∼ E(λ) la v.c. X ha distribuzione esponenziale di parametro λX ∼ N (µ, σ2) la v.c. X ha distribuzione normale con media µ e varianza σ2

Z v.c. normale standardΦ(·) funzione di ripartizione della v.c. normale standardTn v.c. t di Student con n gradi di libertàtα,n valore della v.c. Tn tale che P(Tn > tα,n) = αX2

n v.c. Chi-quadrato con n gradi di libertàχ2α,n valore della v.c. X2

n tale che P(X2n > χ2

α,n) = αFn,m v.c. F di Fisher con n e m gradi di libertàfα,n,m valore della v.c. Fn,m tale che P(Fn,m > fα,n,m) = αX spazio campionarioθ parametro generico di una distribuzioneΘ spazio parametricoΘ stimatore per punti di θθ stima per punti di θEQM[Θ] errore quadratico medio di Θdist[Θ] distorsione di ΘX v.c. media campionariax realizzazione della v.c. media campionariaS2 varianza campionarias2 realizzazione della v.c. varianza campionariaP v.c. proporzione campionariap realizzazione della v.c. proporzione campionariaR; RXY coefficiente di correlazione tra X e Y in funzione di un campione casualer; rxy valore di R (RXY ) in corrispondenza della realizzazione campionariaCOD; CODXY codevianza tra X e Y in funzione di un campione casualecod; codxy valore di COD (CODXY ) in corrispondenza della realizzazione campionariaDEV ; DEVX devianza di X in funzione di un campione casualedev; devx valore di DEV (DEVX) in corrispondenza della realizzazione campionariapX1X2...Xn funzione di distribuzione di probabilità congiunta del campione casuale X1, X2, ..., Xn

fX1X2...Xn funzione di densità di probabilità congiunta del campione casuale X1, X2, ..., Xn

L funzione di verosimiglianzaL funzione di log-verosimiglianzaIθ intervallo di confidenza per il parametro θiθ stima intervallare del parametro θErr errore campionarioA regione di accettazione di un test statisticoR regione di rifiuto di un test statisticoH0 ipotesi nullaH1 ipotesi alternativaR regione di rifiuto indotta da una statistica testα(θ) probabilità dell’errore di I tipo nella verifica di ipotesi su θβ(θ) probabilità dell’errore di II tipo nella verifica di ipotesi su θ℘(θ) funzione di potenza di un test sul parametro θγ livello di significatività osservatozα valore della v.c. Z tale che P(Z > zα) = αNij frequenza congiunta delle modalità Ai e Bj

Ni• frequenza della modalità Ai

N•j frequenza della modalità Bj

nij frequenza congiunta delle modalità xi e yj

ni• frequenza della modalità xi

n•j frequenza della modalità yj

E errore di predizioneEQMP[Y ] errore quadratico medio di predizione associato a YµY |x funzione di regressione di Y su XmY |x stima della funzione di regressione di Y su Xβ0, β1 parametri del predittore lineare ottimoB0, B1 stimatori di β0 e β1

b0, b1 stime di β0 e β1

R(t) funzione di affidabilitàλ(t) funzione tasso di guastoT tempo di interruzione del campionamento con prove simultanee o sequenziali

Primi elementi di inferenza statistica (ed. maggio 2012) 232 M. Di Marzio

Page 240: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Elenco delle figure

1.1 Alcune operazioni tra insiemi rappresentate attraverso diagrammi di Venn. . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Leggi di De Morgan tramite diagrammi di Venn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Andamento della frequenza relativa di teste su 1000 lanci di una moneta. . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4 Riduzione dello spazio fondamentale per effetto del verificarsi di A (risp. B). . . . . . . . . . . . . . . . . . . . . . . . . 71.5 Scomposizione di E indotta dalla partizione A,B,C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1 Rappesentazioni di vv.cc. discrete e continue con relative pdf. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5.1 Distribuzioni binomiali con diversi valori dei parametri n e π. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.2 Distribuzioni geometriche con diversi valori del parametro π. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405.3 Distribuzioni ipergeometriche con diversi valori dei parametri T , n e S. . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.4 Distribuzioni di Poisson con diversi valori del parametro λ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

7.1 Una funzione di densità di una v.c. normale con relativa funzione di ripartizione. . . . . . . . . . . . . . . . . . . . . . . 477.2 Distribuzioni normali con differenti valori di µ: −3, 0, 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.3 Distribuzioni normali con differenti valori di σ: 0.6, 1, 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.4 Standardizzazione di vv.cc. normali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.5 L’area ombreggiata indica la quantità P(X > 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497.6 Pdf e funzione di ripartizione di una v.c. uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507.7 Pdf e funzione di ripartizione di vv.cc. esponenziali per diversi valori di λ : 0.5, 1. . . . . . . . . . . . . . . . . . . . . . . 51

9.1 Grafico della pdf dell’esempio 9.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589.2 Grafico della pdf dell’esempio 9.13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629.3 Grafici di normali bivariate. Tutte hanno parametri µX = 0, µY = 0, σX = 1, σY = 1; nella prima riga ρXY = 0, nella

seconda ρXY = 0.8 e nella terza ρXY = −0.8. I pannelli di destra sono rappresentazioni tramite curve di livello. . . . . . 68

11.1 Funzioni di densità della v.c. X2r per diversi valori di r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

11.2 Funzioni di densità della v.c. Tr per diversi valori di r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8311.3 Funzioni di densità della v.c. Fr1,r2 per alcune coppie (r1, r2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8311.4 Distribuzioni di varie somme di vv.cc. uniformi indipendenti di parametri 0 e 1 con rispettive approssimazioni normali

date dal teorema centrale del limite (linea tratteggiata). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8411.5 Distribuzioni delle medie di n vv.cc. esponenziali indipendenti di parametro 1. Nel caso n = 30 è anche riportata la

rispettiva approssimazione normale data dal teorema centrale del limite (linea tratteggiata). . . . . . . . . . . . . . . . . 86

12.1 Istogrammi dei dati campionari. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8912.2 fX(·; θ) e fX(·; θ) (curva più concentrata). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

13.1 Funzioni di verosimiglianza dell’esempio 13.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9813.2 Funzione di log-verosimiglianza dell’esempio 13.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

15.1 Stime di µ = 0 tramite la media campionaria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10915.2 Errori quadratici medi degli stimatori W1 e W2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11115.3 Funzioni di verosimiglianza per diversi campioni da una pdf binomiale di parametri 1 e π . . . . . . . . . . . . . . . . . . 116

19.1 Funzioni di potenza dei test Γ1 e Γ2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13619.2 Funzioni di potenza dei test dell’esempio 19.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13719.3 Funzioni di potenza di due test per l’ipotesi H0 : θ ≤ −7 contro H1 : θ > −7. . . . . . . . . . . . . . . . . . . . . . . . . 13819.4 Funzioni di potenza del test dell’esempio 19.5 per varie numerosità campionarie. . . . . . . . . . . . . . . . . . . . . . . 139

20.1 Funzioni di potenza dei test Γ1 e Γ2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

23.1 Predittore ottimo dell’esempio 23.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17123.2 Esempio di modello predittivo lineare ottimo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

24.1 Rappresentazione grafica di dati bidimensionali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

25.1 Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo dell’esercizio 25.2. . . . . . . . . 18625.2 Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo. . . . . . . . . . . . . . . . . . . 187

26.1 Tipica funzione tasso di guasto per componenti elettronici. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19526.2 Tipica funzione tasso di guasto per componenti meccanici. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19626.3 Funzioni tasso di guasto per la densità normale con σ = 0.5, 1, 1.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19626.4 Funzioni tasso di guasto per la densità esponenziale con θ = 0.5, 1, 1.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

M. Di Marzio 233 Primi elementi di inferenza statistica (ed. maggio 2012)

Page 241: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Elenco delle figure

26.5 Funzioni tasso di guasto per la densità uniforme con b = 1, 2, 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19726.6 Sistema complesso con 6 componenti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20026.7 Sistema in serie con 4 componenti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20026.8 Sistema in parallelo con 3 componenti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

27.1 Sistema dell’esercizio 27.5 punto a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20527.2 Sistema dell’esercizio 27.5 punto b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20527.3 Sistema dell’esercizio 27.5 punto c). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20627.4 Sistema dell’esercizio 27.6 punto a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20627.5 Sistema dell’esercizio 27.6 punto b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20727.6 Sistema dell’esercizio 27.6 punto c). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

Primi elementi di inferenza statistica (ed. maggio 2012) 234 M. Di Marzio

Page 242: Primi elementi di inferenza statistica · 2016-06-05 · 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento

Elenco delle tabelle

1.1 Insiemi, probabilità ed esperimenti casuali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Incompatibilità ed indipendenza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

12.1 Alcune statistiche campionarie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

19.1 Possibili esiti della verifica di ipotesi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13619.2 Regioni di rifiuto per test sulla media di popolazioni normali con σ2 noto. . . . . . . . . . . . . . . . . . . . . . . . . . . 14119.3 Regioni di rifiuto per test sulla media di popolazioni normali con σ2 non noto. . . . . . . . . . . . . . . . . . . . . . . . 14219.4 Regione di rifiuto per test sulla differenza tra medie di due popolazioni normali con varianze note. . . . . . . . . . . . . . 14319.5 Regioni di rifiuto per test sulla differenza tra medie di due popolazioni normali con varianze non note. . . . . . . . . . . 14319.6 Regioni di rifiuto per test sulla proporzione per grandi campioni. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14419.7 Regioni di rifiuto per test sulla differenza di proporzioni per grandi campioni. . . . . . . . . . . . . . . . . . . . . . . . . 14419.8 Regioni di rifiuto per test sulla varianza di popolazioni normali con µ noto. . . . . . . . . . . . . . . . . . . . . . . . . . 14519.9 Regioni di rifiuto per test sulla varianza di popolazioni normali con µ non noto. . . . . . . . . . . . . . . . . . . . . . . . 145

21.1 Distribuzione di probabilità del carattere A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15721.2 Distribuzione doppia di probabilità dei caratteri A e B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15821.3 Distribuzione doppia di frequenza dei caratteri A e B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15821.4 Distribuzione di probabilità del carattere A presso t popolazioni. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16021.5 Distribuzione di frequenza del carattere A presso t campioni. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

24.1 Notazione per la distribuzione doppia di frequenza dei caratteri X e Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

M. Di Marzio 235 Primi elementi di inferenza statistica (ed. maggio 2012)