CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA...

32
B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 Campionamento e distribuzioni campionarie 143 CAP. 2 - CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE Introduzione Nella premessa a queste note si è avuto modo di distinguere la statistica descrittiva dalla statistica induttiva (inferenza statistica) sottolineando che si opera nel primo ambito quando si dispone di tutte le manifestazioni del fenomeno d’interesse, in tali circostanze la statistica (descrittiva) si risolve in un insieme di metodi che consentono una compattazione adeguata delle informazioni disponibili per rendere possibile o, quantomeno, facilitare la comprensione degli aspetti del fenomeno che più interessano (a fini conoscitivi e/o decisionali). Se per qualche motivo (perché impossibile o perché non conveniente) non si dispone di tutte le manifestazioni del fenomeno ma soltanto di un sottoinsieme di queste, si dispone cioè di un campione casuale di manifestazioni del fenomeno d’interesse, la statistica (induttiva) si caratterizza come l’insieme delle teorie e dei metodi che consentono di pervenire, utilizzando i dati campionari, a delle conclusioni che siano “il più vicino possibile” a quelle cui si sarebbe pervenuti disponendo di tutte le manifestazioni del fenomeno. Nel caso in cui si ritiene che il fenomeno sia governato da una legge esprimibile analiticamente (modello probabilistico), anche se nella generalità dei casi si tratta di una approssimazione alla realtà, qualunque insieme di manifestazioni del fenomeno a disposizione rappresenta necessariamente un campione essendo l’intera popolazione rappresentata dal modello (superpopolazione). 2.1 Campioni casuali Se con P si indica l’insieme di tutte le possibili manifestazioni del fenomeno di interesse e con C p un suo sottoinsieme (C p P), operando su C p (campione) si vogliono trarre conclusioni valide per P , si vuole, cioè, inferire dal campione alla popolazione. La statistica (induttiva) tratta in modo quasi esclusivo dei campioni casuali (campioni probabilistici), cioè, dei sottoinsiemi C p di P cui si perviene attraverso l’applicazione di un qualche meccanismo di selezione avente natura probabilistica. Non costituisce, quindi, parte integrante della statistica induttiva (inferenza statistica) l’analisi dei campioni non probabilistici; rientrano in quest’ultima categoria i cosiddetti campioni ragionati e quelli per i quali non è noto il meccanismo generatore.

Transcript of CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA...

Page 1: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

143

CAP. 2 - CAMPIONAMENTO e DISTRIBUZIONI

CAMPIONARIE

Introduzione

Nella premessa a queste note si è avuto modo di distinguere la statistica descrittiva

dalla statistica induttiva (inferenza statistica) sottolineando che si opera nel primo

ambito quando si dispone di tutte le manifestazioni del fenomeno d’interesse, in tali

circostanze la statistica (descrittiva) si risolve in un insieme di metodi che consentono

una compattazione adeguata delle informazioni disponibili per rendere possibile o,

quantomeno, facilitare la comprensione degli aspetti del fenomeno che più interessano

(a fini conoscitivi e/o decisionali).

Se per qualche motivo (perché impossibile o perché non conveniente) non si dispone

di tutte le manifestazioni del fenomeno ma soltanto di un sottoinsieme di queste, si

dispone cioè di un campione casuale di manifestazioni del fenomeno d’interesse, la

statistica (induttiva) si caratterizza come l’insieme delle teorie e dei metodi che

consentono di pervenire, utilizzando i dati campionari, a delle conclusioni che siano “il

più vicino possibile” a quelle cui si sarebbe pervenuti disponendo di tutte le

manifestazioni del fenomeno.

Nel caso in cui si ritiene che il fenomeno sia governato da una legge esprimibile

analiticamente (modello probabilistico), anche se nella generalità dei casi si tratta di una

approssimazione alla realtà, qualunque insieme di manifestazioni del fenomeno a

disposizione rappresenta necessariamente un campione essendo l’intera popolazione

rappresentata dal modello (superpopolazione).

2.1 Campioni casuali

Se con P si indica l’insieme di tutte le possibili manifestazioni del fenomeno di

interesse e con Cp un suo sottoinsieme (Cp P), operando su Cp (campione) si

vogliono trarre conclusioni valide per P , si vuole, cioè, inferire dal campione alla

popolazione.

La statistica (induttiva) tratta in modo quasi esclusivo dei campioni casuali

(campioni probabilistici), cioè, dei sottoinsiemi Cp di P cui si perviene attraverso

l’applicazione di un qualche meccanismo di selezione avente natura probabilistica. Non

costituisce, quindi, parte integrante della statistica induttiva (inferenza statistica)

l’analisi dei campioni non probabilistici; rientrano in quest’ultima categoria i cosiddetti

campioni ragionati e quelli per i quali non è noto il meccanismo generatore.

Page 2: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

144

E’ campionamento ragionato quello che individua le unità campionarie, cioè le unità

statistiche portatrici delle informazioni (manifestazioni del fenomeno d’interesse),

attraverso l’applicazione di procedure basate sull’impiego ragionato dell’informazione

disponibile al momento in cui si procede all’individuazione delle unità che andranno a

costituire il campione. In proposito si deve, comunque, sottolineare che le informazioni

disponibili costituiscono spesso la base di schemi di campionamento probabilistico più

complessi (campionamento sistematico, campionamento stratificato, campionamento a

grappolo, campionamento a più stadi, campionamento stratificato a più stadi, ecc.), ma

in tali circostanze le informazioni disponibili vengono utilizzate solo per incrementare

l’efficienza (attraverso una riduzione della variabilità campionaria) del processo di

induzione dal campione alla popolazione, e non per individuare le singole unità che

andranno a costituire il campione che saranno comunque estratte casualmente.

In questa sede si tratterà esclusivamente del campionamento casuale semplice; cioè,

dei campioni cui si perviene procedendo all’estrazione di n (dimensione del campione)

elementi che hanno la stessa probabilità di essere inclusi nel campione.

Nell’ambito del campionamento si ipotizzerà sempre (almeno a livello teorico)

l’esistenza di un modello probabilistico capace di rappresentare adeguatamente il

fenomeno che interessa analizzare. In altre parole, si assumerà che la popolazione P sia

rappresentata da una variabile casuale semplice o multipla con una propria funzione di

distribuzione non completamente nota. Ovviamente, se la funzione di distribuzione

fosse completamente nota si tornerebbe al caso di disponibilità completa di tutte le

possibili manifestazioni del fenomeno d’interesse.

Se si fa riferimento al caso unidimensionale, ma ragionamento analogo vale anche

nel caso multidimensionale, la situazione di riferimento è quella di una variabile casuale

semplice X con funzione di distribuzione 1 2 ; , ,...., ; kF x F x , dove

1 2( , ,...., ) k è l’insieme (vettore) dei parametri caratteristici del modello definiti

nello spazio parametrico kΘ kΘ ; cioè, lo spazio di variabilità dei parametri che

caratterizzano lo specifico modello, rappresentativo della specifica situazione reale,

nell’ambito della famiglia di distribuzioni espressa dalla funzione ,F .

Se, come avviene usualmente, si considera la funzione di massa (caso discreto) o di

densità (caso continuo) di probabilità della variabile casuale X , si dirà che si sta

trattando della variabile casuale semplice X con funzione di massa o di densità di

probabilità 1 2 ; , ,...., ; kf x f x .

Si è detto che esiste un problema di inferenza statistica quando la funzione di

distribuzione ,F non è completamente nota; al riguardo si possono distinguere

almeno due situazioni di mancanza di conoscenza: la prima situazione è quella

caratterizzata da una conoscenza parziale della funzione ; F x nel senso che si

conosce la forma analitica della funzione ma non si conosce il valore di tutti o di alcuni

parametri caratteristici della funzione stessa, in questa circostanza si parla di inferenza

statistica parametrica. La seconda situazione è quella d’ignoranza completa: non si

Page 3: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

145

conosce sia il valore dei parametri sia la forma analitica della funzione di massa o di

densità di probabilità; in questa circostanza si parla di inferenza statistica non

parametrica. Una terza situazione, intermedia rispetto alle due precedenti, è quella in

cui si specificano certe componenti del modello (ad esempio si suppone che la v.c.

appartenga alla famiglia esponenziale ma non si specifica la sottofamiglia: forma

funzionale della funzione di massa o di densità). Se si opera in tale contesto si parla di

inferenza statistica semi-parametrica, nel senso che la forma analitica del modello

probabilistico rappresentativo del fenomeno in esame è specificata solo parzialmente.

Si ricorda che la dizione inferenza statistica non parametrica non è certamente la più

appropriata in quanto interpretabile come se, in questo ambito, le procedure di statistica

induttiva non riguardassero i parametri. Ovviamente, questa interpretazione è

fuorviante, infatti, con la dizione “non parametrica” si vuole, molto semplicemente,

caratterizzare le situazioni inferenziali nelle quali non si conosce forma analitica e

valore dei parametri caratteristici, elementi questi entrambi coinvolti nelle procedure

inferenziali. La dizione corretta per caratterizzare tali situazioni è quella di inferenza

statistica libera da distribuzione (distribution free).

E’ già stato sottolineato che in queste note si parlerà in modo esclusivo di

campionamento casuale semplice; in realtà il limite è ancora più rigido, infatti, la

trattazione sarà limitata al campionamento casuale semplice con ripetizione

(campionamento bernoulliano), in questo contesto le variabili casuali associate a

ciascuna unità campionaria risultano indipendenti e identicamente distribuite (i.i.d.).

Al riguardo si deve, comunque, sottolineare che nelle situazioni reali, soprattutto

quando si procede all'estrazione di unità campionarie da popolazioni finite, il

campionamento che si realizza è quello esaustivo (campionamento casuale semplice

senza ripetizione), ma è anche vero che nella generalità dei casi le differenze tra i due

schemi di campionamento diventa operativamente irrilevante avendo a che fare con

popolazioni di dimensione molto elevate, dimensione che diventa infinita nel caso di

variabili casuali continue. Tale motivazione giustifica la trattazione del campionamento

bernoulliano molto più semplice dal punto di vista analitico. Al riguardo si sottolinea,

comunque, che i campioni casuali semplici senza ripetizione pur non soddisfacendo

l’ipotesi di indipendenza soddisfano l’ipotesi di scambiabilità1.

Definizione 1 Se X1, X2,...,Xn costituiscono un insieme di variabili casuali

indipendenti e identicamente distribuite (i.i.d.), la loro funzione di

massa o di densità di probabilità congiunta soddisfa l'uguaglianza

1 Nel caso di campionamento con ripetizione è soddisfatta la condizione (cfr. Definizione 1)

1 2

1

n

n i

i

F x ,x ,....,x ; F x ;

Mentre la condizione di scambiabilità è molto meno restrittiva e richiede il soddisfacimento della relazione

1 2 1 2n nF x ,x ,....,x ; F x ,x ,....,x ;

per tutte le permutazioni 1 , 2 ,....., .n

Page 4: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

146

1 2 1 2

1 2

1

n k

n

i n i

i

f x ,x ,....,x ; θ ,θ ,....,θ f ;

f x ; f x ; .... f x ; .... f x ; f x ;

x

allora si dice che l’insieme di variabili casuali i.i.d. X1, X2,...,Xn

costituisce un campione casuale semplice di n osservazioni

indipendenti relativo alla variabile casuale X che ha funzione di massa

o di densità di probabilità equivalente a quella (comune) di ciascuna

componente Xi del campione. Il punto campionario

1 2 , ,...., nX X XX' è definito nello spazio o universo dei campioni

ad n dimensioni nC nX C .

Nella formula sopra riportata con ; if x , per i = 1, 2,..,n, si è indicata la

funzione di massa, o di densità di probabilità, dell'i-esimo elemento costituente il

campione. Avendo supposto l'indipendenza tra le osservazioni campionarie, si avrà,

come già sottolineato, l'uguaglianza (equivalenza) tra la distribuzione della variabile

casuale X relativa alla popolazione e la variabile Xi (tale deve essere intesa a priori, cioè

prima dell'effettiva estrazione del campione) relativa all'i-esimo elemento campionario

(i = 1, 2 ...,n).

Dalla definizione risulta che se, ad esempio, si volesse estrarre un campione di n

elementi da una popolazione distribuita normalmente, con media e varianza 2 , la

funzione di densità di probabilità del campione casuale è

2

2

21

2 2

1 2 1 2

1

11 22

/22 21

, ,...., , ,...., ; , ; ,

1 1

2 2

n

ii

i

n

n n i

i

xn x

ni

f x x x f x x x f x

e e

Se l'estrazione del campione di n elementi riguardasse una v.c. di Poisson

caratterizzata dal parametro , la funzione di massa di probabilità del campione

casuale è:

1 2 1 2

1 1

, ,...., , ,...., ;

i

n n

xn nλ

i

i i i

f x x x f x x x

λf x ; λ e

x !

Alle due funzioni f(x1, x2,...,xn; µ, ) e f(x1,x2, ..., xn; ) sopra riportate e, in

generale, ad ogni funzione di massa o di densità di probabilità campionaria può essere

associata una seconda interpretazione che introduce nella trattazione un concetto di

estrema rilevanza: la funzione di verosimiglianza. Si tratta di una funzione del tutto

equivalente, in termini formali, alla funzione di massa o di densità di probabilità

campionaria, ma che da questa si diversifica sostanzialmente. Infatti, la funzione

2

Page 5: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

147

1 2

1

, ,...., ,...., ; ; ; n

i n i

i

f x x x x f f x

x

è detta di verosimiglianza quando alla n-pla 1 2, ,...., ,...., i nx x x x vengono attribuiti i

valori campionari osservati; pertanto, essendo 1 2, ,...., ,...., i nx x x x quantità note, la

1 2, ,...., ,...., ; i nf x x x x è, in realtà, funzione del solo parametro (o parametri)

per un campione prefissato. Per evidenziare questa particolare interpretazione si può

rappresentare algebricamente la funzione di verosimiglianza con l’espressione

1

/ /n

i

i

L L f x

X x

dove 1 2 , ,...., nX X XX' rappresenta la variabile casuale ad n dimensioni (vettore

casuale) associata alle n rilevazioni campionarie, mentre 1 2' , ,....., nx x xx

rappresenta il punto campionario, cioè una specifica determinazione del vettore casuale

X , definito nello spazio o universo dei campioni a n dimensioni .

Pertanto, nella prima interpretazione, la funzione

1

; ; n

i

i

f f x

x

si riferisce all’universo dei campioni, si tratta, come già sottolineato, di un riferimento a

priori, cioè prima dell’effettiva estrazione del campione. In questo contesto, le variabili

che interessano sono, appunto le n componenti, X1, X2,…,Xn, associate a ciascun punto

campionario per un dato valore del parametro , o del vettore dei parametri

Nella seconda interpretazione, la variabile di riferimento è il parametro (vettore dei

parametri) incognitoin quanto si assume l’avvenuta estrazione campionaria delle unità

statistiche di osservazione e le variabili associate a ciascuna unità (punto campionario)

hanno assunto una specifica determinazione, sono cioè delle costanti note, mentre

(parametro o vettore dei parametri) assume la natura di variabile essendo tale entità

un’incognita del problema. Al riguardo si sottolinea che nel contesto della così detta

inferenza statistica classica ,pur essendo teoricamente variabile in quanto incognito,

non ha la natura di variabile casuale, interpretazione questa, che come si avrà modo di

chiarire successivamente, è propria dell'inferenza statistica bayesiana. Un tentativo,

non completamente riuscito a parere delle scrivente, di attribuzione di natura aleatoria al

parametro (o parametri) è rappresentato dalla cosi detta inferenza fiduciale proposta da

Fisher nel 1930 attraverso l'introduzione del concetto di probabilità inversa che non ha

natura di distribuzione di probabilità a priori. Comunque, alcune generalizzazioni e

sviluppi recenti dell'inferenza fiduciale sembrano fornire una risposta soddisfacente ad

alcune perplessità insite nell'impostazione iniziale data da Fisher2.

2 Al riguardo si può consultare, tra gli altri, Hannig (2009), On generalized fiducial inference, Statistica Sinica, 19.

Page 6: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

148

Esempio 2.1

Si consideri una popolazione bernoulliana (variabile casuale di Bernoulli X che può assumere

i due valori 0, assenza del carattere, ed 1, presenza del carattere) con parametro caratteristico

= p e si supponga che da tale popolazione si voglia procedere all’estrazione di n = 6, n = 12

ed n = 36 unità campionarie rimettendo ogni volta l’unità estratta nella popolazione

(campionamento bernoulliano). In tali situazioni la funzione di massa di probabilità è quella

sotto riportata

f(x1,x2,…,xn;p) = )p;x(f i

n

i

1

=

n

i

i

n

i

i xnx

)p(p 11 1

dove basterà sostituire ad n i valori 6, 12 e 36.

Se si procede alla rilevazione campionaria nei tre casi sopra considerati e le sequenze

osservate sono, rispettivamente:

- (1,0,1,1,1,1) per n = 6 (x=5);

- (1,1,0,1,1,1,1,1,1,1,0,1) per n = 12 (x=10);

- (0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,0,0,1,1,1,1,1,0,1,0,1,1) per n = 36 (x=30).

Le funzioni di verosimiglianza sono :

L(p) = p5 (1-p)

1 per 0 p 1

L(p) = p10

(1-p)2 per 0 p 1

L(p) = p30

(1-p)6 per 0 p 1

la cui rappresentazione grafica è riportata alla pagina successiva.

Osservando la Fig. 2.1 si rileva in modo molto evidente la tendenza alla normalità della

funzione di verosimiglianza al crescere della dimensione campionaria.

Per una comprensione più immediata sia dei metodi statistici che verranno trattati in

seguito, sia delle loro proprietà, occorre sempre tenere presente la distinzione fra

variabile casuale e determinazioni (valori osservati) della variabile casuale stessa: prima

di effettuare l'estrazione campionaria gli elementi costituenti il campione X1, X2,...,Xn,

sono variabili casuali; infatti, l'elemento generico Xi (i = 1, 2 ..,n) ha, come già

sottolineato, una struttura del tutto analoga a quella della variabile casuale X, ha cioè la

stessa funzione di distribuzione e, quindi, stessa funzione di massa o di densità di

probabilità. Dopo aver osservato i risultati campionari, le quantità 1 2, ,...., nx x x

costituiscono particolari determinazioni della variabile casuale X.

Poiché gli elementi costituenti un campione sono delle variabili casuali, è variabile

casuale anche ogni funzione T(X1,X2,…,Xn) non costante degli stessi. Tale funzione,

che non dipende dai parametri incogniti k,....,, 21 ,viene usualmente detta statistica

(dall’inglese statistic). Sarà, quindi, possibile derivare la funzione di massa o di densità

di probabilità di tale variabile in funzione della distribuzione di massa o di densità di

probabilità delle variabili casuali associate ai singoli elementi campionari.

Page 7: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

149

Fig. 2.1 – Funzione di verosimiglianza relativa a n prove con ripetizione effettuate su una

popolazione in cui ciascuna unità è caratterizzata dalla presenza o assenza di uno

specifico carattere

0

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

L(p)

n= 6 , x = 5

0

0,0005

0,001

0,0015

0,002

0,0025

0,003

0,0035

0,004

0,0045

0,005

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

L(p)

n =12 , x = 10

n =36 , x = 30

0

1E-08

2E-08

3E-08

4E-08

5E-08

6E-08

7E-08

8E-08

9E-08

0,0000001

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

L(p)

Page 8: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

150

2.2 Sufficienza

Da quanto sopra detto, qualunque statistica, cioè qualunque funzione

T(X1,X2,…,Xn)=T(X) degli elementi campionari che non contiene parametri incogniti, è

essa stessa variabile casuale come gli elementi Xi (i = 1, 2,….,n) costituenti il

campione.

Una statistica potrebbe, al limite, contenere tutte le informazioni campionarie,

rappresentare, cioè, un punto campionario nello spazio ad n dimensioni. Nella

generalità dei casi la funzione T compatta le informazioni, riducendo lo spazio di

riferimento da n dimensioni a k dimensioni dove k n è il numero dei parametri che

caratterizzano la v.c. che si sta trattando.

Definizione 1 (Sufficienza). Se 1 2 , ,...., nX X XX' costituisce un campione

casuale semplice bernoulliano estratto da una popolazione rappresentata

dalla variabile casuale, discreta o continua X , con funzione di massa o di

densità di probabilità f(x;) , una statistica T X = T(X1,X2,…,Xn) si

dice sufficiente per il modello f(x;) se e solo se la distribuzione del

campione condizionata da un qualunque valore assunto dalla statistica

T(.) , cioè f(x1,x2,…,xn / T=t), è la stessa per qualunque valore di , cioè,

se e solo se la distribuzione condizionata del punto campionario

1 2 , ,...., nX X XX' non varia al variare di non dipende da

Per comprendere il significato della definizione, si supponga per semplicità che

T X sia una v.c. discreta e t un possibile valore di T X , allora

( ) ( )

( )

P T tP T t

P T t

X x X xX x X x

X x

ma

T t X x X x 3, quindi P T t P X x X x X x

quindi

( | )

( )( ) |( )

P pP T t

q tP T t

X x xX x X x

xX x

3 Infatti, l’uguaglianza T t X x deve valere per qualunque funzione T(.) ivi incluso T X X .

Page 9: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

151

dove ( | )p x è la distribuzione di massa di probabilità congiunta del campione X e

|q t x è la distribuzione di massa di probabilità di T X . Quindi, T X è una

statistica sufficiente per θ se, e solo se, per ogni x il rapporto

( | )

( ) |

p

q t

x

x è una costante

non dipendente da θ.

Il risultato ottenuto in precedenza conduce alla formulazione del seguente teorema:

Teorema 1: Se ( ; )p x è la distribuzione di massa di probabilità congiunta di X e

( ; )q t è la distribuzione di massa di probabilità di T X , allora T X è

una statistica sufficiente per θ se, e solo se, Ω x il rapporto

( ; )

( ( ); )

p

q T

x

x è una costante non dipendente da θ.

Esempio 2.2

Siano nXX ,...,1 variabili casuali i.i.d. di Bernoulli con parametro p, 0 < p < 1. Allora

1 ... nT X X X è sufficiente per p. Infatti, osservando che T X indica il numero di Xi

uguali ad 1 ed ha una distribuzione binomiale b(n, p) allora

11 (1 )(1 )( ; ) (1 ) (1 )

( );(1 ) (1 ) (1 )

i i i ix x x x t n t

t n t t n t t n t

np pp p p p p p

n n n tq T pp p p p p p

t t t

x

x

Un risultato questo che non dipende dal parametro p.

Esempio 2.3

Siano nXX ,...,1 variabili casuali i.i.d. da una popolazione 2,N , con parametro σ2 noto.

Allora la media campionaria T XX è sufficiente per μ. Infatti, la distribuzione di densità

congiunta del campione X è:

2 1/2 2 2

2 /2 2 2

2 /2 2 2 2

( ; ) (2 ) exp ( ) 2

(2 ) exp ( ) 2

(2 ) exp ( ) ( ) 2

i

i

n

i

i

n

i

i

f x

x x x

x x n x

x

Page 10: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

152

e, poiché X segue una distribuzione

n

N2

, , allora il rapporto

2 /2 2 2 2

22 1/2 2

1 2 2 ( 1)/2 2 2

(2 ) exp ( ) ( ) 2( ; )

( ); (2 ) exp 2

(2 ) exp ( ) 2

n

i

i

n

i

i

x x n xf

q t n n x

n x x

x

x

non dipende da μ.

La definizione 1 ed il teorema 1 spesso non consentono una facile verifica della

proprietà di sufficienza, obiettivo questo che si può invece conseguire se si fa

riferimento ad un famoso teorema usualmente noto come criterio di fattorizzazione di

Neyman-Fisher.

Teorema 2 (Criterio di fattorizzazione di Neyman-Fisher): Dato un campione

casuale semplice X1, X2,…,Xn estratto da una popolazione X con funzione

di massa o di densità di probabilità f(x;) , dove rappresenta il parametro

incognito, una statistica T(X1,X2,…,Xn) è sufficiente per il modello f(x;) se

e solo se vale la relazione:

nn

n

i

in x,...,x,xh; x,...,x,xTg;xf;x,...,x,xf 2121

1

21

dove h(x1,x2,…,xn) è una funzione non negativa dei soli elementi

campionari e ; x,...,x,xTg n21 è una funzione non negativa che dipende

da e dagli elementi campionari solo attraverso la funzione T .

Dimostrazione (caso discreto).

Poiché T X è una statistica sufficiente la distribuzione condizionata di X dato

T tX x non dipende da ma tenendo presente che:

T t P P T t X x X x X x X x X x

si ha

( | ) ( ) ( )

( ) ( )

( ) ( )

( ( ) | ) ( ).

f P P T t

P T t P T t

per la sufficienza P T t P T t

g T h

x X x X x X x

X x X x X x

X x X x X x X x

x x

Page 11: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

153

Si supponga che ( ; ) ( ( ); ) ( )f g T h x x x , ma

: :

; ;T t T t

P T t f g t h

x X x x X x

X x x x x

inoltre

se e , allora ma , quindiT t T t T t X x X x x x X x X x

: :

;

;T t T t

P T t PP T t

P T t P T t

g t h h

g t h h

x X x x X x

X x X x X xX x X x

X x X x

x x x

x x x

che non dipende da , cioè, T X è una statistica sufficiente.

Corollario – Una statistica T = T(X1,X2,…..,Xn) è sufficiente per se e solo se la

funzione di verosimiglianza associata al punto campionario assume la forma

; x,.....,x,xtgL n21

Esempio 2.3 (continua)

Per il modello normale, la funzione di densità può essere scomposta nei fattori

2

2 / 2 2 2 2

1

( ) (2 ) exp / 2 exp ( ) (2 )

n

n

i

i

f x x x n x

con 2 / 2 2 2( ) (2 ) exp ( ) (2 )n

i

i

h x x x

che non dipende dal parametro

incognito μ e 2 2( | ) exp ( ) (2 )g t n x che, viceversa, dipende dal campione

x solo attraverso la funzione t xx .

Per i modelli probabilistici appartenenti alla famiglia esponenziale l’individuazione

di statistiche sufficienti è immediata se si fa riferimento al criterio di fattorizzazione;

infatti, se 1,..., nX X sono variabili casuali i.i.d. relative ad un campione estratto da una

distribuzione di massa o di densità di probabilità ( ; )f x che appartiene alla famiglia

esponenziale si ha:

;

t xf x a h x e

quindi

Page 12: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

154

1

1 2

1

1

( , ,....., ; ) ; ;

;

n

i

i

n

n i

i

n t xn

i

i

f x x x f f x

a h x e g T X h

x

X

dove

1

;

n

i

i

t xng T a e

X ,

1

n

i

i

h h x

X e 1

n

ii

T t x

X , quindi

T X è statistica sufficiente per θ.

La definizione di sufficienza e il criterio di fattorizzazione possono essere facilmente

estesi al caso in cui la funzione di densità o di massa di probabilità è caratterizzata da un

vettore di k parametri 1 2, ,..., k ' cui corrisponde un vettore di k statistiche

1 2, ,..., kT T T '

T X X X X (le dimensioni dei due vettori non devono

necessariamente coincidere).

La verosimiglianza assume la forma

1

1

1

( ) ;

; .

n

i i

i

n

i

i

n t xn

i

i

L f x

a h x e g T h

x

x x

Se la famiglia esponenziale è regolare, le statistiche definite nel vettore T X ,

prese nel loro insieme, sono congiuntamente sufficienti per 1 2, ,..., k .

Se la famiglia esponenziale è regolare, cioè se il supporto della v.c. X non dipende

da , il vettore 1 2, ,..., kT T T '

T X X X X è sufficiente per .

Relativamente al concetto di sufficienza valgono, inoltre, le seguenti proprietà:

se T(.) è una statistica sufficiente (o un vettore di statistiche sufficienti), si

dimostra che qualsiasi trasformazione biunivoca di tale statistica (o vettore di

statistiche) è anch’essa sufficiente;

nel criterio di fattorizzazione, se in luogo di f(x; ) si considera il suo logaritmo

naturale log f(x; ), la scomposizione di tale funzione in due componenti si

realizza in modo analogo, con la differenza che i due fattori anziché

moltiplicarsi si traducono nella somma dei loro logaritmi. Infatti:

1 2 1 2 1 2

1 1

log , ,..., ; log , ,..., ; , ,...,

log ; log ; log ;

n n nf x x x g T x x x h x x x

g T h g T h g T h

x x x x x x

La proprietà richiamata in quest’ultimo punto sta ad indicare che se T(x) è sufficiente

per se e solo se log f (x; ) può essere scomposto nella somma di due funzioni

Page 13: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

155

g1(T(x); ) e h1(x), di cui: la prima dipende dal parametro e dal campione solo

attraverso la funzione T(.); la seconda dipende solo dagli elementi del campione.

Esempio 2.3 (continua)

Per il modello normale, qualora sia μ che σ2 risultino incognite (cosicché il vettore dei

parametri risulti 2( , ) ), ogni parte della densità campionaria congiunta che dipende o

da μ o σ2 deve essere inclusa, per il teorema di fattorizzazione, nella funzione g(.). Da quanto

visto in precedenza si ha che

2 /2 2 2 2

2 /2 2 2

2 1

2

1 2

( ) (2 ) exp ( ) ( ) / (2 )

(2 ) exp ( 1) ( ) (2 )

( , | , ) ( )

n

i

i

n

f x x n x

n t n t

g t t h

x

x

con xt 1, )1()( 2

2 nxxti

i e ( ) 1h x . Quindi

2

1 2, ,T T X S T X X X sono statistiche congiuntamente sufficienti per ),( 2 .

Riguardo alle statistiche sufficienti si deve, infine, sottolineare che l’intero campione

X è per definizione esso stesso una statistica sufficiente (con T x x e 1h x per

ogni x ). Da ciò segue che ogni funzione biunivoca di una statistica sufficiente è ancora

una statistica sufficiente. Infatti, sia *T r T x x , con T x sufficiente e r

funzione biunivoca con inversa r–1

. Allora, per il Teorema di fattorizzazione,

1 * * *( | ) ( ) | ( ) ( ) / ( ) ( ) / ( )f g T h g r T h g T h x x x x x x x

quindi *( )T x è una statistica sufficiente.

La non unicità delle statistiche sufficienti solleva un problema di scelta tra le

alternative possibili; ovviamente la scelta ottimale ricadrà sulla statistica caratterizzato

dal più elevato livello (in termini esplicativi) di sintesi, senza dover rinunciare ad alcuna

delle informazioni necessarie alla conoscenza dei parametri incogniti; una tale statistica

viene detta sufficiente minimale

Una statistica sufficiente minimale non è unica, in quanto una qualunque sua

funzione biunivoca è ancora una statistica sufficiente minimale.

2.3 Distribuzioni campionarie

Definizione 2 Si dice distribuzione campionaria ogni distribuzione di probabilità che

evidenzia la relazione esistente tra i possibili valori che possono essere

assunti (nell'universo dei campioni) da una qualsiasi funzione

T(X1,X2,…,Xn)=T(X) (ad es. un indice sintetico) applicata agli n

elementi campionari (casuali) e la distribuzione di massa o di densità di

probabilità associata agli n elementi costituenti il campione stesso.

Page 14: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

156

Si consideri la funzione, definita sugli elementi X1, X2,...,Xn, di un campione casuale

semplice con ripetizione relativo ad una certa variabile X che ha momento

s-esimo (s = 1,2,3,…) pari a s e varianza pari a 2:

sX = sT (X1,X2,...,Xn) =

n

1i

s

iXn

1 ; s=1,2,...

che viene usualmente detto momento campionario, o momento empirico, di ordine s

rispetto all'origine. Evidentemente tale momento varierà al variare del campione e

descriverà una variabile casuale, la cui funzione di massa o di densità di probabilità

dipenderà dalla funzione di massa o di densità di probabilità delle variabili casuali

X1,X2,…,Xn, e quindi, dalla funzione di massa o di densità di probabilità della variabile

casuale X.

È facile verificare che il valore medio (momento primo rispetto all’origine) del

momento campionario s-esimo sX è pari al momento s-esimo della variabile X, infatti,

s

sn

1i

s

i

n

1i

s

is μXEXEn

1X

n

1EXE

quindi, per s=1 si avrà

1 1 1

1 1 1n n n

i i

i i i

E X E X E X E Xn n n

= E(X)= µ1=µ

cioè, il valor medio della media campionaria è uguale alla media della popolazione.

La varianza della media campionaria è data da

2

2

2

1 1

1 1

n n

x i i

i i

Var X Var X Var Xn n n

cioè, la varianza della media campionaria è pari alla varianza della popolazione divisa

per la dimensione del campione.

La radice quadrata positiva (scostamento quadratico medio o deviazione standard)

della varianza campionaria di uno stimatore viene usualmente denominata errore

standard o errore di campionamento, volendo con ciò sottolineare la sua particolare

caratteristica di misura della bontà di uno stimatore in termini di variabilità. Tale

denominazione viene utilizzata tutte le volte che si procede al calcolo della varianza

sulle distribuzioni campionarie di indici sintetici; su questo punto si avrà comunque

modo di soffermarsi a lungo successivamente.

Nel caso di campionamento semplice esaustivo (senza ripetizione) si ha:

2

21 1 1

22

2

1 1V

1 *11 *

n n n

x i i i j

i i i i j

ar X σ Var X Var X Cov X ,Xn n

n - σσ n σ n (n ) σ

n n n

dove ji ,XX Covσ* per ogni i,j. Se si assume n=N, si ha:

Page 15: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

157

2 1

0n - σ*σ

Var Xn n

da cui 1

σ-

2

Nσ* che sostituito nella precedente espressione da

22 21

1 1

n - σσ σ N - nVar X

n n N n N -

dove 1N

nN

viene, come già sottolineato, usualmente detto fattore di correzione e

fornisce una misura della maggiore efficienza del campionamento esaustivo rispetto al

campionamento con ripetizione.

Definendo la varianza campionaria (corretta) attraverso l’espressione:

n

i

in XXn

),...,X,XT(XS1

2

21

2

1

1

si può verificare, nell'ipotesi di campionamento bernoulliano (campione casuale

semplice con ripetizione), che E (S2) è uguale a 2

, cioè il valor medio della varianza

campionaria corretta è pari alla varianza della popolazione. Mentre la varianza della

varianza campionaria corretta S2 è espressa da:

2 4

4

1 3

1

nVar S

n n

dove 4 rappresenta il momento quarto rispetto alla media (momento centrale) della

popolazione ( 4

4 E X

) dalla quale viene estratto il campione mentre

2

4 2 .

Il computo del valore atteso della varianza campionaria corretta non presenta alcuna

difficoltà, infatti:

22 2 2

1 1 1 1

2 2 2

2 2

222

2 2

2222 22

2 2

2

1 1 E 2

1 1

1 2

1 1 1 1

ma

1

da cui

1 1

n n n n

i i i

i i i i

E S E X X X X X Xn n

n n nn E X n E X E X

n n n n

Var X E X E Xn n

nE X

n n

n nE S E X

n n

2

2 2 2

2 2

1 .

1 1

nn n

n n n

Relativamente più laborioso è il computo della varianza della varianza campionaria

Page 16: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

158

corretta, di seguito si riporta il momento secondo della varianza campionaria e la sua varianza

che si ottiene sottraendo a tale momento il momento primo al quadrato, cioè 2.

22

2 441 2

1

nE S

n n n

22

2 2 2 4

4

1 3 .

1

nVar S E S E S

n n

Esempio 2.4 (distribuzioni campionarie per campioni estratti da popolazioni discrete)

Si considerino cinque palline identiche a meno dei contrassegni numerici (1, 3, 5, 7, 9) che su di

esse sono riportati. La distribuzione di frequenza relativa alla variabile casuale associata

all’estrazione di una pallina può essere rappresentata nel modo seguente

Modalità Frequenze assolute Frequenze relative

xi ni fi=ni/n

(probabilità: pi)

1 1 1/5

3 1 1/5

5 1 1/5

7 1 1/5

9 1 1/5

Tab. 2.1 - Popolazione discreta uniforme

Si supponga di aver estratto 100 campioni casuali, di dimensione n = 2, dalla popolazione

riportata nella Tab.2.1 e che l'operazione di campionamento (effettuata reinserendo ogni volta

l'unità estratta nella popolazione) abbia dato luogo alle 100 coppie di risultati riportati nella

Tab. 2.2.

Se per ogni coppia di risultati campionari si procede al computo della media

2

XXX,XTMX 21

211

dove (X1, X2) rappresenta la coppia degli elementi costituenti il campione, si potrà derivare la

distribuzione campionaria sperimentale (relativa ai 100 campioni estratti) della media

aritmetica che sono riportati nella Tab. 2.3, dove, evidentemente, la frequenza assoluta ni sta

ad indicare il numero dei campioni (su 100 estratti) di due elementi per il quale si è realizzata

quella particolare modalità ix (media aritmetica dei due elementi campionari).

La distribuzione campionaria sperimentale della variabile riportata nella Tab. 2.3 costituisce

una approssimazione della distribuzione campionaria (teorica) di X . Se si procedesse

all'estrazione di una seconda serie di 100 campioni, di dimensione 2, si otterrebbe una diversa

distribuzione campionaria sperimentale di X , tale da costituire anche essa

un'approssimazione della distribuzione campionaria teorica di X . Considerando le due serie

di esperimenti ad un tempo (cioè 200 campioni di dimensione 2) si dovrebbe ottenere una

distribuzione campionaria sperimentale di X più vicina alla distribuzione teorica di quanto

Page 17: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

159

non siano le due distribuzioni considerate separatamente.

N. Campione N. Campione N. Campione N. Campione N. Campione

1 (3,3) 21 (5,3) 41 (3,7) 61 (5,1) 81 (1,9)

2 (5,3) 22 (9,3) 42 (1,7) 62 (3,5) 82 (3,7)

3 (1,1) 23 (5,9) 43 (5,7) 63 (3,1) 83 (9,3)

4 (7,3) 24 (7,3) 44 (7,7) 64 (7,7) 84 (9,1)

5 (1,5) 25 (5,5) 45 (1,9) 65 (1,1) 85 (5,9)

6 (3,5) 26 (9,9) 46 (3,3) 66 (9,7) 86 (5,3)

7 (5,5) 27 (9,5) 47 (3,7) 67 (1,3) 87 (1,9)

8 (5,7) 28 (9,7) 48 (3,1) 68 (9,5) 88 (9,5)

9 (9,3) 29 (7,3) 49 (1,1) 69 (3,5) 89 (1,9)

10 (3,3) 30 (3,7) 50 (1,7) 70 (9,7) 90 (5,5)

11 (5,7) 31 (3,1) 51 (1,5) 71 (9,7) 91 (9,3)

12 (7,3) 32 (5,5) 52 (9,1) 72 (1,3) 92 (1,1)

13 (3,7) 33 (9,1) 53 (7,7) 73 (1,5) 93 (3,3)

14 (3,3) 34 (5,9) 54 (7,3) 74 (7,1) 94 (1,3)

15 (1,7) 35 (5,9) 55 (5,9) 75 (3,5) 95 (5,1)

16 (5,9) 36 (9,1) 56 (3,5) 76 (5,5) 96 (1,5)

17 (9,1) 37 (3,1) 57 (9,7) 77 (3,5) 97 (1,5)

18 (3,9) 38 (7,1) 58 (5,7) 78 (9,5) 98 (7,1)

19 (7,3) 39 (7,7) 59 (5,1) 79 (7,1) 99 (7,1)

20 (7,5) 40 (7,9) 60 (1,3) 80 (9,5) 100 (3,5)

Tab. 2.2 - Prospetto dei risultati relativi a 100 campioni di dimensione 2, estratti casualmente

dalla popolazione riportata nella Tab. 2.1

Media campionaria

1 iM x

Frequenza assoluta

ni

Frequenza relativa

fi = ni/100

1 4 0,04

2 8 0,08

3 13 0,13

4 18 0,18

5 25 0,25

6 10 0,10

7 15 0,15

8 6 0,06

9 1 0,01

Tab. 2.3 - Distribuzione campionaria sperimentale della media aritmetica relativa ai risultati

riportati nella Tab. 2.2

Per determinare la distribuzione campionaria teorica della variabile casuale X si può seguire

la via sotto indicata.

a) - Si considerano tutte le possibili coppie di valori (X1, X2) estraibili (con ripetizione) dalla

Page 18: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

160

popolazione riportata nella Tab. 2.1, che sono

(1,1) (3,1) (5,1) (7,1) (9,1)

(1,3) (3,3) (5,3) (7,3) (9,3)

(1,5) (3,5) (5,5) (7,5) (9,5)

(1,7) (3,7) (5,7) (7,7) (9,7)

(1,9) (3,9) (5,9) (7,9) (9,9)

e su queste coppie di valori vengono calcolate le medie aritmetiche;

b) - Si determina la probabilità relativa a ciascuna coppia (X1, X2). Essendo il campione

estratto con ripetizione da una popolazione uniforme si avrà

25

122112211 xX P xX P xXxXP per i, j = 1, 2, 3, 4, 5;

c) - Si sommano le probabilità relative alle coppie di valori che danno luogo alla stessa media.

Il risultato delle operazioni indicate ai punti a), b), c), possono essere riassunti nella tabella

seguente

Modalità

1 iM x 1 2 3 4 5 6 7 8 9

Probabilità

iixf p 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04

Tab. 2.4 - Distribuzione campionaria (teorica) della media aritmetica per campioni di

dimensione 2 estratti dalla popolazione uniforme riportata nella Tab. 2.1

Il confronto tra i dati relativi alla distribuzione campionaria teorica e quelli relativi alla

distribuzione campionaria empirica è riportato nella figura seguente

Fig. 2.2 - Distribuzione campionaria sperimentale (come da Tab. 2.3) e teorica (come da Tab.

2.4) per la media calcolata su campioni di dimensione 2 estratti dalla popolazione

uniforme X: 1, 3, 5, 7, 9

0,04

0,08

0,13

0,18

0,25

0,1

0,15

0,06

0,01

0,04

0,08

0,12

0,16

0,2

0,16

0,12

0,08

0,04

1 2 3 4 5 6 7 8 9

Frequenze empiriche Frequenze teoriche (probabilità)

Page 19: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

161

Utilizzando i dati riportati nella Tab. 2.4 si derivano le uguaglianze

5E X , 2

2 42

x

σVar X σ

che verificano empiricamente la proprietà che ha il valor medio (valore atteso) della variabile

casuale media campionaria X di essere uguale al valor medio (media aritmetica) della

variabile casuale relativa all'intera popolazione e della varianza che risulta essere pari alla

varianza della popolazione divisa per la numerosità del campione.

Esempio 2.5 (distribuzioni campionarie per campioni estratti da popolazioni discrete)

Si considerino 6 palline identiche a meno della numerazione: {, , , , , }. La

funzione di massa della v.c. X = “risultato dell’estrazione di una pallina” è allora data da

f(x) =

altrimenti

x

x

x

0

96/1

33/1

12/1

Per tale v.c. è facile derivare i principali momenti. Il seguente prospetto riassume il calcolo di

= E(X) = 3 e 2 = Var(X) = E(X

2) – E(X)

2 = 17 – 3

2 = 8.

x f(x) x f(x) x2 f(x)

1 1/2 1/2 1/2

3 1/3 1 3

9 1/6 3/2 27/2

1 3 17

Tab. 2.5 – Prospetto di calcolo di E(X) e Var(X).

Si considerino ora tutti i possibili campioni x = (x1, x2) di dimensione n = 2 che possono essere

estratti con reimmissione dalla v.c. in oggetto. La “lista” di questi campioni forma l’universo

dei campioni che possono essere estratti dalla v.c. X. L’universo dei campioni può a sua volta

essere rappresentato dalla v.c. doppia X = (X1, X2), i cui valori e la cui distribuzione sono

riportati nella Tab. 2.6 (la probabilità di ciascuna coppia è semplicemente il prodotto delle

probabilità dei singoli, dato che le estrazioni sono indipendenti).

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

Tab. 2.6 – Funzione di massa della v.c. doppia X = (X1, X2).

Qualunque statistica calcolata su X = (X1, X2) è una v.c. e ha di conseguenza una sua

distribuzione campionaria.

Media campionaria: T(X ) = X = (X1 + X2)/2

La seguente tabella riporta, per ogni campione, la relativa media campionaria con la sua

probabilità

Page 20: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

162

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

x 1 2 5 2 3 6 5 6 9

Tab. 2.7 – Prospetto per la costruzione della funzione di massa della media campionaria.

La funzione di massa della media campionaria è riportata nella tabella seguente

x 1 2 3 5 6 9 tot

f( x ) 1/4 1/3 1/9 1/6 1/9 1/36 1

Tab. 2.8 – Funzione di massa della media campionaria X .

Si può verificare che E( X ) = 3 e Var( X ) = 4.

Varianza campionaria corretta: T(X ) = S2 = [(X1 – X )

2 + (X2 – X )

2]/(2 – 1)

La tabella che segue riporta, per ogni campione, i valori assumili dalla varianza campionaria

corretta con le relative probabilità

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

s2 0 2 32 2 0 18 32 18 0

Tab. 2.9 – Prospetto per la costruzione della funzione di massa della varianza campionaria

corretta.

Da tale tabella si ricava facilmente la funzione di massa della varianza campionaria corretta,

nella quale si sommano le probabilità relative alle coppie di valori uguali.

s2 0 2 18 32 tot

f(s2) 7/18 1/3 1/9 1/6 1

Tab. 2.10 – Funzione di massa della varianza campionaria corretta S2.

Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i momenti di f(x), si

può verificare che E(S2) = 8 e V(S

2) = 144.

Minimo campionario: T(X ) = x(m) = min{X1, X2}

La seguente tabella riporta, per ogni campione, il relativo minimo campionario con la sua

probabilità

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

x(m) 1 1 1 1 3 3 1 3 9

Tab. 2.11 – Prospetto per la costruzione della funzione di massa del minimo campionario.

Da tale tabella si ricava facilmente la funzione di massa del minimo campionario, nella quale si

sommano le probabilità relative alle coppie di valori che danno luogo allo stesso minimo.

Page 21: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

163

x(m) 1 3 9 tot

f(x(m)) 3/4 2/9 1/36 1

Tab. 2.12 – Funzione di massa del minimo campionario X(m).

Si può verificare che E(x(m)) = 1,67 e Var(x(m)) = 2,26.

Massimo campionario: T(X ) = x(M) = max{X1, X2}

La tabella seguente riporta, per ogni campione, il relativo massimo campionario con la sua

probabilità

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

x(M) 1 3 9 3 3 9 9 9 9

Tab. 2.13 – Prospetto per la costruzione della funzione di massa del massimo campionario.

Da tale tabella si ricava facilmente la funzione di massa del massimo campionario, nella quale

si sommano le probabilità relative alle coppie di valori che danno luogo allo stesso massimo.

x(M) 1 3 9 tot

f(x(M)) 1/4 4/9 11/36 1

Tab. 2.14 – Funzione di massa del massimo campionario x(M).

Si può verificare che E(x(M)) = 4, 3 e Var(x(M)) = 10, 2 .

2.4 Campionamento da popolazioni normali

Per campioni estratti da popolazioni normali vale il seguente teorema:

Teorema 1 Se X1, ..,Xn costituiscono un campione casuale di elementi relativi ad una

popolazione normale, di media µ e varianza 2, allora la variabile

casuale campionaria:

i)

n

1i

iXn

1X

è distribuita normalmente con media µ e varianza 2/n;

ii)

n

1i

2

1

2

2

1

in

i

i

XμX

σY

è distribuita come un 2 con g = n gradi di libertà;

iii)

2

1

2

2

21

σ

XX

σ

)S(nV

n

i

i

è distribuita come un 2 con g = (n - 1) gradi di libertà.

Dimostrazione

Page 22: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

164

i) - La funzione generatrice dei momenti della v.c X è data

n

i

i 1

n

ii

i 1

2 2 22

i 2

1 X

1 1n X X

i 1

11n n X

i 1 i 1

per l'indipendenza delle v.c.

( )

per la normalità delle v.c.

( )

c

tnX t

x

i

t tn n

i

t ttt t

nn 2 n 2 n

m t E e E e

X

E e E e

X

E e e e

2he è la f.g.m. di una v.c. normale di media e varianza / . n

ii) - La funzione generatrice dei momenti della v.c Y è data da

2

n

i 1

2 2n

i 1

n

i 1

per l'indipendenza delle v.c.

( )

per la normalità delle v.c. e ricordando che il quadrato

di una v.c. nor

i

i i

Xt

Y t

y

i

X Xt t

i

m t E e E e

X

E e E e

X

2

2

1

n

i 1 1

2

n

male standardizzata ha distribuzione

( ) 1 2 1 2

che è la f.g.m. di una v.c. chi quadro con gradi di libertà .

iX 1 nnt2 2

i

χ

E e ( t) ( t)

n

iii) - La funzione generatrice dei momenti della v.c Y è data da

Page 23: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

165

2n

i 1

22

/2

n n

i 1 i 1

(1 2 )

per l'indipendenza delle v.c.

( ) ( ) (

i

i ii

Xt

Y t n

y

i

X X X X XXt tt

y

m t E e t E e

X

m t E e E e E e

2 2

n

i 1

)

Xt

e

2 22 2

2

n n

i 1 i 1

se si ipotizza l'indipendenza tra le v.c. scarto e la v.c. si ha

( ) ( ) ( )

= (

i i

i

i

i

X X X XX Xt tt t

X Xt

n X X X

E e e E e E e

E e

22

1 1

2

1

/

/2

) ( ) ( ) (1 2 )

( ) ( ) ( )(1 2 ) (1 2 ) (1 2 ) (1 2 )

che è la f.g.m. di una v.c. chi quadro c

n ni

i

ni

i

X XX tt1/ 2n

X X n 1tt V Y t 1/ 2 n 1/ 2 2

E e E e t

E e E e E e t t t t

2 2

n-1 1on 1 gradi di libertà ; quindi, la v.c. .nn - V

Si dimostra ora l’indipendenza tra il vettore delle v.c. scarto

.,,......... , 21 XXXXXX n e la v.c. X , il che implica l’indipendenza

tra

2

2

1

2 2

1 e la v.c.

n

i

i

X Xn S

V X

.

Si consideri la f.g.m. del vettore casuale a n+1 dimensioni

.,,......... , , 21 XXXXXXX n

1 1 2 2

1 2

1 1 1 1 1

.....

1 2, , ,.....,

1 1

1

, , ,.....,

1 dove

per la n

n n

n

n n n n n

i i i j i i ii i j i i

X t X X t X X t X X t

nx x x x x x x

tX t X t t X nt t X

n n n

j

j

m t t t t E e

E e E e t tn

22

22

2 2 2

1 1

1 1

ormalità e l'indipendenza delle v.c.

i

i i i

tt tin nt n

t ti in 2i i

i

tt t

t t nn nt t X t tn n 2

i i

t t tt2 n

X

E e e

e e e

2

1

2 2

2 2

1

/

/2

1 2

dove è la f.g.m. della v.c. distribuita normalmente e

è la f.g.m. del vettore casuale a dimensioni

, ,..........,

n

i

n

i

i

2

tt

2 n

t t

n

e X

e n

X X X X X X

Page 24: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

166

Pertanto , poiché la f.g.m. del vettore casuale a n+1 dimensioni

1 2 nX , X X , X X ,.........., X X è uguale al prodotto di due funzioni

generatrici dei momenti, una relativa al vettore a n dimensioni

1 2 , ,.........., nX X X X X X l’altra relativa alla v.c. X ne deriva

l’indipendenza tra le variabili casuali X e V , quindi la variabile casuale campionaria

nS/

μX

σ

S1)(n

nσ/

μX

1)V/(n

ZW

2

2

dove

n/S

μXT

ha una distribuzione del tipo t di Student con (n - 1) gradi di libertà essendo basata sul

rapporto tra una variabile casuale normale standardizzata e la radice quadrata di una

variabile del tipo 2 divisa per i propri gradi di libertà.

Sul concetto di gradi di libertà si avrà modo di tornare in seguito, qui basta

sottolineare che i gradi di libertà relativi alla variabile casuale campionaria Y sono n

perché n sono le variabili casuali indipendenti (X1 - ), (X2 - ),…(Xn - ) che entrano

nel suo computo. Mentre i gradi di libertà relativi alla variabile casuale campionaria V

sono (n – 1) in quanto, pur essendo n gli elementi, le n variabili casuali scarto

1 2, ,... nX X X X X X che entrano nel suo computo , soltanto (n – 1) sono

tra loro indipendenti , infatti, le n variabili scarto sono (per costruzione) soggette al

vincolo

1

0n

i

i

X X

2.5 Campionamento da popolazioni non normali

Nei casi in cui l'evidenza empirica o ragioni teoriche escludono la normalità della

popolazione cui si riferisce il campione (casuale) di dati a disposizione, e non si hanno

altre informazioni sulla popolazione stessa, si può fare ricorso al teorema del limite

centrale che individua la normale come distribuzione approssimata della variabile

casuale media campionaria. Si riporta di nuovo l'enunciato del teorema nella sua forma

più semplice adeguandolo al contesto del campionamento.

Teorema 2 (del limite centrale) - Se X1, X

2,...,X

n costituiscono un campione casuale

Page 25: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

167

semplice di n elementi relativi ad una qualunque popolazioni di media µ

e varianza (finita) 2, allora la variabile casuale media campionaria

n

1i

iXn

1X

per n sufficientemente elevato ha una distribuzione

approssimativamente normale, con media µ e varianza 2/n.

Va sottolineato, inoltre, che la tendenza alla normalità della variabile casuale X , si

realizza anche quando le osservazioni campionarie si riferiscono ad n popolazioni

distinte, purché esse abbiano media e varianza finita. Si avrà pertanto che (ricordando

quanto detto a proposito di combinazioni di variabili casuali normali indipendenti) la

distribuzione campionaria di una qualsiasi combinazione lineare di medie calcolate su

un gruppo di campioni indipendenti tende alla normalità al crescere della numerosità di

ciascuno dei campioni considerati.

Benché il teorema del limite centrale riguardi grandi campioni, nelle applicazioni

empiriche più frequenti, l'approssimazione normale risulta soddisfacente anche per

campioni di modeste dimensioni. Se le osservazioni campionarie si riferiscono a

popolazioni distinte, si avrà una buona approssimazione per i piccoli campioni 30n

solo quando le distribuzioni di tali popolazioni non si discostano troppo dalla

distribuzione normale e le loro varianze non sono molto diverse.

Tornando al problema dell’approssimazione della distribuzione della media

campionaria per campioni riferiti ad una stessa popolazione non normale, si deve

osservare che la bontà dell’approssimazione dipende, oltre che dalla dimensione

campionaria anche dalla natura e dalla forma della distribuzione originaria dalla quale il

campione è stato estratto.

Nella Fig. 2.3 è riportata la distribuzione della media campionaria standardizzata per

campioni di diverse dimensioni estratta da popolazioni continue definite dai modelli:

a) X: 3 x 3 , f(x) 2 3

b) X: 1xef(x),1x

Page 26: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

168

Fig. 2.3 - Distribuzione della media campionaria per campioni di diverse dimensioni estratti

da due diverse popolazioni continue.

Come si può facilmente desumere osservando le figure, a parità di dimensione

campionaria, l’approssimazione migliore è quella relativa alla distribuzione uniforme

(distribuzione simmetrica) rispetto alla distribuzione di tipo esponenziale che presenta

una asimmetria abbastanza pronunciata.

Esempio 2.5

Si supponga di estrarre un campione casuale semplice di dimensione n da una popolazione di

tipo dicotomico, cioè da una popolazione caratterizzata dalla presenza o meno di un

determinato carattere; si supponga inoltre che la proporzione delle unità che possiede il

carattere di interesse sia pari a p , mentre 1 - p = q è la proporzione delle unità che non

possiede il carattere in questione. La popolazione dalla quale viene estratto il campione di dati

può essere, in base a quanto detto, rappresentata da una variabile casuale bernoulliana

caratterizzata dal parametro p del tipo

X : x0 = 0 , x1 = 1

P(X = x0) = q , P(X = x1) = p

il cui valor medio e varianza sono rispettivamente = p e 2 = p q .

Ora, se si considera il punto campionario (X1, X2,...,Xn ) si vede come, nell’universo dei

( ) 2 3f x

1( )

xf x e

Page 27: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

169

campioni, ciascuna componente Xi (i=1, 2, ..., n) sia una variabile casuale del tutto simile alla

variabile casuale X che rappresenta la popolazione.

Si avrà pertanto che la variabile casuale campionaria

n

1i

in21

n

X)X,...,X,T(XP

che indica la proporzione delle unità che nel campione presentano quel determinato carattere,

avrà una distribuzione di tipo binomiale (variabile casuale binomiale relativa), con valor medio

E(P) = = p e varianza 2

p = p q/n . Questa conclusione consente d’interpretare la variabile

casuale binomiale relativa, ottenuta attraverso una combinazione lineare di variabili casuali di

bernoulli indipendenti, come distribuzione campionaria di proporzioni o percentuali.

Ovviamente, se si definisce come variabile casuale campionaria

n

1i

iT XX

cioè il totale di successi nelle n estrazioni campionarie indipendenti effettuate, tale variabile è

esattamente una variabile casuale binomiale con parametri caratteristici n e p , con media

= n p e varianza 2 = n p q; il che consente d’interpretare la variabile casuale binomiale

come somma di n variabili casuali di bernoulli indipendenti caratterizzate da uno stesso

parametro p.

Nelle Figg. 2.4 e 2.5 è riportata la distribuzione binomiale (opportunamente standardizzata)

per diversi valori di n e di p e la relativa approssimazione con la distribuzione normale.

Come si può facilmente desumere osservando le figure, a parità di dimensione campionaria

l’approssimazione è tanto più buona quanto più p è prossimo al valore 0,5 (distribuzione

simmetrica); ovviamente l’approssimazione migliora al crescere della dimensione campionaria.

Page 28: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

170

Fig. 2.4 - Istogrammi della distribuzione binomiale per p = 0,2 e diversi valori di n e relativa

approssimazione con la variabile casuale normale standardizzata.

Page 29: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

171

Fig. 2.5 - Istogrammi della distribuzione binomiale per p = 0,5 e diversi valori di n e

relativa approssimazione con la variabile casuale normale standardizzata

Page 30: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

172

2.6 Campionamento da due popolazioni indipendenti

Nelle pagine precedenti sono state calcolate media e varianza delle variabili casuali,

media campionaria X e varianza campionaria (corretta) S2, associate a campioni

estratti da una qualunque popolazione. Di queste due variabili, di loro trasformazioni e

del rapporto tra loro particolari trasformazioni, è stata derivata anche la distribuzione

campionaria nel caso di campionamento da popolazioni normali. Si è, inoltre, data

indicazione della distribuzione asintotica (cioè della distribuzione cui si perviene

facendo tendere ad infinito la dimensione del campione) della media campionaria per

campioni estratti da popolazioni non normali. Si procederà ora alle stesse elaborazioni

in riferimento a differenze tra medie campionarie e al rapporto tra varianze campionarie

facendo specifico riferimento a campioni estratti da due popolazioni normali.

Si supponga ora di estrarre con ripetizione due campioni casuali indipendenti, di

dimensione m ed n , da due popolazioni distinte rappresentate dalle variabili casuali X

e Y, il cui valore medio e varianza sono rispettivamente x , 2

x , y , 2

y .

Sugli elementi campionari (X1, X2,...,Xm ) e (Y1, Y2,...,Yn ) si calcolino le quattro

statistiche

m

1i

iXm

1X ;

n

1i

iYn

1Y

m

i

ix XXm

S1

22

1

1 ;

22

1

1

1

n

y i

i

S Y Yn

si calcolino, cioè, le due medie campionarie e le due varianze campionarie corrette, e si

definiscano le nuove entità (differenza tra medie campionarie e differenza tra varianze

campionarie corrette)

2 2

x y

V X Y

W S S

Le due variabili campionarie V e W, nell’universo dei campioni, hanno medie e

varianze espresse dalle uguaglianze seguenti

222 2

2 2

2 2

( )

( )

( )

( ) ( ) ( )

x y

yxx y

x y

x y

E V

Var Vm n

E W

Var W Var S Var S

Inoltre, se i due campioni sono estratti da popolazioni normali indipendenti vale il

seguente teorema

Teorema 3 Se X1, X2, ..., Xm costituisce un campione casuale estratto da una

popolazione normale di media x e varianza 2

xσ , Y1, Y2, ..., Yn un

campione casuale estratto da una popolazione normale di media y e

Page 31: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

173

varianza 2

yσ , allora:

1. la variabile casuale campionaria

n

i

i

m

i

i Yn

Xm

YX U11

11

è distribuita normalmente con media x - y e varianza n

σ

m

σ2

y2

x , infatti:

22 2

22 2 2

2

2 2

yxyx x y

x y

X Y tU t X t Y t

u

tt t t

t t m nm n

m t E e E e E e E e

e e e

2. la variabile casuale campionaria 22

2 2

1 1

m n

i yi xx y

i ix y

YXV Z Z

è distribuita come una variabile casuale 2 con m+n gradi di libertà, infatti:

2 2 22

2 2 2

1 2 1 2 1 2

x y yxZ Z t Z tZ tV t

v

m n m n

m t E e E e E e E e

t t t

3. la variabile casuale campionaria

22

* 2 22 2

11 2

/ /

x y yx

x yx y

X Y n Sm ST m n

m n

è distribuita come una variabile casuale t di Student con m+n-2 gradi di libertà

essendo definita come rapporto tra una variabile casuale normale standardizzata e la

radice quadrata di una v.c. divisa per i propri gradi di libertà indipendenti

4. nel caso in cui i due campioni casuali si riferissero a popolazioni normali

aventi la stessa varianza incognita 2 2 2

x y , anche la variabile casuale

campionaria

Page 32: CAP. 2 CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE. 2... · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 2 – Campionamento e distribuzioni campionarie 143 CAP. 2 -CAMPIONAMENTO

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 2 – Campionamento e distribuzioni campionarie

174

22

2 22 2

2 2

1 1 2

1 1

1 1 dove

2

yX Y x

X Y

x y

n SX Y m ST m n

m n

X Y

Sm n

m S n SS

m n

Si distribuisce come una t di Student con m+n-2 gradi di libertà essendo definita

come rapporto tra una variabile casuale normale standardizzata e la radice quadrata di

una v.c. divisa per i propri gradi di libertà indipendenti

5. la variabile casuale campionaria 2222 m n

x i i

2 2i 1 i 1x x y

(n 1) S(m 1) S X X Y Y

σ σ σ σ

y

x y

y

W W W

è distribuita come una variabile casuale 2 con m+n-2 gradi di libertà, infatti:

W +W W W

1 1 2

2 2 2

1 2 1 2 1 2

x y yxt ttW t

w

m n m n

m t E e E e E e E e

t t t

6. la variabile casuale campionaria

2

2

2

2

2

2

2

2

11

11

x

y

y

x

y

y

x

x

S

S

)n/(S)n(

)m/(S)m(

F

definita come rapporto tra due variabili casuali 2 indipendenti divise per i rispettivi

gradi di libertà, è distribuita come una variabile casuale F di Fisher-Snedecor con m-

1 ed n-1 gradi di libertà.

Le considerazioni svolte a proposito delle distribuzioni campionarie degli indici

sintetici media e varianza, possono essere naturalmente estese ad altri indici

caratteristici quali mediana, quartili, scostamento quadratico medio, coefficiente di

variazione, ecc.