DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1...

22
DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILIT ´ A Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universit´ a degli Studi di Perugia Versione on-line: http://www.unipg.it/˜onofri/RTutorial/index.html Indice 1 Definizione di probabilit` a 2 2 Probabilit` a di eventi complessi 3 3 Calcolo combinatorio 3 4 Le variabili casuali 5 5 Distribuzione binomiale 6 6 Curva di Gauss 9 7 Variabili standardizzate 12 8 Le variabili casuali con R 14 9 La distribuzione delle medie campionarie 16 10 La distribuzione t di Student 18 11 La distribuzione F di Fisher 21 12 Altre variabili casuali 21 Sommario Alcune volte i collettivi sono cos` ı numerosi che non possono essere studiati nella loro interezza. Di conseguenza si estrae un campione ca- suale sul quale si eseguono le necessarie misure che debbono poi essere utilizzate per risalire alle caratteristiche dell’intera popolazione. E’ ev- idente, comunque, che quest’ultima rimane un’entit` a non conoscibile ed ogni affermazione su di essa non pu` o che essere fatta su base prob- abilistica: dato che il campione ` e in questo modo ` e allora probabile 1

Transcript of DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1...

Page 1: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

DALLA POPOLAZIONE AL CAMPIONE: IL

CALCOLO DI PROBABILITA

Andrea OnofriDipartimento di Scienze Agrarie ed Ambientali

Universita degli Studi di PerugiaVersione on-line: http://www.unipg.it/˜onofri/RTutorial/index.html

Indice

1 Definizione di probabilita 2

2 Probabilita di eventi complessi 3

3 Calcolo combinatorio 3

4 Le variabili casuali 5

5 Distribuzione binomiale 6

6 Curva di Gauss 9

7 Variabili standardizzate 12

8 Le variabili casuali con R 14

9 La distribuzione delle medie campionarie 16

10 La distribuzione t di Student 18

11 La distribuzione F di Fisher 21

12 Altre variabili casuali 21

Sommario

Alcune volte i collettivi sono cosı numerosi che non possono esserestudiati nella loro interezza. Di conseguenza si estrae un campione ca-suale sul quale si eseguono le necessarie misure che debbono poi essereutilizzate per risalire alle caratteristiche dell’intera popolazione. E’ ev-idente, comunque, che quest’ultima rimane un’entita non conoscibileed ogni affermazione su di essa non puo che essere fatta su base prob-abilistica: dato che il campione e in questo modo e allora probabile

1

Page 2: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

1 DEFINIZIONE DI PROBABILITA 2

che la popolazione abbia queste caratteristiche. Per poter fare questodiscorso occorre avere informazioni relative al calcolo di probabilita,cioe occorre sapere, data una certa popolazione con certe caratteris-tiche come sono i campioni che si estraggono da questa popolazione.Scopo di questo documento e mostrare come il calcolo di probabilitapossa essere facilmente affrontato con R.

1 Definizione di probabilita

Il calcolo di probabilita permette di valutare la probabilita agli eventi. Sec-ondo la definizione classica, la probabilita di un evento singolo (prob-abilita semplice) e data dal numero di casi favorevoli sul totale dei casipossibili.

Questa definizione ci aiuta ad assegnare la probabilita ad un gran nu-mero di eventi, come ad esempio il lancio della moneta (la probabilita diottenere testa e 0.5, dato che due sono gli eventi possibili, uno dei quali equello favorevole) o di un dado a sei facce (la probabilita di ottenere 1 epari a 0.167), ma in alcune situazioni possono presentarsi problemi relativial peso da assegnare ai diversi casi possibili. Infatti nel caso di una monetasappiamo che, se essa non e truccata, i due casi possibili (testa o croce) sonoequiprobabili. Ma se abbiamo una popolazione di insetti composta da unimprecisato numero di maschi e di femmine e vogliamo calcolare la proba-bilita di incontrare un maschio, non riusciamo a farlo secondo la definizioneclassica, che ci porterebbe a concludere che detta probabilita e pari a 0.5,visto che gli eventi possibili sono due, cioe di incontrare un maschio o unafemmina.

Per questo motivo e stata introdotta un’altra definizione di probabilita,cioe quella a posteriori (definizione frequentistica), basata sull’osser-vazione empirica del fenomeno. Nel caso precedente, potremmo effettuare100 estrazioni (cioe ripetere 100 volte l’esperimento di estrazione), osservareche si incontrano 99 maschi ed una femmina e concludere, che la probabilitadi estrarre una maschio e pari a 0.99.Questa definizione e estremamenteutile in alcuni casi, ma presenta anch’essa un problema: il numero di esper-imenti effettuati influenza la probabilita di un evento. Se dalla popolazioneprecedente effettuiamo 10 estrazioni ed otteniamo 9 maschi ed una femminaconcludiamo erroneamente che la probabilita cercata e pari a 0.90.

Esiste infine la probabilita soggettivistica, legata all’aspettativa cheognuno nutre sul fatto che un evento si realizzi oppure no. Possiamo adesempio comprare un certo titolo di credito piuttosto che un altro perchepensiamo che quest’ultimo abbia una maggiore probabilita di apprezzarsipiuttosto che l’altro. In casi estremi anche questa definizione di probabilitae estremamente utile pur nella sua soggettivita.

In pratica, le tre definizioni di probabilita sono tutte vere e vengonoutilizzate insieme per calcolare la probabilita di un evento singolo.

Page 3: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

2 PROBABILITA DI EVENTI COMPLESSI 3

2 Probabilita di eventi complessi

Se siamo in grado di valutare la probabilita di una serie di eventi semplicisecondo una delle tre definizioni prima indicate, possiamo allora calcolareanche la probabilita di un evento complesso costituito dall’insieme deglieventi semplici anzidetti.

Se A e B sono due eventi semplici indipendenti (cioe il verificarsi del-l’uno non influenza la probabilita dell’altro) e se P(A) e P(B) sono le loroprobabilita, la probabilita dell’evento complesso AB (prodotto logico) e datada:

P(A e B) = P(A) x P(B)Ad esempio lanciando il dado due volte consecutivamente, la probabilita

di ottenere due volte il numero 1 e pari ad 1/6 x 1/6.Se i due eventi non sono indipendenti, nel senso che il verificarsi dell’uno

influenza la probabilita dell’altro (es. la probabilita di ottenere il numero 1e il numero 2 consecutivamente a tombola) il loro prodotto logico e pari a

P(A e B) = P(A) x P(B—A)Nel nostro caso la probabilita sarebbe pari a 1/90 x 1/89; infatti, alla

seconda estrazione il 2 e uno degli 89 numeri rimasti dopo aver tolto l’1. Iltermine P(B—A) si dice probabilita di B dato A.

Se vogliamo sapere la probabilita di un evento complesso risultante dalverificarsi di due eventi semplici in alternativa (o l’uno o l’altro), parliamodi somma logica:

P(A o B) = P(A) + P(B) - P(A e B)L’ultimo termine e inutile se i due eventi sono alternativi, nel senso che

non possono verificarsi insieme. La probabilita di avere 1 o 2 nel lancio di undado e pari a 1/6 + 1/6 (i due eventi sono alternativi) mentre la probabilitadi estrarre da un mazzo un asso o una carta di bastoni e pari ad 4/40 +10/40 - 1/40 = 13/40, ove 1/40 e la probabilita che la carta estratta siacontemporaneamente un asso e una carta di bastoni.

Se gli eventi possibili in relazione ad un dato fenomeno sono n alternativi(nel senso che non possono verificarsi contemporaneamente), la somma delleloro probabilita e pari ad 1. Dato quindi un evento E, possiamo definirel’evento complementare CE: ad esempio ottenere una carta di coppe dalmazzo ha come evento complementare non ottenere una carta di coppe. Laprobabilita di CE e pari a:

P(CE) = 1 - P(E)

3 Calcolo combinatorio

Quando gli eventi si fanno molto complessi, la valutazione della proba-bilita richiede nozioni di calcolo combinatorio. Distinguiamo: permutazioni,disposizioni semplici o con ripetizione e combinazioni.

Page 4: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

3 CALCOLO COMBINATORIO 4

Le permutazioni sono come gli anagrammi ed indicano in quanti modi(ordinamenti) diversi possono essere presi n oggetti. Le permutazioni di nelementi sono date dallo sviluppo fattoriale di n (n e moltiplicato per tuttii numeri interi inferiori ad n).

In R il fattoriale si calcola con la funzione Prod(1:n); ad esempio, date4 lettere (ABCD), in quanti ordini si possono presentare (ABCD, BACD,DACB, ....)?

> prod(1:4)[1] 24>

Le disposizioni semplici sono le possibili scelte di k elementi ordinatida un insieme composto da n oggetti (disposizioni di n elementi di classe k).Ad esempio, quali sono i possibili podi in una gara tra 8 atleti? Al primoposto possono esserci 8 persone diverse, al secondo posto ce ne possonoessere 7 e al terzo 6; le combinazioni possibili possono essere 8 x 7 x 6 =336.

In generale:

Disposizioni =n!

(n− k)!

Le disposizioni coincidono con le permutazioni se n = k.Le disposizioni con ripetizione (disposizioni con ripetizione di n el-

ementi di classe k) sono come le disposizioni, ma ogni oggetto, dopo esserestato scelto viene rimesso nell’insieme di partenza. Date 10 lettere (da A aL), quante combinazioni ordinate da quattro lettere posso effettuare? Si par-la di combinazioni ordinate perche l’ordine delle lettere conta, cioe ABCD,ad esempio, e diverso da BACD. Per la prima lettera ho dieci possibilita,altrettante per la seconda e cosı via, cioe 10 x 10 x 10 x 10 = 104 = 10’000.In generale, le disposizioni con ripetizione di n elementi di classe k sono pariad nk.

Come altro esempio proviamo a considerare quante sono le possibilidisposizioni di X 1 2 in una schedina al totocalcio. Esattamente 313.

Le combinazioni (combinazioni di n elementi di classe k, con k ≤ n)sono analoghe alle disposizioni con ripetizione, ma in questo caso non vieneconsiderato l’ordine con cui gli oggetti si presentano. Nel caso dell’esempioprecedente, la differenza sta nel fatto che, ad esempio, ABCD e uguale aBACD, BADC e cosı via.

Di conseguenza, date le 10 lettere da A ad L, le combinazioni (non ordi-nate) che posso avere sono date dal numero di disposizioni con ripetizionedi k elementi su n (104) che deve pero essere diviso per il numero delle per-mutazioni di k elementi (cioe k fattoriale; ricorda che ogni scelta di quattro

Page 5: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

4 LE VARIABILI CASUALI 5

lettere puo presentarsi in k! ordini diversi, che pero sono equivalenti, per inostri fini).

combinazioni =n!

(n− k)!k!=

(nk

)

La formula anzidetta costituisce il cosiddetto coefficiente binomiale,che, in R, e dato dalla funzione choose(n,k).

4 Le variabili casuali

Se con le metodiche finora illustrate siamo in grado di calcolare la probabilitadegli eventi, possiamo anche costruire delle variabili casuali, cioe dei modellimatematici (funzioni) che assegnano la probabilita ad ogni possibile eventorelativo al fenomeno in studio. Nel caso di variabili discrete queste funzioniprendono il nome di funzioni di frequenza o distribuzioni di frequenza.

Immaginiamo un mazzo di carte con i quattro assi, tre due, due tre e unquattro (10 carte) e definiamo la variabile casuale:

P (x) =

0.4 se x = 10.3 se x = 20.2 se x = 30.1 se x = 4

Ovviamente, la somma delle probabilita di tutti gli eventi e sempre pariad 1.

Oltre alla funzione frequenza, si puo definire anche la funzione cumulatadi frequenza, detta anche funzione di ripartizione con la quale si assegnaad ogni evento la sua probabilita piu quella di tutti gli eventi precedenti.Nell’esempio precedente:

P (x) =

0.4 se x ≤ 10.7 se x ≤ 20.9 se x ≤ 31.0 se x ≤ 4

Possiamo definire la media (valore atteso) di una variabile casuale disc-reta come:

µ = E(X) = Σxi · P (X = xi)

e la varianza come:

σ2 = V ar(X) = E [X − E(X)]2 = Σ[(xi − µ)2 · P (X = xi)

]Se abbiamo variabili casuali continue (funzione di densita o densita

di frequenza), non cambia nulla, salvo il fatto che la funzione di ripartizione

Page 6: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

5 DISTRIBUZIONE BINOMIALE 6

(probabilita cumulata), la media e la devianza sono definite ricorrendo alconcetto di integrale:

P (X) = f(x)

P (X ≤ x) =x∫−∞

f(x)dx

µ = E(X) =+∞∫−∞

xf(x)dx

σ2 = V ar(X) =+∞∫−∞

(x− µ)2 f(x)dx

In pratica, per calcolare la probabilita di un fenomeno che segue unacerta funzione di densita, si deve calcolare l’integrale delle legge stessa, nel-l’intervallo di esistenza di X, mentre diviene inutile (proprio per la continuitadella funzione) il calcolo della probabilita di eventi singoli (isolati). Vedremoalcuni esempi in seguito.

Le variabili casuali sono estremamente importanti perche ci permettonodi studiare la probabilita dei fenomeni biologici piu importanti facendo riferi-mento a funzioni matematiche note ed alle loro proprieta algebriche (modellomatematico descrittivo). Vediamo ora alcune variabili casuali che possonoessere utilizzate per interpretare fenomeni di interesse agrario e biologico ingenere.

5 Variabili casuali discrete: la distribuzione bino-miale

Ogni esperimento che consiste in un insieme di prove indipendenti ripetute,per ognuna delle quali abbiamo solo due esiti possibili (successo ed insuc-cesso), con una probabilita di successo costante, viene detto esperimentoBernoulliano. Nell’ambito di questi esperimenti, spesso siamo interessatia conoscere la probabilita di ottenere k successi su n prove, che puo esseredescritta attraverso la variabile casuale binomiale.

Poniamo di sapere che in una Facolta di Agraria con un numero moltoelevato di studenti il rapporto tra maschi e femmine sia pari a 0.7 e quindi chela probabilita di incontrare un maschio sia pari a P = 0.7 (evento semplice).Deve essere estratto a sorte un viaggio studio per quattro studenti e, per unaquestione di pari opportunita, si preferirebbe che fossero premiati in ugualmisura maschi e femmine (cioe si vogliono premiare due femmine). Qual ela probabilita che un simile evento si realizzi?

La probabilita cercata si puo ottenere pensando che abbiamo un eventoestrazione che puo dare due risultati possibili (maschio o femmina) e chedeve essere ripetuto quattro volte. Se consideriamo successo estrarre unafemmina, allora la probabilita di successo in ogni estrazione e p=0.3 mentre

Page 7: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

5 DISTRIBUZIONE BINOMIALE 7

quella di insuccesso (evento complementare) e pari a 1 − p = q = 0.7; AT-TENZIONE!!!!!! cio e vero se la popolazione e sufficientemente numerosa dapensare che la singola estrazione non cambia la probabilita degli eventi nellesuccessive (eventi indipendenti). La probabilita che su quattro estrazionisi abbiano 2 successi (evento femmina) e due insuccessi (evento maschio) edata da (teorema della probabilita composta):

0.3 · 0.3 · 0.7 · 0.7 = 0.32 · 0.72

In generale, data una popolazione molto numerosa, nella quale gli in-dividui si presentano con due modalita possibili (in questo caso maschio efemmina) e posto di sapere che la frequenza con cui si presenta la primamodalita e pari a p (in questo caso la frequenza dei maschi e pari a 0.3),mentre la frequenza della seconda modalita e pari a q = 1− p, se vogliamoestrarre da questa popolazione n elementi, la probabilita che k di questipresentino la prima modalita e data da:

pk · q(n−k)

La formula di cui sopra, tuttavia, non risolve il nostro problema, inquanto noi vogliamo che vengano estratte due femmine, indipendentementedall’ordine con cui esse vengono estratte (prima, seconda, terza o quartaestrazione), mentre la probabilita che abbiamo appena calcolato e quellarelativa all’evento in cui le due femmine sono estratte al primo e secondoposto.

Di conseguenza (teorema della probabilita totale) alla probabilita del-l’evento indicato in precedenza (estrazione di due femmine in prima e sec-onda posizione) dobbiamo sommare la probabilita di tutti gli altri eventiutili (due femmine in seconda e terza posizione, oppure in terza e seconda,oppure in terza e quarta e cosı via). Il numero delle combinazioni possibiliper 2 femmine in quattro estrazioni (combinazione di 4 elementi di classe 2)e dato dal coefficiente binomiale:(

nk

)=

n!(n− k)!k!

Moltiplicando le due equazioni date in precedenza otteniamo l’equazionedella distribuzione binomiale:

P (X = xi) =n!

(n− k)!k!· pk · q(n−k)

Nel caso specifico otteniamo il risultato:

P (X = 2) =4!

(4− 2)!2!· 0.32 · 0.7(4−2) = 0.2646

Page 8: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

5 DISTRIBUZIONE BINOMIALE 8

che e appunto la probabilita cercata.In R, utilizziamo la funzione dbinom(successi, prove, probabilita semplice)

per calcolare le probabilita della distribuzione binomiale, ogni volta in cuivogliamo sapere la probabilita di ottenere k successi in n prove:

> dbinom(2,4,0.7)[1] 0.2646

La funzione binomiale e appunto una variabile casuale e si puo dimostrareche il valore atteso (media) e uguale ad n · p, mentre la varianza e pari an · p · q:

La funzione di ripartizione (probabilita cumulata) si calcola in R con lafunzione pbinom(successi, prove, probabilita semplice). Nell’esem-pio, se vogliamo sapere la probabilita totale di estrarre meno di tre femmine(¡= 2 femmine), possiamo operare in questo modo:

> pbinom(2,4,0.3)[1] 0.9163

Che risulta anche dalla somma della probabilita di estrarre 0, 1, 2 fem-mine:

> zero<-dbinom(0,4,0.3)> uno<-dbinom(1,4,0.3)> due<-dbinom(2,4,0.3)> zero+uno+due[1] 0.9163

La funzione di ripartizione puo anche essere utilizzata al contrario, perdeterminare i quantili, cioe il numero di successi che corrispondono ad unaprobabilita cumulata pari ad alfa:

> qbinom(0.9163,4,0.3)[1] 2

Esempio 1

Da una popolazione di insetti che ha un rapporto tra maschi efemmine pari a 0.5, qual e la probabilita di campionare casual-mente 2 maschi e 8 femmine?

> dbinom(2,10,0.5)[1] 0.04394531

Page 9: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

6 CURVA DI GAUSS 9

Esempio 2

Riportare su un grafico la funzione di ripartizione binomiale, perp=0.5 e n=5. Costruire anche la densita di frequenza, utilizzandole opportune funzioni R.

> prob <- 0.5> n <- 5> barplot(dbinom(seq(0, n, by=1), size=n, prob=prob),

main="Distribuzione binomiale per p=0.5",xlab="Successi", ylab="Probabilita",names.arg=seq(0,5))

> barplot(pbinom(seq(0, n, by=1), size=n, prob=prob),main="Distribuzione binomiale per p=0.5",xlab="Successi", ylab="Probabilita",names.arg=seq(0,5))

6 Variabili casuali continue: la distribuzione nor-male (curva di Gauss)

Da tempo si e notato che le misurazioni fatte in relazione alla gran parte deifenomeni biologici possono essere ricondotte alla cosiddetta distribuzionenormale delle frequenze. In effetti, e ragionevole accettare il fatto che ra-gionevolmente accettare il fatto che ripetendo la misurazione con uno stru-mento sufficientemente sensibile e in presenza del solo errore casuale (cioein assenza di errore sistematico), i risultati tendono a differire tra di loro,muovendosi intorno ad un valore medio, rispetto al quale le misure superioried inferiori sono equiprobabili e tendono ad essere piu rare, via via che cisi allontana dal valore medio. Questo ragionamento ci porta verso una den-sita di frequenza (parliamo di variabili continue) a forma di campana, chepotrebbe essere descritta con una funzione continua detta curva di Gauss.

La curva e descritta dalla seguente funzione:

P (x) =1

σ√

2πexp

((x− µ)2

2σ2

)

ove P (x) e la frequenza di una certa misura x, mentre µ e σ sonorispettivamente la media e la deviazione standard della popolazione (perla dimostrazione si rimanda a testi specializzati). Le densita di frequenzache possono essere descritte con la curva di Gauss, prendono il nome didistribuzioni normali.

Page 10: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

6 CURVA DI GAUSS 10

Figura 1: Grafici relativi all’esempio 2

Page 11: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

6 CURVA DI GAUSS 11

Studiare le principali proprieta matematiche della curva di Gauss e es-tremamente utile, perche, se supponiamo che essa possa descrivere la granparte dei fenomeni biologici naturali, possiamo estendere le caratteristichedella curva e all’andamento del fenomeno in studio. Ad esempio, senza volerentrare troppo in dettaglio, il semplice esame grafico della curva di Gaussconsente le seguenti osservazioni:

1. La forma della curva dipende da solo da µ e σ (figure 2 e 3). Ciosignifica che, se prendiamo un gruppo di individui e partiamo dal pre-supposto (assunzione parametrica) che in relazione ad un determinatocarattere quantitativo (es. altezza) la distribuzione di frequenza e nor-male (e quindi puo essere descritta con una curva di GAUSS), allorabasta conoscere la media e la deviazione standard degli individui eimmediatamente conosciamo l’intera distribuzione di frequenza;

2. la curva ha due asintoti e tende a 0 quando x tende a ∞ infinito.Questo ci dice che se assumiamo che un fenomeno e descrivibile con unacurva di Gauss, allora assumiamo che tutte le misure sono possibili,anche se la loro frequenza decresce man mano che ci si allontana dallamedia;

3. la probabilita che la x assuma valori compresi in un certo intervallo edata dall’integrale della curva di Gauss in quell’intervallo;

4. Se la curva di Gauss e stata costruita utilizzando le frequenze relative,l’integrale della funzione e uguale ad 1. Infatti la somma delle frequen-ze relative di tutte le varianti possibili non puo che essere uguale ad1;

5. la curva e simmetrica. Questo indica che la frequenza dei valori supe-riori alla media e esattamente uguale alla frequenza dei valori inferiorialla media.

6. dato σ, possiamo dire che la frequenza dei valori superiori a µ + σ epari al 15.87% ed e uguale alla frequenza dei valori inferiori a µ− σ ;

Insomma, il calcolo di probabilita per una distribuzione normale equivaleal calcolo di un integrale, che viene eseguito numericamente, dato che lafunzione di Gauss non ha primitive.

Sempre utilizzando metodi numerici e possibile calcolare i quantili peruna distribuzione normale, noti che siano µ e σ.

Page 12: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

7 VARIABILI STANDARDIZZATE 12

Figura 2: esempio di due distribuzioni normali, con la stessa media e diversadeviazione standard

7 Trasformazione e standardizzazione delle vari-abili

Le distribuzioni normali sono infinite (perche infiniti sono i valori possibiliper µ e σ), ma con opportune trasformazioni dei dati possono tutte esserericondotte ad una sola distribuzione di riferimento con µ = 0 e σ = 1, dettadistribuzione normale standardizzata.

Trasformare una popolazione (o comunque un insieme) di dati (misure)significa aggiungere ad ognuno di essi una quantita costante e/o moltiplicareognuno di essi per una quantita costante. La trasformazione si rilette sulvalore della media e della deviazione standard dei dati in modo altamenteprevedibile.

In particolare, tutti i dati della popolazione possono essere addizionatiad un numero n. In questo caso, la media della popolazione trasformata epari alla media della popolazione non trasformata + n. Lo stesso vale setutti i dati sono moltiplicati per un numero comune n. In questo caso anchela media e uguale al prodotto della media della popolazione non trasformataper n.

Esempio 3

Page 13: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

7 VARIABILI STANDARDIZZATE 13

Figura 3: esempio di due distribuzioni normali, con la stessa deviazionestandard e diversa media

Considerate i dati: (a) 12 ; 14 ; 16 ;18 ; 11. La media e paria: 14.2 Se ad ogni dato aggiungiamo il numero 2, otteniamo:(b) 14 ; 16 ; 18 ; 20 ; 13. La nuova media e 16.5 Se invecemoltiplichiamo ogni dato per 2, otteniamo: (c) 24 ; 28 ; 32 ; 36; 22. La media e 28.4

Se invece della media consideriamo la deviazione standard, letrasformazioni addittive non hanno alcun effetto, mentre le trasfor-mazioni moltiplicative fanno si che la deviazione standard siamoltiplicata per n.

Esempio 4

Considerate i dati dell’esempio precedente. (a) 12 ; 14 ; 16 ;18; 11. La deviazione standard e pari a 2.86 Se ad ogni dato ag-giungiamo il numero 2, otteniamo: (b) 14 ; 16 ; 18 ; 20 ; 13. Ladeviazione standard e pari ancora a 2.86 Se invece moltiplichi-amo ogni dato per 2, otteniamo: (c) 24 ; 28 ; 32 ; 36 ; 22. Ladeviazione standard e pari a 5.72

Page 14: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

8 LE VARIABILI CASUALI CON R 14

Ora se prendiamo un insieme di dati (x) calcoliamo la media e ladeviazione standard e poi prendiamo ogni dato ci sottraiamo lamedia e dividiamo il risultato per la deviazione standard, secondola funzione:

z =x− µσ

otteniamo un insieme di dati trasformati la cui media e zero e lacui deviazione standard e 1.

Esempio 5

Considerate i dati: (a) 2 ; 5 ; 8; la media e pari a 5, mentre ladeviazione standard e pari a 3. Se ad ogni dato sottraiamo 5 edividiamo il risultato per 3, otteniamo la serie: (b) -1 ; 0 ; 1; cheha appunto media 0 e deviazione standard pari ad 1.

In questo modo, qualunque sia la popolazione normale di parten-za, possiamo trasformarla in una popolazione normale standard-izzata; cio ci permette di risolvere il problema del calcolo difrequenza o di probabilita semplicemente ricorrendo alle tavoledegli integrali della distribuzione normale standardizzata.

8 Le variabili casuali con R

Per la distribuione normale, analogamente a quanto visto per la binomialee a quanto vedremo per le altre variabili casuali, in R esistono tre funzioni:

1. dnorm(x, mi=0, sigma=1) calcola l’ordinata della curva di Gauss perun certo valore x;

2. pnorm(x, mi=0, sigma=1) calcola l’integrale della funzione di ripar-tizione da −∞ax;

3. qnorm(prob ,mi=0, sigma=1) calcola il valore di x che lascia alla suasinistra una probabilita pari a prob.

Utilizzando queste tre funzioni possiamo fare tutti i calcoli di probabilitanecessari per i nostri problemi biometrici.

Esempio 6

Qual e la probabilita che, da un pozzo con un contenuto mediodi cloro pari a 1 meq l−1, eseguendo l’analisi con uno strumen-to caratterizzato da un coefficiente di variabilita pari al 4%, si

Page 15: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

8 LE VARIABILI CASUALI CON R 15

ottenga una misura pari o superiore a 1.1 meql−1? E’ possi-bile che questa misura sia stata ottenuta casualmente, oppuree successo qualcosa di strano (errore grossolano nell’analisi oinquinamento del pozzo)? Questo problema puo essere risoltoimmaginando che se e vero che il pozzo ha un contenuto mediodi 1 meq l−1 i contenuti di cloro dei campioni estratti da questopozzo dovrebbero essere distribuiti normalmente, con media pariad 1 e deviazione standard pari a 0.04 (si ricordi la definizionedi coefficiente di variabilita). Qual e la probabilita di estrarreda questa popolazione una misura pari superiore a 1.1 meq meql−1? La risposta puo essere trovata ricorrendo ad R:

> pnorm(1.1, mean=1, sd=4*1/100, lower.tail=FALSE)[1] 0.006209665

Si utilizza l’argomento lower.tail=FALSE, in quanto stiamo cer-cando la probabilita di una concentrazione pari o superiore ad1.1, e non pari o inferiore.

Esempio 7

Nello stesso strumento sopra indicato e considerando lo stessotipo di analisi, calcolare: 1 - la probabilita di ottenere una misurainferiore a 0.75 2 - la probabilita di ottenere una misura superiorea 1.5 3 - la probabilita di ottenere una misura compresa tra 0.95e 1.05

Stabilire inoltre: 1 - la misura che e superiore al 90% di quellepossibili 2 - la misura che e inferiore al 70% di quelle possibili 3- le misure entro le quali si trova il 95% delle misure possibili

La soluzione e banale secondo lo schema seguente.

> pnorm(0.75, 1,4*1/100)[1] 2.052263e-10> pnorm(1.5, 1, 4*1/100, lower.tail=FALSE)[1] 3.732564e-36> pnorm(1.05, 1, 4*1/100) - pnorm(0.95, 1, 4*1/100)[1] 0.7887005> qnorm(0.9, 1, 0.04)[1] 1.051262> qnorm(0.7, 1, 0.04, lower.tail=FALSE)[1] 0.979024> qnorm(0.975, 1, 0.04)[1] 1.078399

Page 16: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

9 LA DISTRIBUZIONE DELLE MEDIE CAMPIONARIE 16

> qnorm(0.025, 1, 0.04)[1] 0.9216014>

9 La distribuzione delle medie campionarie

Il problema precedente dovrebbe aver chiarito come, dato uno strumento dianalisi caratterizzato da un errore pari al 4%, se dobbiamo analizzare unasostanza la cui concentrazione e pari ad 1, le misure ottenute, nel 95% deicasi oscilleranno tra 1.07 e 0.92. In realta, come abbiamo gia avuto mododi ricordare, noi non eseguiremmo mai una singola analisi, ma ripeteremola misura almeno due o tre volte, calcolando poi la media. Il problemaallora e: esiste una variabile casuale che descrive la distribuzione delle me-die di tutti gli infiniti campioni estraibili dalla popolazione anzidetta. Sipuo dimostrare che, data una popolazione normalmente distribuita con me-dia mi e deviazione standard sigma, le medie campionarie sono anch’essenormalmente distribuite con media mi e deviazione standard pari a:

σx =σ√n

dove n e la dimensione del campione.

Esempio 8Nello stesso strumento indicato all’esempio precedente (CV =4%), immaginando di eseguire analisi in triplicato di una sostan-za la cui concentrazione e pari a 1 ng/l, calcolare:

1. la probabilita di ottenere una media campionaria ¡ 0.75

2. la probabilita di ottenere una media campionaria ¿ 1.5

3. la probabilita di ottenere una media campionaria compresatra 0.95 e 1.05

Stabilire inoltre:

1. la media campionaria superiore al 90% di quelle possibili

2. la media campionaria inferiore al 70% di quelle possibili

3. le medie campionarie entro le quali si trova il 95% dellemisure possibili

> pnorm(0.75,1,0.04/sqrt(3))[1] 1.305861e-27

> pnorm(1.5,1,0.04/sqrt(3),lower.tail=FALSE)[1] 2.997427e-104

Page 17: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

9 LA DISTRIBUZIONE DELLE MEDIE CAMPIONARIE 17

> pnorm(1.05,1,0.04/sqrt(3))-pnorm(0.95,1,0.04/sqrt(3))[1] 0.9696172

> qnorm(0.9,1,0.04/sqrt(3))[1] 1.029596

> qnorm(0.7,1,0.04/sqrt(3),lower.tail=FALSE)[1] 0.9878895

> qnorm(0.975,1,0.04/sqrt(3))[1] 1.045263

> qnorm(0.025,1,0.04/sqrt(3))[1] 0.9547366

Del precedente caso studio e di particolare interesse l’ultimo punto; in al-tre parole si afferma che, data una sostanza di concentrazione pari ad 1 ng/l,che deve essere dosata con uno strumento che ha un errore di misura del4%, la concentrazione vera e indeterminabile, giacche a causa dell’anzidettoerrore di misura i risultati delle analisi si comporteranno come una variabilecasuale normale, con media pari alla concentrazione incognita e deviazionestandard pari a 0.04. Per ottenere la vera concentrazione del campione l’u-nico modo sarebbe ripetere infinite analisi. Tuttavia, possiamo considerareanche che, se preleviamo un campione di n individui dalla popolazione inesame (cioe se ripetiamo l’analisi n volte), abbiamo il 95% di probabilitache la media delle n determinazioni effettuate sia compresa tra 0.95 e 1.04.Questi margini di incertezza si restringono se n aumenta e si annullanoquando n diviene infinito.

Questa affermazione, cosı posta, e contestuale e vale solo per il miostrumento con CV = 4% e una media da determinare pari a 1 ng/l. Sevolessimo fare un discorso di validita piu generale, potremmo pensare allastandardizzazione delle misure, in modo da avere, qualunque sia la sostanzada analizzare e qualunque sia l’errore di misura dell’apparecchio, una dis-tribuzione delle misure con media pari a 0 e sigma pari ad 1. Di conseguenzala distribuzione delle medie campionarie sara normale, con media pari a 0 edeviazione standard pari all’inverso della radice del numero dei dati. Nelladistribuzione normale standardizzata delle medie campionarie, il 95% dellemisure e compreso tra:

> qnorm(0.975)[1] 1.959964> qnorm(0.025)[1] -1.959964

Page 18: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

10 LA DISTRIBUZIONE T DI STUDENT 18

dato che:

−1.96 < x−µσ < 1.96

µ− 1.96 · σ√n< x < µ+ 1.96 · σ√

n

possiamo quindi concludere che il 95% delle misure (medie di n deter-minazioni) e compreso entro l’intervallo dfinito dalla media vera piu o menouna quantita costante, pari ad un multiplo dell’errore standard.

10 La distribuzione t di Student

Abbiamo visto che la variabile casuale standardizzata e le medie campionariestandardizzate si distribuiscono normalmente con media pari a 0 e deviazionestandard pari all’inverso della radice del numero dei dati. Tuttavia, peroperare la standardizzazione e necessario conoscere la deviazione standarddella popolazione originaria. In alcuni casi questo valore non e noto e deveessere stimato a partire dalla deviazione standard del campione (s). Inquesto caso la quantita:

t =x− µs

non segue la distribuzione normale, in quanto esiste un margine di in-certezza in piu, che aumenta la probabilita delle misure lontane dalla media.Si puo dimostrare che la quantita anzidetta si distribuisce secondo una dis-tribuzione detta t di Student con ni gradi di liberta, pari alla numerosita delcampione meno uno. Piu cresce ni, piu la distribuzione di t tende a quellanormale standardizzata, come si evince dall’esercizio sottostante.

Esercizio 1

Disegnare su un grafico una curva normale standardizzata ed unaserie di curve di t, con 2, 6 e 24 gradi di liberta.

> curve(dnorm(x),-3,+3,col="Black",lwd=3,xlab="",ylab="Probabilita")

> curve(dt(x,2),-3,+3,col="Blue",lwd=3, add=TRUE)> curve(dt(x,6),-3,+3,col="Red",lwd=3, add=TRUE)> curve(dt(x,24),-3,+3,col="Green",lwd=3, add=TRUE)> legend(-3,0.35,legend=c("normale","t con 2 gl",

"t con 6 gl","t con 24 gl"),col=c("Black","Blue","Red","Green"),lty=c(1,1,1,1), lwd=c(3,3,3,3))

>

Page 19: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

10 LA DISTRIBUZIONE T DI STUDENT 19

Figura 4: Esempio di una serie di distribuzioni di t di Student

Esempio 9Con una bilancia abbiamo pesato quattro piante di mais trattateallo stesso modo e provenienti da un appezzamento piuttostogrande. Le misure sono: 125, 128, 136 e 142 g di sostanza secca.Ammesso che si tratti di un campione rappresentativo, valutarela probabilita che questi quattro individui siano estratti da unapopolazione con media pari a 150 g. Verificare anche se la mediadel campione e esterna all’intervallo che contiene il 95% dellemisure piu probabili.

> peso <- c(125, 128, 136, 142)> media <- mean(peso)> devst <- sqrt(var(peso))> media[1] 132.75> devst[1] 7.719024

Il campione ha una media µ = 132.75 e deviazione standardσ = 7.719.Possiamo considerare in prima approssimazione che

Page 20: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

10 LA DISTRIBUZIONE T DI STUDENT 20

la popolazione da cui e estratto il campione abbia una devi-azione standard pari a quella del campione. Di conseguenza, laquantita:

t =x− 150

7.719√4

ove x e la media del campione, si distribuisce secondo la variabilecasuale t di Student. Nel nostro caso, t = - 4.47

> errst <- devst / sqrt(4)> errst[1] 3.859512> tosservato <- (media - 150) / errst> tosservato[1] -4.469477

La probabilita corrispondente e:

> pt(tosservato, 3)[1] 0.01043776

Come dice il valore di probabilita, questa misura non fa partedel 95% delle misure piu probabili; infatti i valori di t situati al2.5esimo e al 97.5esimo percentile della distribuzione di t sono:

> qt(0.025, 3)[1] -3.182446> qt(0.975, 3)[1] 3.182446

Che corrispondono ad un peso di:

> qt(0.025, 3) * errst + 150[1] 137.7173> qt(0.975, 3) * errst + 150[1] 162.2827

Page 21: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

11 LA DISTRIBUZIONE F DI FISHER 21

11 La distribuzione F di Fisher

Se da una popolazione normale N(µ, σ) estraiamo due campioni indipendentiotteniamo due stime s1 ed s2 della deviazione standard σ. Se operiamoinfinite volte l’estrazione di coppie di campioni e ogni volta misuriamo laquantita:

F =s1

s2

otteniamo la variabile casuale F di Fisher, con ni1 gradi di liberta alnumeratore (relativi ad s1) e ni2 gradi di liberta al denominatore (relativiad s2). La distribuzione F e fortemente asimmetrica, con mediana pari ad1.

Esercizio 2

Disegnare la curva di F con (3, 3), (10, 10), (50, 50), (3, 50)

> curve(df(x,3,3),0,+3,col="Black",lwd=3,xlab="", ylab="Probabilita",ylim=c(0,1.5))

> curve(df(x,10,10),0,+3,col="Blue",lwd=3,add=TRUE)> curve(df(x,50,50),0,+3,col="Red",lwd=3,add=TRUE)> curve(df(x,3,50),0,+3,col="Green",lwd=3,add=TRUE)> legend(2,1.3,legend=c("3,3 gl","10,10 gl",

"50,50 gl","3,50 gl"),col=c("Black","Blue","Red","Green"),lty=c(1,1,1,1),lwd=c(3,3,3,3))

12 Altre variabili casuali di interesse per lo speri-mentatore

Oltre a quelle accennate, esistono molte altre variabili casuali, sia contin-ue che discrete, utilizzate nell’inferenza statistica. Menzioniamo solamentela variabile ChiQuadro, la variabile casuale ipergeometrica ed esponenzialenegativa. Le relative densita di distribuzione, funzioni di ripartizioni e quan-tili sono disponibili in R e possono essere utilizzate nel calcolo, con la sintassiusuale.

Page 22: DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITA · probabilit a di CE e pari a: P(CE) = 1 - P(E) 3 Calcolo combinatorio Quando gli eventi si fanno molto complessi, la valutazione

12 ALTRE VARIABILI CASUALI 22

Figura 5: Esempio di una serie di distribuzioni di F di Fisher