02DistribuzioneBinomiale

download 02DistribuzioneBinomiale

If you can't read please download the document

description

S

Transcript of 02DistribuzioneBinomiale

BlankPage

BIOSTATISTICA
Corso per le Lauree Magistrali
in Scienze Biologiche (LM-6)

Silvano Presciuttini

2. L'IPOTESI DEL
DADO TRUCCATO

Dadi truccati

Supponiamo di avere un forte sospetto che il dado lanciato dal nostro avversario di gioco sia truccato in modo da mostrare troppo spesso la faccia con il sei

Non c' altro modo di procedere che quello di condurre esperimenti:lanciare quel dado un gran numero di volte

registrare accuratamente i risultati

decidere se l'ipotesi che il dado sia sbilanciato accettabile (la prendiamo per vera) o no sulla base dell'evidenza raccolta

Ipotesi nulla e ipotesi alternativa

Dobbiamo decidere, sulla base dell'evidenza, se l'affermazione il dado truccato vera o falsa

Il procedimento statistico consiste nel convertire l' affermazione in un sistema di ipotesi, composto dalle cosiddette Ipotesi nulla (H0) e Ipotesi alternativa (H1), tali che siano mutualmente esclusive ed esaustiveLipotesi nulla (H0) : il dado bilanciato

L'ipotesi alternativa (H1) : il dado sbilanciato

Dobbiamo fare degli esperimenti e decidere se i risultati sono compatibili con l'ipotesi nulla, cio rispettano la perfetta casualit, oppure se ne discostano tanto quanto basta a decidere che l'ipotesi nulla da rigettare

L' ipotesi nulla nel caso del dado truccato

Come si pu formulare l'ipotesi nulla in termini numerici?Sappiamo che un dado bilanciato mostra le diverse facce con la stessa probabilit: essendoci 6 facce la probabilit di vedere ad ogni lancio una qualunque di esse 1/6

Quindi se ci concentriamo sulla faccia sei possiamo asserire che la probabilit che essa esca a ciascun lancio 1/6, mentre la probabilit di qualunque altro risultato 5/6

In altre parole, ci attendiamo che, dato un certo numero di lanci, 1/6 di essi abbia mostrato il sei, mentre 5/6 abbiano mostrato un'altra faccia

Ehi, gringo, stai barando

chiaro che se lanciamo il dado, che sospettiamo truccato, 100 volte e viene sei per 30 volte...

Su cento lanci il sei ha una numerosit attesa di 16,7, cio doverebbe capitare intorno a 17 volte; magari potr capitare 20 volte o 15, ma non possiamo credere che possa venir fuori 30 volte, cos, solo per caso... o no?

Dobbiamo studiare un po' di probabilit

Ma come facciamo a quantificare il nostro livello di certezza che il dado truccato, o meglio il nostro livello di confidenza nel rifiutare l'ipotesi nulla che il dado sia ben bilanciato? chiaro che non siamo certi al 100%, perch esiste comunque una probabilit, per quanto piccola, che il dado non sia truccato e che il sei sia capitato 30 volte su 100 per puro caso

Come facciamo a calcolare questa probabilit? Faremo uso della distribuzione di probabilit detta binomiale

La distribuzione binomiale viene usata in statistica per studiare eventi che possono verificarsi soltanto in due modalit: ad esempio il lancio di una moneta, per la quale sono possibili solo i risultati di testa o croce, o l'estrazione di un numero al lotto, che pu presentarsi come successo o insuccesso

Binomial distributions

Using the binomial distribution, you can answer questions such as these:If you flip a coin l0 times, what is the probability of getting 7 or more heads?

If 5% of patients undergoing an operation get infected, what is the chance that 10 or more of the next 30 patients will be infected?

If a couple's chance of passing a genetic disease to each child is 25%, what is the chance that their first three children will all be unaffected?

If 40% of voters are Democrats, what is the chance that a random sample of 500 voters will include more than 45% Democrats?

The binomial equation

Assume that in the overall population, the proportion of "successes" is pThe word success is used quite generally to denote one of the possible outcomes. You could just as well use the word failure or outcome A. It doesn't matter which outcome you label success and which outcome you label failure.

In a sample of N subjects, what is the chance that observing exactly R successes? The answer is

The exclamation point denotes factorial. For example, 3! = 3 x 2 x 1 = 6. The term on the right [pR(l p)N R] is the probability of obtaining a particular sequence of "successes" and "failures." That term is very small. The term on the left takes into account that there are many different sequences of successes and failures that lead to the same proportion success

In altre parole

Dette p e q (= 1-p) rispettivamente la probabilit di un evento e del suo contrario, la distribuzione binomiale Pn,p(k) fornisce la probabilit che levento caratterizzato dalla probabilit p si presenti k volte su n prove

Ovvero anche: la distribuzione binomiale consente di calcolare la probabilit di ottenere r volte l'evento A su n prove quando la probabilit di ottenerlo in una singola prova p ed possibile un solo evento alternativo B con probabilit q = 1 p

La distribuzione binomiale ha la formula generale

P(r) = Crn pr qnr Dove Crn il cosiddetto coefficiente binomiale

Un esempio elementare

Consideriamo il caso del rapporto sessi alla nascita nell' uomoAmmettiamo che la probabilit che nasca un maschio sia del 50% per tutte le nascite

Possiamo allora cercare di prevedere come sono costituite le fratrie di 1, 2, 3,..., k figli in termini del numero di maschi sul totale dei figli

Le fratrie di un solo individuo avranno evidentemente probabilit di essere costituite da maschi (e probabilit 1 = di essere costituite da femmine)

Le fratrie di due figli potranno avere 0 maschi, 1 o 2, e le fratrie di tre figli potranno avere 0, 1, 2, o 3 maschi, e cos via: con che probabilit capitano queste eventualit?

Maschi e femmine in fratrie di N figli

Come si distribuiscono per sesso le fratrie di N figli?

i figli unici possono essere solo o femmine o maschi

per le fratrie di 2 figli ci sono 4 possibilit: [ambedue femmine], [femmina-maschio], [maschio-femmina] o [ambedue femmine]

per le fratrie di 3 ci sono 8 possibilit: [tre femmine], [femmina-femmina-maschio], [femmina-maschio-femmina], ecc.

La probabilit di osservare una qualunque di queste fratrie sempre data dal prodotto della probabilit di ciascun singolo evento (maschio/femmina)

Per esempio, la combinazione [femmina-maschio-femmina-maschio (0101)] ha probabilit = 1/16

N. di maschi indipendentemente dall'ordine di nascita

Noi tuttavia ci eravamo posti la domanda: con che probabilit si verificano fratrie con 1, 2, 3, ..., k maschi?

Quindi siamo interessati per esempio alla probabilit di osservare fratrie di 4 figli in cui c' un solo maschio, indipendentemente dall'ordine con cui questo pu capitare nella fratria (primo, secondo, terzo o quarto)Se contiamo le numerosit con cui compaiono questi casi nella tabella precedente, troviamo la situazione seguente:

ad esempio, ci sono 6 modi con cui si possono presentare fratrie di 4 figli con 2 maschi e 2 femmine (quindi anche sei volte pi probabile osservare una fratria di 2 maschi e 2 femmine piuttosto che una fratria di soli maschi o sole femmine)

Il coefficiente binomiale

C' un sistema per prevedere come sono distribuiti i modi in cui si possono presentare 0, 1, 2, 3, 4, e 5 maschi in fratrie di 5 figli, e poi di 6 figli, e cos via?

Il calcolo combinatorio ci viene in aiutoAd es., quanti modi ci sono di avere 2 maschi in fratrie di 5? La formula generale del numero di combinazioni (C) diverse che si possono formare con n oggetti divisi in due gruppi di numerosit r e n-r

Crn = n!/[r!(n r)!]Quindi per n = 5 e r = 2, troviamo C52 = 5!/2!(5-2)! = 120/(26) = 10, cio abbiamo 10 modi possibili di ottenere due maschi in fratrie di 5 figli

Il coefficiente Crn si chiama coefficiente binomiale e viene anche indicato con la notazione (rn) o C(n,r) e si legge coefficiente binomiale erre su enne

Sviluppando il ragionamento per le altre classi in cui si pu distribuire il numero di maschi (0, 1, 2, 3, 4, 5) troviamo la serie 1, 5, 10, 10, 5, 1

Il triangolo di Tartaglia

C' un modo semplice per ricavare la serie delle numerosit delle varie combinazioni del numero di maschi e femmine da applicare a ciascuna possibile dimensione della fratria?Nel triangolo di Tartaglia, o di Pascal, ciascun numero la somma dei due che gli stanno sopra, e la serie dei numeri di ciascuna riga la numerosit che cerchiamo

Numero dei modi in cui si possono combinare X maschi in fratrie di 11 figli

Da: dns2.icar.cnr.it/manco/Teaching/2006/datamining/lezioni/Probabilita2.ppt (Giuseppe Manco ICAR-CNR Torino)

Probabilit di r maschi in fratrie di n figli

A questo punto siamo in grado di calcolare tutte le probabilit che una fratria di n figli sia costituita da 0, 1, 2, ..., r, ..., n maschi

Avendo assunto che la probabilit dell'evento maschio esattamente 0,5, la probabilit di ciascuna particolare sequenza di maschi-femmine in ogni fratria data da ()n e per ottenere la probabilit di 0, 1, 2, r, ..., n maschi basta moltiplicare questa probabilit per il numero delle volte in cui si possono presentare 0, 1, 2, r, ..., n maschi, che dato dal coefficiente binomiale

Se p diverso da 0,5

La forma della distribuzione dipende dal valore della probabilit di successo p

Generalit della distribuzione binomiale

La distribuzione di probabilit binomiale si pu applicare ogni volta in cui siamo in presenza di campionamento di variabili dicotomiche (o binarie)Le variabili casuali binarie si incontrano spesso: maschio/femmina, malato/sano, negativo/positivo, affetto/non affetto, ...

Inoltre anche le variabili che sono per loro natura continue possono sempre essere ricondotte ad una semplice dicotomiaper esempio una misura di lunghezza o di peso, che in linea di principio pu assumere tanti valori diversi quanti oggetti si vanno a misurare, pu essere ridotta ad una classificazione binaria prefissando una soglia e contando i valori superiori o inferiori a tale soglia

30 successi su 100 lanci

Tornando al caso del sospetto dado truccato, la domanda corretta dal punto di vista del test delle ipotesi : se il dado non truccato che probabilit ho di ottenere 30 volte sei in 100 lanci?Si tratta di applicare la formula della distribuzione binomiale, che nel nostro caso assume la forma

P(30 sei in 100 lanci) = C30100 p30 q70 Il primo fattore del prodotto (C30100) prende il nome di coefficiente binomiale e fornisce il numero dei modi possibili in cui si possono realizzare sequenze di 100 lanci in cui compare il 6 per 30 volte

Gli altri due fattori sono potenze del parametro p , cio la probabilit che in un singolo lancio esca il sei (p = 1/6, q = 1 p = 5/6)

Il coefficiente binomiale per n = 100

C' un solo modo per ottenere 0 sei in 100 lanci, mentre ci sono 100 modi per ottenere un solo sei

Il numero dei modi (combinazioni) aumenta fino al massimo (approssimato) di

100.891.344.545.564.000.000.000.000.000quando r = 50, poi torna a diminuire con valori uguali e simmetrici fino a C(99,100) = 100 e C(100,100) = 1

Calcolabilit della distribuzione binomiale

Il coefficiente binomiale solo il primo dei fattori coinvolti nel calcolo delle probabilit

Gli altri due fattori sono potenze di 1/6 e 5/6, il cui prodotto diventa, al crescere di r, rapidamente cos piccolo da oltrepassare la capacit di calcolo di un normale computer

Per ricorrendo ai logaritmi il calcolo diventa fattibile almeno approssimativamente, per tutti i 101 casi possibili:

P1/6,100(r) = e ln C(100, r) + r ln(1/6) + (100-r) ln(5/6)

Distribuzione di probabilit

La distribuzione della probabilit di ottenere 0, 1, 2, ..., 30, r, ..., 100 sei in 100 lanci di un dado bilanciato mostra che il massimo della probabilit (10,7%) 16 volte, seguito da 17 volte (10,5%).

La probabilit di ottenere 30 volte il sei del 3,8 su 10.000

Per quanto trascurabili, le probabilit di r > 30 non sono nulle

Da un particolare valore di p al p value

La probabilit di ottenere esattamente 30 volte il 6 in 100 lanci di un dado bilanciato molto piccola (0,00038); sarebbe per sbagliato considerare solo questo valore per decidere se dobbiamo rifiutare l'ipotesi nullaquando il numero delle possibilit molto grande, la probabilit di ciascuna di esse inevitabilmente molto piccola: ad es. la probabilit di osservare 22 sei nel nostro caso di 0,037 (3,7%)

Ricordiamo che un p-value la probabilit di osservare un dato valore o un valore ancora pi estremo nella direzione dell'ipotesi alternativa

Dobbiamo quindi nel nostro caso sommare le probabilit di ottenere 30 sei con tutti i casi pi estremi, cio 31, 32, 33, , 100 sei

Somme di probabilit

Se sommiamo i valori di probabilit per r < 30, cio da 0 a 29, otteniamo

Ci significa che abbiamo il 99,93% di probabilit di ottenere su 100 lanci un numero di sei minore di 30

Il complemento a 1 di questa quantit ,che anche la somma, per r che va da 30 a 100, della probabilit di ottenere r volte la faccia 'sei', 0,000677 (probabilit di ottenere il sei 30 volte o pi)

Probabilit binomiale ed errore del I tipo

Ora, noi dobbiamo decidere, sulla base di un esperimento di 100 lanci in cui abbiamo ottenuto 30 volte sei, se l'affermazione il dado truccato vera o falsa

chiaro che non possiamo conoscere la verit con certezza e che corriamo il rischio di incorrere in un errore del I tipo se prendiamo l'affermazione come vera e il dado bilanciato (mentre se il dado veramente truccato e noi lo diamo per buono commettiamo un errore del II tipo)

La probabilit di 0,000677 che abbiamo calcolato quella di sbagliare se rifiutiamo l'ipotesi nulla che il dado ben equilibrato

In altre parole, abbiamo calcolato la probabilit di commettere un errore del I tipo se accettiamo come vera l'affermazione che il dado truccato

Click to edit the outline text formatSecond Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Silvano PresciuttiniUniversit di Pisa

Click to edit the outline text format

Second Outline LevelThird Outline LevelFourth Outline LevelFifth Outline LevelSixth Outline LevelSeventh Outline LevelEighth Outline LevelNinth Outline Level

Biostatistica 2013-14S. Presciuttini