1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al...

27
1. 1. PROBABILIT PROBABILIT À À A. Federico A. Federico ENEA; Fondazione Ugo Bordoni ENEA; Fondazione Ugo Bordoni S S cuola estiva di fonetica cuola estiva di fonetica forense forense Soriano al Cimino 17 – 21 settembre 2007 Soriano al Cimino 17 – 21 settembre 2007

Transcript of 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al...

Page 1: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

1.1. PROBABILITPROBABILITÀÀ A. FedericoA. Federico

ENEA; Fondazione Ugo BordoniENEA; Fondazione Ugo Bordoni

SScuola estiva di fonetica forensecuola estiva di fonetica forenseSoriano al Cimino 17 – 21 settembre 2007Soriano al Cimino 17 – 21 settembre 2007

Page 2: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

1. Spazio degli eventi

2. Spazi degli eventi discreti e continui

3. Probabilità

4. Calcolo combinatorio

5. Esercizi

6. Formula di Bayes

7. Rapporti di verosimiglianza

8. I test di diagnostica medica

SOMMMARIOSOMMMARIO

Page 3: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

Un insieme S contenente tutti i possibili risultati di un esperimento, come ad esempio l’alfabeto di un messaggio, è detto spazio degli eventi; ciascun risultato, come ciascun simbolo dell’alfabeto, è un elemento di S.

Lo spazio degli eventi S corrispondente al lancio di un dado contiene 6 elementi S = {1,2,3,4,5,6} ed è un esempio di spazio degli eventi finito. Se si considera come evento il numero di volte che un dado deve essere lanciato prima di ottenere un 6, si ha invece uno spazio degli eventi, ancora discreto, ma infinito, dove ogni numero intero positivo è un possibile risultato.

ESPERIMENTI, SPAZI DEGLI EVENTIESPERIMENTI, SPAZI DEGLI EVENTI

Page 4: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

Spazio degli eventi “S”: l’insieme di tutti i risultati possibili di un esperimento. Può essere discreto, discreto non numerabile o continuo con un numero qualsiasi di dimensioni.

Evento “E”: un qualsiasi sottoinsieme di S.

Ogni definizione di probabilità deve essere data con rigoroso riferimento ad un evento “E” ed a uno spazio degli eventi “S”.

Sono possibili diversi approcci alla definizione della probabilità di un evento E S.

DEFINIZIONIDEFINIZIONI

Page 5: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

BernoulliBernoulli: se un evento E può verificarsi in h modi tra n equiprobabili che definiscono S, la probabilità P(E) vale h/n.

CampionariaCampionaria: se ripetendo un esperimento E un numero di volte n, grande a piacere, l’evento si ripete h volte, lim n∞ P(E) = h/n.

AssiomaticaAssiomatica: una funzione reale P(E) definita per ogni E S è una funzione di probabilità se P(E)0; P(S)=1

Se: E1E2 … Ek = null:

P(E1E2 … Ek )= P(E1)+P(E2) + … P(Ek)

DEFINIZIONIDEFINIZIONI

Page 6: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

La definizione classica di probabilità matematica P, dovuta a Bernoulli e Laplace, assume che tutti i risultati possibili di un esperimento siano ugualmente probabili e che lo spazio degli eventi sia finito.

Queste circostanze si determinano in un grandissimo numero di casi di interesse pratico. In molti casi ancora ci si può ricondurre a questa ipotesi con opportune scomposizioni degli eventi. Se s è un insieme di n casi tra gli N possibili equiprobabili P = n/N. Se P = 0 si ha il caso impossibile; se P = 1 il caso certo. La probabilità diviene quindi un problema di conteggio che si può gestire con i metodi del calcolo combinatorio.

SPAZI BERNOUILLIANI DI EVENTI EQUIPROBABILI

Page 7: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

La teoria della probabilità studia concetti e metodi per esprimere quantitativamente il grado di fiducia sul verificarsi degli eventi.

A ciascun evento di uno spazio S può essere associata una probabilità, che, dal punto di vista matematico, è una funzione definita sull'insieme degli eventi.

In assenza di informazioni sul processo stocastico si stima la probabilità con la statistica, contando i casi favorevoli nelle serie storiche. E’ tuttavia perfettamente lecito assumere il proprio grado di fiducia come misura soggettiva della probabilità degli eventi.

PROBABILITÀPROBABILITÀ

Page 8: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

PROPRIETÀ ADDITIVA (ASSIOMATICA)PROPRIETÀ ADDITIVA (ASSIOMATICA)

Se A e B sono due eventi qualsiasi di S, allora:

P(A B) = P(A) + P(B) − P (A B) ≤ 1

Infatti sommando semplicemente P(A) e P(B), la probabilità P (A B) verrebbe contata due volte e P potrebbe superare l’unità.

Page 9: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

DIAGRAMMI AD ALBERODIAGRAMMI AD ALBERO DEGLI EVENTIDEGLI EVENTI

Page 10: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

DIAGRAMMI DI VENN

Si consideri un rettangolo: per ogni numero naturale n, si disegnino, dentro 1, n linee chiuse Ai tali che l’insieme S1,…,Sh delle h = 2n superfici individuate costituisca una partizione di 1; si prova che ciò è sempre possibile. La figura Vn così ottenuta è un diagramma di Venn relativo ad n.

Page 11: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

I TEOREMI DEL CALCOLO DELLE PROBABILITÀ_1I TEOREMI DEL CALCOLO DELLE PROBABILITÀ_1

1. Se E1E2 P(E1) P(E2)

P(E2-E1) = P(E2) -

P(E1)

2. 0 P(E) 1

3. P(S E) = 1 - P(E)

4. “Delle probabilità composte”:

P(E1E2 E3 ) = P(E1) + P(E2) + P(E3)

- P(E1E2) - P(E3E2)) - P(E1E3))

+ P(E1E2 E3)

Page 12: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

I TEOREMI DEL CALCOLO DELLE PROBABILITÀ_2I TEOREMI DEL CALCOLO DELLE PROBABILITÀ_2

5. “Della probabilità condizionata”:

P(E2 , E1) = P(E2) P(E1E2) = P(E1) (E2E1)

in particolare, se gli eventi sono indipendenti:

P(E2 , E1) = P(E1) P(E2)

6. “Formula di Bayes”:

se i E i = S; per i =1, … k

P(EiE) = P(Ei) P(EEi) / i P(Ei) P(EEi).

Page 13: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

FORMULA DI BAYES PER DUE EVENTIFORMULA DI BAYES PER DUE EVENTI

Siano B1 e B2 due eventi di SB mutuamente esclusivi e tali che P(B1 B2) = 1:

Qualunque sia AS e P(B), vale la formula di Bayes:

P(B/A) = P(A/B) P(B) / [P (A B1) P(B1) + P(A B2) P(B2)]

Page 14: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

PROPRIETÀ MOLTIPLICATIVA DELLA PROBABILITÀPROPRIETÀ MOLTIPLICATIVA DELLA PROBABILITÀ

Se A e B sono due eventi qualsiasi appartenenti rispettivamente agli spazi degli eventi SA, SB, allora la probabilità che si verifichino entrambi:

P(A,B) = P(A) P(B/A) = P(B) P(A/B)

Le quantità P(A/B), P(B/A) sono probabilità condizionate o condizionali. E' naturale che la probabilità di un evento possa modificarsi se cambiano le informazioni in nostro possesso. Il concetto di probabilità condizionata traduce formalmente l'idea intuitiva che un evento possa influenzare un altro evento.

Quando e se P(A,B) = P(A) P(B), gli eventi A e B sono statisticamente indipendenti.

Page 15: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

LA VEROSIMIGLIANZALA VEROSIMIGLIANZA

Sia stata estratta una sequenza di 2 palle rosse e 3 bianche (con reimbussolamento) da una tra due urne R (3/4 di palle rosse) e B (3/4 di palle bianche).

La probabilità della sequenza, se l’estrazione avviene da R, è P(/R) = 32/45, se avviene da B, P(/B) è 3 volte tanto.

Le due probabilità di , se considerate come funzioni di R, L(R|) e di B, L(B|), sono le verosimiglianze delle due ipotesi mutuamente esclusive R, B.

Si noti che L(A)+L(B)<1.

Page 16: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

UN CASO ESEMPIOUN CASO ESEMPIO

Un’urna viene caricata con 10 palline scelte a caso tra i colori rosso e bianco. Per un’ipotesi sulla composizione più verosimile dell’urna (R;10-R) viene estratta con reimbussolamento una serie che risulta essere di palline rosse e bianche. La formula di Bayes:

P(,/R) = P(R/,) P(,)/P(R) = L(,|R/) P(,)/P(R)

poiché gli ultimi due termini sono invarianti rispetto a R, dice che la verosimiglianza è massima quando è massima la probabilità a posteriori della sequenza :

d/dR (R/10) ((10-R)/10) = 0

R = 10 /( + )

per = R = 5

Page 17: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

LA PROBABILITÀ IN FORMA DI CHANCES (ODDS)LA PROBABILITÀ IN FORMA DI CHANCES (ODDS)

Le chances in favore di un evento E sono: (E) = P(E)/(1 - P(E)).

Le chances contro E, ovvero in favore di S E

(S E) = (E) = (1 - P(E)/ P(E)). CONTRO "E" IN FAVORE DI "E"

0123456789

1011121314151617181920

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

P(E)

CH

AN

CE

S,

OD

DS

Page 18: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

CALCOLO COMBINATORIO_DISPOSIZIONICALCOLO COMBINATORIO_DISPOSIZIONI

Una Una disposizione senza ripetizionedisposizione senza ripetizione semplice di semplice di lunghezza lunghezza kk di di nn oggetti, con oggetti, con k k ≤≤ n n, è una , è una presentazione ordinata di k tra gli n elementi nella presentazione ordinata di k tra gli n elementi nella quale non si possono avere ripetizioni di uno stesso quale non si possono avere ripetizioni di uno stesso oggetto. Per oggetto. Per n = kn = k parleremo di parleremo di permutazionepermutazione. Il primo . Il primo elemento può essere scelto in n modi diversi, il elemento può essere scelto in n modi diversi, il secondo in secondo in (n - 1)(n - 1) e così via sino al k - esimo che può e così via sino al k - esimo che può essere scelto in essere scelto in (n - k + 1)(n - k + 1) modi diversi. Pertanto il modi diversi. Pertanto il numero di disposizioni è dato dal prodotto:numero di disposizioni è dato dal prodotto:

DDnk k = n (n-1) (n-k+1) = n!/(n-k)!= n (n-1) (n-k+1) = n!/(n-k)!

DDnn n = P= Pn = n! = n!

Se le ripetizioni sono ammesse il numero delle Se le ripetizioni sono ammesse il numero delle disposizioni con ripetizionedisposizioni con ripetizione di lunghezza k di n di lunghezza k di n oggetti è:oggetti è:

DRDRnkk = = nnkk

Page 19: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

CALCOLO COMBINATORIO_COMBINAZIONICALCOLO COMBINATORIO_COMBINAZIONI

Dalle Dalle disposizionidisposizioni otteniamo le otteniamo le combinazionicombinazioni eliminando le sequenze che differiscono solo per eliminando le sequenze che differiscono solo per l’ordine degli elementi, cioè accettando un solo tipo di l’ordine degli elementi, cioè accettando un solo tipo di ordinamento degli elementi, ad esempio crescente. Si ordinamento degli elementi, ad esempio crescente. Si tratta delle k! sequenze di ordine tratta delle k! sequenze di ordine kk ottenibili per ottenibili per permutazione della sequenza ordinata. permutazione della sequenza ordinata. Il numero delle Il numero delle combinazioni senza ripetizionecombinazioni senza ripetizione semplici semplici di lunghezza di lunghezza kk di n oggetti, con di n oggetti, con k k ≤≤ n n è dunque il è dunque il coefficiente binomialecoefficiente binomiale: :

CCnkk = D = Dn

k /k // P/ Pk = n!/[k!(n-k)!] = n!/[k!(n-k)!]

E se le ripetizioni sono ammesse il numero delle E se le ripetizioni sono ammesse il numero delle combinazioni con ripetizionecombinazioni con ripetizione di lunghezza k di n oggetti di lunghezza k di n oggetti si ottiene considerando che ogni elemento può essere si ottiene considerando che ogni elemento può essere ripetuto k volte in una sequenza, come se agli n oggetti ripetuto k volte in una sequenza, come se agli n oggetti da combinare ne aggiungessimo altri k-1:da combinare ne aggiungessimo altri k-1:

CRCRnkk = (n+k-1)!/[k!(n-1)!] = (n+k-1)!/[k!(n-1)!]

Page 20: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

IL PARADOSSO DEI TRE PRIGIONIERIIL PARADOSSO DEI TRE PRIGIONIERI

Tre prigionieri A, B e C sono in attesa dell’esecuzione che toccherà ad uno di loro. Solo la guardia sa chi sarà la vittima.

A chiede alla guardia di dare una lettera scritta di suo pugno al prigioniero innocente come lui e di dirgli il nome. La guardia gli dice di aver dato la lettera a B.

A cade in depressione perché pensa che le chance che aveva prima della sua improvvida iniziativa siano ora spartite in egual misura con C.

Posto che ora, agli occhi di A P(B)=0 si calcolino:

P(A/B) ? come P(B/A) P(A)/P(B)

P(C/B) ? come P(B/C) P(C)/P(B)

Page 21: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

SOLUZIONE DEL PARADOSSO DEI TRE PRIGIONIERISOLUZIONE DEL PARADOSSO DEI TRE PRIGIONIERI

Si scriva con diligenza e pazienza la formula di Bayes per i due candidati all’esecuzione rimasti dopo l’evento B cioè la consegna della lettera a B.

P(A/B) = P(B/A) P(A)/P(B) = 1/2 1/3 / 1/2 = 1/3

P(C/B) = P(B/C) P(C)/P(B) = 1 1/3 / 1/2 = 2/3

Fanno la differenza le verosimiglianze di B che, se la vittima è A vale ½, ma vale ovviamente 1 se la vittima è C perché la guardia non ha scelta. Tale verosimiglianza e’ dunque informativa in senso bayesiano e cambia le probabilità. Si noti en passant che la somma delle due verosimiglianze e’ 1,5, non può dunque trattarsi di misure di probabilità.

Page 22: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

BAYES: I TEST DI DIAGNOSTICA MEDICABAYES: I TEST DI DIAGNOSTICA MEDICA

In un test clinico, un individuo viene sottoposto ad un esame di laboratorio, per stabilire se ha o non ha una data malattia.

Il test può avere esito positivo o negativo. C’è però sempre una possibilità di errore: può darsi che alcuni degli individui risultati positivi siano in realtà sani (“falsi positivi”), e che qualcuno degli individui risultati negativi siano in realtà malati (“falsi negativi”).

Prima di applicare su larga scala un test nei laboratori, è quindi indispensabile valutarne la bontà, sottoponendo al test un campione di persone che sappiamo già se sono sane o malate.

Page 23: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

EFFICACIA DEL TESTEFFICACIA DEL TEST

Un paziente sano (S) o malato (M) si sottopone ad un test diagnostico che può dare un risultato positivo (P) o negativo (N). Si può scrivere la formula di Bayes per i due esiti corretti del test tra i quattro possibili :

P(M / P) = P(P / M) P(M) / [P (P / M) P(M) + P (P / S) P(S)]

P(S / N) = P(N / S) P(S) / [P (N / M) P(M) + P (N / S) P(S)]

La qualità diagnostica del test è definita dai due parametri:

Sensibilità = P(P / M) = 1 - P(falsi negativi)

Potere risolutivo = P-1(P / S) = P-1(falsi positivi)

Page 24: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

IL TEST HIVIL TEST HIV

In Italia c’è un malato di HIV ogni 40.000 persone. Un paziente si sottopone ad un test con una procedura che dà statisticamente lo 0,7% di falsi negativi e lo 0,01% di falsi positivi. Dalla formula di Bayes risulta che, a test effettuato con esito positivo, la probabilità a posteriori di essere ammalato, a volte denominata valore predittivo del test è pari soltanto al 20%. Se però paziente e medico si convincono che, in base ai sintomi ed alle circostanze del possibile contagio, la probabilità a priori sia ad esempio 10 volte più alta della media nazionale, il valore predittivo sale al 71%.

Page 25: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

LA PROBABILITA’ A PRIORILA PROBABILITA’ A PRIORI

Emerge dunque il ruolo determinante della probabilità a priori che è fondamentalmente determinabile soltanto sulla base della valutazione soggettiva di un esperto. L’effetto di moltiplicatore informativo di un buon test, 8000 volte nel caso esempio, può essere meno importante. Se il test è positivo:

P(M / P) = P(P / M) P(M) / [P (P / M) P(M) + P (P / S) P(S)]

P(S / P) = P(P / S) P(S) / [P (P / M) P(M) + P (P / S) P(S)]

Se invece il test è negativo il rischio di malattia per il paziente, in assenza di altri indizi, è di appena 1 su 5 milioni.

Page 26: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

BAYES IN FORMA DI CHANCES (ODDS)BAYES IN FORMA DI CHANCES (ODDS)

Dividiamo termine a termine le probabilità a posteriori in caso di esito positivo del test, ricordando che si definisce chance CH (odds in favour of HIV) il semplice rapporto P/(1-P):

CH(M / P) = P(M /P)/ [1-P(M / P)] =

P(P / M) P(M) / [P(P / S) P(S)]

Si ottiene:

CH(M / P) = sensibilità * risoluzione * CH(M)

e, simmetricamente, nel caso di esito negativo:

CH(S / N) = (1-1/risoluzione) /(1-sensibilità)*CH(S)

Page 27: 1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

IL RAPPORTO DI VEROSIMIGLIANZAIL RAPPORTO DI VEROSIMIGLIANZA

La formule, molto importanti, definiscono nuove entità statistiche denominate LR, rapporti di verosimiglianza (likelihood ratio), i termini che moltiplicano l’informazione a priori, nei due casi P ed S:

P(P / M) / P(P / S) ovvero P(N / S) / P(N / M )

sono rapporti tra probabilità condizionate, cioè nel caso P : L(M ; P)/ L(S ; P). Si può scrivere anche in questo modo:

CH(M / P) = LR (M ; P) CH(M) =

= CH(M) * [1 - P(falsi negativi)] / P(falsi positivi)

Mettendo così in relazione diretta il risultato diagnostico con le proprietà che definiscono la qualità del test dal punto di vista statistico.