Una variabile aleatoria ( v.a.) e una applicazione che associa ad ogni risultato dello spazio degli...
-
Upload
leonardo-d-agostino -
Category
Documents
-
view
214 -
download
0
Transcript of Una variabile aleatoria ( v.a.) e una applicazione che associa ad ogni risultato dello spazio degli...
una variabile aleatoria ( v.a.) e’ una applicazione che associa ad ogni risultato dello spazio degli eventi un numero reale nell’intervallo [0,1]
variabili aleatorie discrete e continueuna v.a. discretadiscreta e’ rappresentata da una tabella che definisce
un modo grafico di rappresentare una v.a. discreta e’ l’ istogramma
la probabilita’ associata ad ogni valore numerico assunto dalla v.a.
il valore numerico assunto dalla v.a. discreta
in un istogramma si presentano in successivi intervalli ( bins ) le probabilita’ (frequenze relative )
V.a. Uniforme
0.000
0.050
0.100
0.150
0.200
0.250
0.300
1 2 3 4 5 6k
Prob
(k)
Probabilita'
V.a. Uniforme
0.000
0.050
0.100
0.150
0.200
0.250
0.300
1 2 3 4 5 6k
Prob
(k)
Probabilita'
k P(k)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
es. : lancio di un dado
attenzione a non confondere il concetto di “a caso” con l’idea di distribuzione uniforme
es. : distribuzione della somma dei risultati nel lancio di due dadi
Somma del lancio, a caso, di due dadi
0
0.05
0.1
0.15
0.2
0.25
0.3
2 3 4 5 6 7 8 9 10 11 12
k
Prob
(k)
Probabilita'
Somma del lancio, a caso, di due dadi
0
0.05
0.1
0.15
0.2
0.25
0.3
2 3 4 5 6 7 8 9 10 11 12
k
Prob
(k)
Probabilita' il lancio di due dadi e’ “a caso”, ma la somma dei risultati ottenuti non e’ distribuita in modo uniforme
la funzione f(x) che definisce la v.a. X e’ definita di modo che:
se x , con
una v.a. continuacontinua e’ rappresentata da un funzione continua e derivabile
il grafico della f(x) puo’ essere pensato come un istogramma di binnaggio infinitesimo
0.4
0.3
0.2
0.1
f(x)
0 x1 -1 2 -2 3 -3
f(x) e’ detta “ densita’ di probabilita densita’ di probabilita ”
, e’ il valore numerico assunto dalla v.a. continua X x
( ) { [ ] },f x dx Prob X x x dx che la v. a. assuma valori
per caratterizzare in modo sintetico, ma approssimativo, una v.a. si fa uso di indicatori di centralita’ e di dispersione.
i principali indicatori sono il valor medio come indice di centralita’ e la varianza come indice della dispersione intorno al valor medio
1
( )n
i ii
k P k
2 2
1
( ) ( )n
i ii
k P k
Valor medio e Varianza di una v.a.
( )xf x dx
2 2( ) ( )x f x dx
per v.a. discrete
per v.a. continue
0.4
0.3
0.2
0.1
f(x)
0 x1 -1 2 -2 3 -3
f(x)dx
( ) Prob( )nP k k successi in n prove !
!( )!
n n
k k n k
! ( 1) ( 2) ... 2 1n n n n
valor medio = np
1q p
v.a. di Poisson (eventi rari)
( ) Prob( )successi quando in media se ne hannoP k k
[0, ]k
[0, ]k
valore medio =
varianza = npq
varianza =
4 4 1 4 2 4 34! ( ) ( ) ( ) 4 3 2 1 24 es. 4! = ?
o binomiale
alcune tra le principali distribuzioni discrete sono :
v.a. BernoullianaBinomiale (k, n=10, p=0.2)
0.000
0.050
0.100
0.150
0.200
0.250
0.300
0.350
0 1 2 3 4 5 6 7 8 9 10k
Probabilita'
Binomiale (k, n=10, p=0.2)
0.000
0.050
0.100
0.150
0.200
0.250
0.300
0.350
0 1 2 3 4 5 6 7 8 9 10k
Probabilita'
Binomiale (k, n=30, p=0.2)
0.000
0.020
0.040
0.060
0.080
0.100
0.120
0.140
0.160
0.180
0.200
0 1 2 3 4 5 6 7 8 9 10k
Probabilita'
Binomiale (k, n=30, p=0.2)
0.000
0.020
0.040
0.060
0.080
0.100
0.120
0.140
0.160
0.180
0.200
0 1 2 3 4 5 6 7 8 9 10k
Probabilita'
k n knp q
k
!
k
ek
Poissoniana (k,m) m = 0.9
0.000
0.050
0.100
0.150
0.200
0.250
0.300
0.350
0.400
0.450
0 1 2 3 4 5 6 7 8 9 10k
Poissoniana
Poissoniana (k,m) m = 0.9
0.000
0.050
0.100
0.150
0.200
0.250
0.300
0.350
0.400
0.450
0 1 2 3 4 5 6 7 8 9 10k
Poissoniana
v.a.Gaussiana21
( )21
( )2
x
f x e
v.a. Uniforme
1( )
( )f x
b a
[a,b] se la v.a. assume un valore costante in [a,b]
( ) 0f x altrove
[ , ]per x a b
[ , ]per x
valor medio = varianza = ( )
2
b a 2( )
12
b a
valor medio = varianza = 2
alcune tra le principali v.a. continue sono :
f(x)
x0 a b
1
( - )b a
G(,2)
il 68% della probabilita’ (dell’ area sotto la curva) e’ compresa tra il 95% della probabilita’ (dell’ area sotto la curva) e’ compresa tra 2 2 il 99.7% della probabilita’ (dell’ area sotto la curva) e’ compresa tra 3 3
e
e
e
per una gaussiana si ha che
si parla di v.a. uniforme ( distribuzione casuale ) nell’intervallo
Gaussiana Standard o Normale
0 2 1 21
21
( )2
xf x e
se e
0.4
0.3
0.2
0.1
f(x)
0 x1 -1 2 -2 3 -3
N(0,1)
la funzione definita come l’area da - ad un generico punto z di una gaussiana standard,
21 2
1( )
2
xzerf z e dx
e’ detta “funzione degli errori”
( “error function” in inglese, da cui la denominazione erf(z) )
altre importanti densita’ di probabilita’ sono
la Chi Quadrato e la t di Student
Funzione degli errori
Error Function
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
-4.2
-3.8
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2 0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
3.8
4.2
x
f(x)
Erf(x)
Error Function
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
-4.2
-3.8
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2 0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
3.8
4.2
x
f(x)
Erf(x)
importanza della gaussiana : teorema del limite centrale
Vai all’applet Galton
Statistica
negli esperimenti si effettua sempre solo un numero finito finito di misure, spesso molto limitato
nella teoria della probabilita’ si ha a che fare con v. a. che possono assumere un numero discreto o una infinita’, numerabile o meno, di valori,
l’insieme delle misure effettuate costituisce il campionecampione
oggetto della statistica predittiva e’ di determinare le caratteristiche della popolazione incognita basandosi su una serie finita di misure ripetute
esempio : determinare la statura degli studenti di Ingegneria misurando le stature dei soli presenti in aula oggi
a seconda che si tratti di v.a. discrete o continue
ma esistera’ una statura vera ???
per stimare il valor medio di solito si fa uso in statistica dello “stimatore” media aritmetica
1 21
... 1 nnii
x x xx x
n n
in realta’ esiste una distribuzione di stature caratterizzabile
tramite valori medi e varianza, parametri che pero’ sono incogniti e che occorrera’ quindi stimare
a partire dalle misure effettuate, ossia a partire dai dati campionari
la media aritmetica non e’ l’unico stimatore possibile del valor medioaltri stimatori di centralita’ sono la
media geometrica
1
1 21
... ( )n
nng n i
i
x x x x x
ma con la limitazione che tutti gli x devono essere positivi
media armonica
media quadratica
1 2
1 1 1 1( ... )a
n
xn x x x
2 2 221 2
1
... 1 nnq ii
x x xx x
n n
ma con la limitazione che gli x non devono essere nulli
in generale la media quadratica e’ sempre maggiore della media aritmetica
infine, come indicatori di centralita’ di una distribuzione, si possono usare anche lamediana campionaria (= 50-esimo percentile ) e lamoda compionaria ( = valore piu’ probabile)
Errori :
errore = | valore misurato – valore vero |errore = | valore misurato – valore vero |
cause di errore: Limiti strumentali
categorizzazione degli errori:
misura di un intervallo di tempo usando un orologio che va troppo lento, o troppo veloce.
di solito vengono effettuate molte misure indipendenti indipendenti della stessa grandezza,
incertezze dovute a cause accidentali e alla limitatezza del campione di misure
Casuali o “statistici”
Sistematici
si definisce ma a causa degli errori di misura il risultato varia sensibilmente da misura a misura
fino a collezionare un numeroso campione di misure
Cause accidentali Metodi di misura errati
misura della lunghezza di un oggetto non in modo perpendicolare all’oggetto ( errore di parallasse)
gli errori statistici sono riducibili aumentando il numero di misure indipendenti della stessa grandezza aumentando la dimensione del campione .
es. : si siano effettuate n misurazioni della stessa grandezza fisica, x1,x2…xn
si assume come stimastima del valor vero della grandezza in esame la media aritmeticamedia aritmetica dei risultati ottenuti nelle varie misure
la media aritmetica delle n misure e’ : 1 2
1
... 1 nn
ii
x x xx x
n n
la media aritmetica stima il valor “vero” , ma con un certo errore
( ) x unita' di misura
problema : come stimare l’errore statistico ?
“ valore vero ” “ valore vero ” ma , ammesso che esista, quale e’ il
per saperlo con certezza si dovrebbe fare una infinita’ di misure ripetute
se si ha un numero finito di misure si puo’ solo tentare di “stimarlo” , con il minimo margine di errore possibile
2
1
1. . ( )
1
n
ii
dev st x xn
come indicatore di dispersione di una distribuzione intorno alla sua media si usa la deviazione standard campionaria o “ errore quadratico medio”, in inglese “Root Mean Square” o rmsrms che e’ definito come :
commento sull’uso di n o di n-1
una tra le proprieta’ piu’ importanti della media aritmetica e’ che l’errore statistico della media aritmetica stessa e’ dato da:
2
1
. . 1( ) ( )
( 1)
n
ii
dev stx x x
n nn
Intervallo di confidenzasi siano effettuate n misurazioni della stessa grandezza fisica, x1, x2… xn
la miglior stima del valor medio e’ la media aritmetica1
1 n
ii
x xn
ma ripetendo una seconda volta le n misurazioni della stessa grandezza fisica,
la miglior stima del valor medio continuerebbe ad essere la media aritmetica
1
1' '
n
ii
x xn
ma essendo gli xi’ diversi dagli xi la media aritmetica sarebbe diversa
nella maggior parte dei casi, ma non sempre, se si stima il valor medio( vero ) come
dunque anche la media aritmetica varia, imprevedibilmente, da campione a campione di
media , o errore sulla media, si assume la deviazione standard campionaria
si otterrebbe un secondo, diverso insieme di risultati: x’1, x’2… x’n
. .dev stx
n si ha il 68% di probabilita’ di fare una stima esatta
misurazioni ossia e’ essa stessa una variabile aleatoria come stima della fluttuazione della
se si stima il valor medio ( vero ) come
. .( ) 2
dev st xx
n si ha il 95% di probabilita’ di fare una stima esatta
se si stima il valor medio ( vero ) come
. .( ) 3
dev st xx
n si ha il 99.7% di probabilita’ di fare una stima esatta
istogrammando i risultati di misure ripetute, indipendenti tra loro risulta, quasi sempre,
se la distribuzione di una generica variabile aleatoria x segue la forma funzionale gaussiana
il valore della percentuale che si desidera, ossia la attendibilita’ della stima del valor vero che si desidera ottenere, e’ detto “livello di confidenza”
e si ha la probabilita’ che
il 68% delle misure siano comprese tra . . dev st
xn
. .dev st
xn
il 95% delle misure siano comprese tra . .
2dev st
xn
. .
2dev st
xn
il 99.7% delle misure siano comprese tra . .
3dev st
xn
. .3
dev stx
n
e
e
e
che le misure si distribuiscono in modo gaussiano
Intervalli di confidenza
anche la media aritmetica sara’ distribuita in modo gaussiano
Sono state fatte misure ripetute ed indipendenti tra loro di una grandezza fisica, ad es. il peso di un oggetto misurato con una bilancia precisa al per mille
e cio’ si giustifica non pensando ad un errore di misura, ma postulando che il fenomeno stesso in esame sia aleatorio
si puo’ quindi pensare alla misurazione come al modo di stabilire quale sia la percentuale di palline di un determinato colore contenute nell’urna effettuando una serie limitata
supponiamo sia stata preparato un urna riempendola di un numero molto elevato, al limite infinito, di palline con colori diversi in proporzioni diverse
vista la precisione della misura e’ piu’ che ragionevole attendersi che i risultati non si riproducano perfettamente ossia che la misura del peso dell’oggetto sia descrivibile in termini di una variabile aleatoria
in conclusione: una misura sperimentale e’ assimilabile al verificarsi di uno tra i tanti possibili risultati che una v.a. (il piu’ delle volte gaussiana) puo’ assumere
la distribuzione della variabile aleatoria e’ sconosciuta, ma grazie al teorema del limite centrale, molto spesso si puo’ assumere che sia gaussiana
allo sperimentatore e’ pero’ sconosciuta la distribuzione dei vari colori delle palline nell’urna
di estrazioni di palline dall’urna
compito dello sperimentatore e’ quello di tentare di determinare dopo aver effettuato un certo numero di estrazioni quale sia la proporzione di palline di un determinato colore, ossia di stimare il valor medio della distribuzione sconosciuta cui si da’ il nome di valor vero
il risultato di una singola misura equivale ad effettuare l’estrazione a caso di una singola pallina dall’urna e a verificare quale ne sia il colore
la statistica predittiva, utilizzando i risultati rigorosi della teoria della probabilita’ e’ in grado di suggerire:
ossia di determinare quale sia l’errore sulla media aritmetica
• quale sia il margine di errore con cui si puo’ fare la stima in funzione della numerosita’ del campione, del numero di estrazioni in questo caso,
• di valutare quale sia l’attendibilita’ di questa misura in termini di probabilita’ , ossia quale sia il livello di confidenza della stima
• quale sia il miglior stimatore possibile del valor medio , o valor “vero”, di solito la media aritmetica,
non avendo altre informazioni a disposizione si dovra’ stimare il valor medio, impropriamente detto valor “vero” della grandezza incognita, usando i dati del campione di misure
calcoliamo la media campionaria e l’ errore sulla media
25
1
11.7244
25ii
x x
1
1 n
iix x
n
2
1
1. . ( )
1
n
iidev st x x
n
25 2
1
1
25 1( 1.7244) 0.03368iix
se xi e’ la i-esima misura
l’errore sulla media vale . . 0.03368
( ) 0.006725
dev stx
n
arrotondando l’errore ad una sola cifra 0.007
sono state fatte 25 misure ripetute ed indipendenti tra loro di una grandezza fisica, ad es. il peso di un oggetto misurato con una bilancia precisa al per mille
1.72, 1.65, 1.81, 1.72, 1.72, 1.67, 1.71, 1.72, 1.74, 1.70,1.73, 1.70, 1.76, 1.72, 1.75, 1.71, 1.71, 1.72, 1.69, 1.79,1.74, 1.73, 1.76, 1.73, 1.71.
i risultati , in gm, sono :
e’ evidente che la misura non si riproduce perfettamente
se il livello di confidenza prescelto e’ il 68 % il risultato della misura e’ :
(1.72 0.01) gm al 95% di livello di confidenza
al 99% di livello di confidenza(1.72 0.02) gm
(1.724 0.007) gm
nota : se si utilizzasse la convenzione delle cifre significative il risultato ottenuto con il 68% andrebbe presentato come m = 1.724 gm mentre se avessimo operato al 95 e 99 % di livello di confidenza andrebbe presentato come m = 1.72 gm
da notare la relazione tra la precisione e il grado di fiducia, o livello di confidenza :
oppure
a parita’ di numerosita’ del campione, ossia a parita’ di n, se una cresce l’altra cala
o
per costruire un istogramma ordiniamo le misure in ordine crescente
calcoliamo quale sia la frequenza con la quale si presenta un particolare risultato
grafichiamo la frequenza relativa , ossia la frequenza diviso il numero totale di misure
1.65
1.67
1.69
1.7
1.7
1.71
1.71
1.71
1.71
1.72
1.72
1.72
1.72
1.72
1.72
1.73
1.73
1.73
1.74
1.74
1.75
1.76
1.76
1.79
1.81
la frequenza relativa e’ normalizzata all’unita di modo che l’istogramma rappresenti una distribuzione di probabilita’
0
0.05
0.1
0.15
0.2
0.25
0.3
1.65
1.67
1.69
1.71
1.73
1.75
1.77
1.79
1.81
1.65 1
1.66 0
1.67 1
1.68 0
1.69 1
1.7 2
1.71 4
1.72 6
1.73 3
1.74 2
1.75 1
1.76 2
1.77 0
1.78 0
1.79 1
1.8 0
1.81 1
0.04
0
0.04
0
0.04
0.08
0.16
0.24
0.12
0.08
0.04
0.08
0
0
0.04
0
0.04
Misure Frequenza Frequenza relativa = Frequenza / N tot
N tot = Fi = 25
( xi ) ( Fi ) ( Fri )istogramma delle frequenze relative