EMILIO BRENGIO PROGETTO RHODA PROB. 2 OPERAZ GRAFICI 1 Problemi a due operazioni.
COMPLEMENTI DI PROBABILITA’ E STATISTICAold · Indici di posizione, di asimmetria e di...
Transcript of COMPLEMENTI DI PROBABILITA’ E STATISTICAold · Indici di posizione, di asimmetria e di...
1
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
1
3 Crediti3 Crediti
Docente : Elvira Di Nardo ([email protected], 0971-205890)
Modalità di esame:1 Prova scritta alla fine del corso+ 1 Tesina (facoltativa)
COMPLEMENTI DI PROBABILITA’ E STATISTICA
Testi consigliati: Manuale on-line di statisticaInformazioni: http://www.unibas.it/utenti/dinardo/didattica.html
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
2
Statistica Descrittiva
Indici di posizione, di asimmetria e di dispersione
2
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
3
Costruzione di un istogramma
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
4
Costruzione di un Box-Plot
3
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
5
0102030405060
1
q1minmedianamaxq3
Cliccare sul singolo datodue volte in modo da ottenere la finestra Formato serie dati
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
6
http://cirdis.stat.unipg.it/files/Sperimentazione/Box-Plot-in-Excel.html
4
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
7
Costruzione di un Q-Q plot
Assegnato un campione casuale ORDINATO è il grafico delle coppie
( ) ( )( ) ( )( )n
izZPzx iii5,0 dove , −
=<
Viene anche usato per verificare se due cam-pioni casuali provengonodalla stessa popolazione.
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
8
Statistica Inferenziale per un campione casuale
• test sulla media – popolazione normale con varianza nota• test sulla media – popolazione normale con varianza incognita• test sulla media – popolazione non normale, taglia maggiore di 30• test sulla varianza – popolazione normale
Cosa accade per popolazioni non normali e/o taglie inferiori a 30?
TEST NON PARAMETRICI (distribution free)
5
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
9
Test sulla media Test sulla mediana(test dei segni)
I test non parametrici sono meno potenti, per cui è più difficilerifiutare l’ipotesi nulla, ma quando l’ipotesi nulla è rifiutata, ge-neralmente le conclusioni non possono essere sospettate di in-validità
Test sulla varianzaTest di intervallointerquartiledi Westenberg
In fase ancora sperimentale
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
10
Test dei segni (test mediana)Test dei segni (test mediana)Scopo: verifica di ipotesi sulla tendenza centrale
01
00
::
MMHMMH
≠=
• Si confronta ogni elemento del campione con il valore di riferimentotrasformando il campione casuale in una sequenza di segni + e -.NB: eventuali differenze nulle non vengono riportate• Si contano il numero di segni positivi: r+• Se fosse vera l’ipotesi nulla, la v.a. R+ che conta il numero di segni positivi risulterebbe binomiale di parametri (taglia, 0.5).• Vale che )()( ++++ −≤=≥ rnRPrRP
Procedura
6
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
11
• Risultano sospetti sia valori troppo alti di r+ che valori troppo bassi(indice di sbilanciamento nella distribuzione dei segni).
( )( )
≤≤=≥≥=
+++
+++
2/ se 22/ se 2
nrrRPpnrrRPp
• Se p< si rifiuta l’ipotesi nulla, se p> non si rifiuta l’ipotesi nulla
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
12
Esempio: Da una serie di rilevazioni sulla quantità di specie presenti in alcuni ambienti, sono stati rilevati i seguenti 20 valori di biodiversità (vedi tabella). Si valuti se la tendenza centrale di questa serie è significativamente differente da 6.5, valore centrale dell’area in studi precedenti.
2,5 4,52,7 4,92,9 5,32,9 6,53,1 6,53,1 8,93,1 9,73,8 11,73,9 15,74,2 18,9
- -- -- -- 0- 0- +- +- +- +- +
N=18, r+=5
Si rigetta l’ipotesi nulla.
0,096252
7
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
13
Riconoscere la legge di distribuzione di un campione casuale
TEST CHI-QUADRATO
Classe Frequenza50 075 2
100 2125 2150 2
Altro 2
Da Analisi Dati-> Istogramma
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
14
Costruzione delle frequenze attese
8
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
15
Classe Frequenza Freq attese Differenze Diff.divise50 0 3,9346934 15,48181 3,93469375 2 1,3416411 0,433436 0,323064
100 2 1,0448711 0,912271 0,873094125 2 0,8137464 1,407198 1,729283150 2 0,6337464 1,866649 2,94542
Altro 2 2,2313016 0,0535 0,02397710 10 9,829532
= INV.CHI(0,05;5)= 11.07
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
16
Test di Test di KolmogorovKolmogorov--SmirnovSmirnovScopo: verificare se esiste una differenza significativa tra la funzionedi ripartizione empirica costruita per il campione casuale e la funzionedi ripartizione di un modello teorico.
Statistica: ( )iiXnixFxFD ˆ)(max
,...,2,1−=
=
( )n
xxF ii
campione del elementi di #ˆ ≤=
Per n ≤ 35 si usano le tavole, per n > 35 si usano i valori
01.0per 63.1 e 05.0per 36.1==== αα
nD
nD
NB: questo test è più potente del test chi-quadrato.
9
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
17
Esercizio: Supponiamo di voler verificare l’ipotesi che una certa popola-zione abbia distribuzione esponenziale con legge
Che conclusioni si possono trarre se un campione ordinato di numerosità 10mostra i seguenti valori?
66 72 81 94 112 116 124 140 145 155
0,100
exp1)( >
−−= xxxF
66 0,1 0,483149 -0,3831572 0,2 0,513248 -0,3132581 0,3 0,555142 -0,2551494 0,4 0,609372 -0,20937
112 0,5 0,67372 -0,17372116 0,6 0,686514 -0,08651124 0,7 0,710616 -0,01062140 0,8 0,753403 0,046597145 0,9 0,76543 0,13457155 1 0,787752 0,212248
Stat. test
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
18
Test Kolmogorov-Smirnov (in EXCEL)
10
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
19
Si sceglie la funzione distribuzione teorica trale funzioni statistiche diExcel
Si determina ilvalore della statistica
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
20
Statistica Inferenziale per due campioni casuali
• test Z sulla differenza tra medie, varianze note, popolazioni normali
11
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
21
• test T sulla differenza tra medie per dati accoppiatiQuesta forma del test t non presuppone che le varianze delle due popolazioni siano uguali. È possibile utilizzare un test accoppiatoquando vi è un naturale appaiamento tra le osservazioni dei campioni, come nel caso di una duplice verifica di un gruppo campione, prima e dopo un esperimento.
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
22
• test T sulla differenza tra medie, popolazioni normali, varianzeincognite ma uguali
12
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
23
• test T sulla differenza tra medie, popolazioni normali, varianzeincognite e diverse
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
24
• test F sul rapporto tra varianze, popolazioni normali
Ipotesi fondamentale: Indipendenza dei campioni
13
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
25
Test chiTest chi--quadrato (2 classificazioni)quadrato (2 classificazioni)
smsss
m
m
m
OOOR
OOOROOORCCC
K
MOMMM
K
K
L
21
222212
112111
21
I classificazione
IIclassificazione
Tavola di contingenza
jiijij vunpnij
E zioneclassifica
II laper livello al e zioneclassifica I laper livello al relativa attesa assoluta frequenza
==
=
∑=
=m
jiji O
nu
1
1ˆ ∑=
=s
iijj O
nv
1
1ˆ
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
26
Test chiTest chi--quadrato (2 classificazioni)quadrato (2 classificazioni)( )
∑∑=
−−=
≥−
=s
ims
m
j ij
ijij
EEO
1
2)1)(1(,
1
22
αχχ
Esempio: Una compagnia deve scegliere tra 3 diversi progetti di pensionamento.I direttori vogliono sapere se la preferenza espressa per uno dei tre progetti è indipen-dente dalla categoria di lavoro. Effettuano una indagine tra 500 lavoratori e i risulta-ti sono riportati in tabella:
500100200200Totale160606040ore ad Lav.34040140160fissi Lav.
Totale321lavorativa
Categoria
500100200200Totale160326464ore ad Lav.34068136136fissi Lav.
Totale321lavorativa
Categoria
Frequenze osservate Frequenze attese
99.563.49 22,05.0
2 =>= χχ
14
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
27
160 140 4040 60 60
136 136 6864 64 32
1,66906E-11
Test chi-quadrato per l’indipendenza(in EXCEL)
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
28
Test di Test di FisherFisherScopo: verificare se due fattori A e B hanno influito sulla presenza Di un certo carattere.
+ -A a b a+bB c d c+d
a+c b+d n
+ indica la presenza del carattere- indica l’assenza del carattere
La probabilità di osservare questo tipo di configurazione è data dauna v.a. ipergeometrica
+
+++
+
+
==+
cadcba
cdc
aba
aRP )(
15
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
29
Il metodo di Fisher si basa sul concetto che tenendo fissi i totalii numeri a,b,c,d possono assumere a caso qualsiasi valore.
Procedura:• si riduce di 1 il numero di osservazioni nella casella con il numerominore modificando gli altri valori in modo da mantenere i margi-nali costanti (fino a 0);• si calcolano le probabilità ipergeometriche associate alle tabelle così costruite (e si sommano);• se il valore ottenuto è piuttosto basso (inferiore a 0.10 o 0.05) si rigetta l’ipotesi nulla di indipendenza (altrimenti si andrebbe controil principio zero della statistica)
Per campioni di taglia elevata si può usare il test chi-quadrato per l’indipendenza.
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
30
Esercizio: Vengono esaminati un lotto di 18 esemplari di uno stesso prodotto indu-striale, ottenuti in parte col processo di lavorazione A e in parte col processo di lavora-zione B. I 18 esemplari vengono classificati in base al numero di difetti: C=“≤ 3” e
C D D=“>3”. Si determini se il processo di produzione haA 2 8 10 influito sulla presenza dei difettiB 5 3 8
7 11 18
0087.0
718
68
110
)1( 0.000251
718
78
010
)0( 0.079
718
58
210
)2( =
==
==
= PPP
16
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
31
Test di Test di McMc NemarNemarScopo: verificare l’esistenza di differenze tra prima e dopo un certo
trattamento.
dopo
prima+ -a bc d
+-
b e c rappresentano gli elementi su cui c’è stata una modifica del carattere;
Necessari: dati appaiati, risposte nominali binarie
Se fosse vera l’ipotesi nulla (il trattamento non determina un mutamen-to significativo), coloro che sono passati da + a – (e viceversa)dovrebbero aver scelto a caso: il numero dei cambi da + a - = numerodei cambi da – a +.
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
32
se il trattamento fosse inefficace, il numero medio di cambiamenti:(b+c)/2=E
Statistica: ( ) ( ) 21
22
χ≈−
+−
=EEc
EEbK
Esercizio: 25 soggetti di cui 18 fumatori e 7 non fumatori furono immessi in stessoambiente lavorativo in cui predominavano i fumatori incalliti. Dopo 3 mesi di attivitàlavorativa dei 18 fumatori, 4 avevano smesso di fumare, e dei 7 non fumatori, 4 avevanocominciato a fumare. Il “trattamento” era stato efficace?
• Il test chi-quadrato (a due vie) si applica a campioni potenzialmen-te indipendenti• Il test di McNemar si applica a campioni DIPENDENTI!
17
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
33
Esercizi
1. Una compagnia effettua 3 turni su 4 macchine ogni giorno. Per ogni macchina sono stati registrati inumeri di guasti per ogni turno (in tabella). Verificare l’ipotesi che i gustai sono indipendenti dai turni.
Turni A B C D1 41 20 12 162 31 11 9 143 15 17 16 10
2. Verificare con un test di Kolmogorov e con un test chi-quadrato se il seguente campione casualepuò ritenersi distribuito secondo un modello binomiale.
5 49 36 64 58 25 43 44 4
Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica
34
Esercizi1. Esaminando uno stesso campione prima e dopo un certo trattamento, sono state riscontrate le frequenze di cambiamenti (in entrambi i versi dal + al - o dal - al +) e di assenza dei medesimi (dal - al - o dal + al +) ripor-tate in tabella. Il trattamento ha influito nel determinare un verso prevalente dei cambiamenti?
+ - tot- 22 2 24+ 15 2 17
tot 37 4 41
2. Verificare se per il seguente campione si può assumere che la mediana è 0.
-0,30 1,73-1,28 -2,180,24 -0,231,28 1,101,20 -1,09
3. Gli alberi da frutta sono spesso soggetti a malattie causateda batteri che prendono il nome di ruggine da fuoco, per il fatto che i rami degli alberi affetti da tale malattia appaiono bruciacchiati. 24 alberi con questa malattia sono stati sud-divisi in due gruppi: a 19 alberi non è stata applicata alcuna terapia (e di questi 7 sono morti entro l’anno e 12 sono sopravvissuti per altri 4 anni), mentre a 5 alberi sono stati tagliati i rami che sembravano affetti da batteri (e di questi tutti sono sopravvissuti peraltri 4 anni). Verificare se è utile intervenire sugli alberi ammalati.
Morti ViviTratt. A 7 12 19Tratt. B 0 5 5
7 17 24