COMPLEMENTI DI PROBABILITA’ E STATISTICAold · Indici di posizione, di asimmetria e di...

17
1 Compl. Prob & Stat. a.a. 04/05 - Statistica non parametrica 1 3 Crediti 3 Crediti Docente : Elvira Di Nardo ([email protected], 0971-205890) Modalità di esame: 1 Prova scritta alla fine del corso + 1 Tesina (facoltativa) COMPLEMENTI DI PROBABILITA’ E STATISTICA Testi consigliati: Manuale on-line di statistica Informazioni: http://www.unibas.it/utenti/dinardo/didattica.html Compl. Prob & Stat. a.a. 04/05 - Statistica non parametrica 2 Statistica Descrittiva Indici di posizione, di asimmetria e di dispersione

Transcript of COMPLEMENTI DI PROBABILITA’ E STATISTICAold · Indici di posizione, di asimmetria e di...

1

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

1

3 Crediti3 Crediti

Docente : Elvira Di Nardo ([email protected], 0971-205890)

Modalità di esame:1 Prova scritta alla fine del corso+ 1 Tesina (facoltativa)

COMPLEMENTI DI PROBABILITA’ E STATISTICA

Testi consigliati: Manuale on-line di statisticaInformazioni: http://www.unibas.it/utenti/dinardo/didattica.html

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

2

Statistica Descrittiva

Indici di posizione, di asimmetria e di dispersione

2

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

3

Costruzione di un istogramma

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

4

Costruzione di un Box-Plot

3

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

5

0102030405060

1

q1minmedianamaxq3

Cliccare sul singolo datodue volte in modo da ottenere la finestra Formato serie dati

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

6

http://cirdis.stat.unipg.it/files/Sperimentazione/Box-Plot-in-Excel.html

4

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

7

Costruzione di un Q-Q plot

Assegnato un campione casuale ORDINATO è il grafico delle coppie

( ) ( )( ) ( )( )n

izZPzx iii5,0 dove , −

=<

Viene anche usato per verificare se due cam-pioni casuali provengonodalla stessa popolazione.

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

8

Statistica Inferenziale per un campione casuale

• test sulla media – popolazione normale con varianza nota• test sulla media – popolazione normale con varianza incognita• test sulla media – popolazione non normale, taglia maggiore di 30• test sulla varianza – popolazione normale

Cosa accade per popolazioni non normali e/o taglie inferiori a 30?

TEST NON PARAMETRICI (distribution free)

5

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

9

Test sulla media Test sulla mediana(test dei segni)

I test non parametrici sono meno potenti, per cui è più difficilerifiutare l’ipotesi nulla, ma quando l’ipotesi nulla è rifiutata, ge-neralmente le conclusioni non possono essere sospettate di in-validità

Test sulla varianzaTest di intervallointerquartiledi Westenberg

In fase ancora sperimentale

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

10

Test dei segni (test mediana)Test dei segni (test mediana)Scopo: verifica di ipotesi sulla tendenza centrale

01

00

::

MMHMMH

≠=

• Si confronta ogni elemento del campione con il valore di riferimentotrasformando il campione casuale in una sequenza di segni + e -.NB: eventuali differenze nulle non vengono riportate• Si contano il numero di segni positivi: r+• Se fosse vera l’ipotesi nulla, la v.a. R+ che conta il numero di segni positivi risulterebbe binomiale di parametri (taglia, 0.5).• Vale che )()( ++++ −≤=≥ rnRPrRP

Procedura

6

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

11

• Risultano sospetti sia valori troppo alti di r+ che valori troppo bassi(indice di sbilanciamento nella distribuzione dei segni).

( )( )

≤≤=≥≥=

+++

+++

2/ se 22/ se 2

nrrRPpnrrRPp

• Se p< si rifiuta l’ipotesi nulla, se p> non si rifiuta l’ipotesi nulla

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

12

Esempio: Da una serie di rilevazioni sulla quantità di specie presenti in alcuni ambienti, sono stati rilevati i seguenti 20 valori di biodiversità (vedi tabella). Si valuti se la tendenza centrale di questa serie è significativamente differente da 6.5, valore centrale dell’area in studi precedenti.

2,5 4,52,7 4,92,9 5,32,9 6,53,1 6,53,1 8,93,1 9,73,8 11,73,9 15,74,2 18,9

- -- -- -- 0- 0- +- +- +- +- +

N=18, r+=5

Si rigetta l’ipotesi nulla.

0,096252

7

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

13

Riconoscere la legge di distribuzione di un campione casuale

TEST CHI-QUADRATO

Classe Frequenza50 075 2

100 2125 2150 2

Altro 2

Da Analisi Dati-> Istogramma

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

14

Costruzione delle frequenze attese

8

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

15

Classe Frequenza Freq attese Differenze Diff.divise50 0 3,9346934 15,48181 3,93469375 2 1,3416411 0,433436 0,323064

100 2 1,0448711 0,912271 0,873094125 2 0,8137464 1,407198 1,729283150 2 0,6337464 1,866649 2,94542

Altro 2 2,2313016 0,0535 0,02397710 10 9,829532

= INV.CHI(0,05;5)= 11.07

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

16

Test di Test di KolmogorovKolmogorov--SmirnovSmirnovScopo: verificare se esiste una differenza significativa tra la funzionedi ripartizione empirica costruita per il campione casuale e la funzionedi ripartizione di un modello teorico.

Statistica: ( )iiXnixFxFD ˆ)(max

,...,2,1−=

=

( )n

xxF ii

campione del elementi di #ˆ ≤=

Per n ≤ 35 si usano le tavole, per n > 35 si usano i valori

01.0per 63.1 e 05.0per 36.1==== αα

nD

nD

NB: questo test è più potente del test chi-quadrato.

9

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

17

Esercizio: Supponiamo di voler verificare l’ipotesi che una certa popola-zione abbia distribuzione esponenziale con legge

Che conclusioni si possono trarre se un campione ordinato di numerosità 10mostra i seguenti valori?

66 72 81 94 112 116 124 140 145 155

0,100

exp1)( >

−−= xxxF

66 0,1 0,483149 -0,3831572 0,2 0,513248 -0,3132581 0,3 0,555142 -0,2551494 0,4 0,609372 -0,20937

112 0,5 0,67372 -0,17372116 0,6 0,686514 -0,08651124 0,7 0,710616 -0,01062140 0,8 0,753403 0,046597145 0,9 0,76543 0,13457155 1 0,787752 0,212248

Stat. test

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

18

Test Kolmogorov-Smirnov (in EXCEL)

10

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

19

Si sceglie la funzione distribuzione teorica trale funzioni statistiche diExcel

Si determina ilvalore della statistica

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

20

Statistica Inferenziale per due campioni casuali

• test Z sulla differenza tra medie, varianze note, popolazioni normali

11

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

21

• test T sulla differenza tra medie per dati accoppiatiQuesta forma del test t non presuppone che le varianze delle due popolazioni siano uguali. È possibile utilizzare un test accoppiatoquando vi è un naturale appaiamento tra le osservazioni dei campioni, come nel caso di una duplice verifica di un gruppo campione, prima e dopo un esperimento.

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

22

• test T sulla differenza tra medie, popolazioni normali, varianzeincognite ma uguali

12

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

23

• test T sulla differenza tra medie, popolazioni normali, varianzeincognite e diverse

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

24

• test F sul rapporto tra varianze, popolazioni normali

Ipotesi fondamentale: Indipendenza dei campioni

13

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

25

Test chiTest chi--quadrato (2 classificazioni)quadrato (2 classificazioni)

smsss

m

m

m

OOOR

OOOROOORCCC

K

MOMMM

K

K

L

21

222212

112111

21

I classificazione

IIclassificazione

Tavola di contingenza

jiijij vunpnij

E zioneclassifica

II laper livello al e zioneclassifica I laper livello al relativa attesa assoluta frequenza

==

=

∑=

=m

jiji O

nu

1

1ˆ ∑=

=s

iijj O

nv

1

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

26

Test chiTest chi--quadrato (2 classificazioni)quadrato (2 classificazioni)( )

∑∑=

−−=

≥−

=s

ims

m

j ij

ijij

EEO

1

2)1)(1(,

1

22

αχχ

Esempio: Una compagnia deve scegliere tra 3 diversi progetti di pensionamento.I direttori vogliono sapere se la preferenza espressa per uno dei tre progetti è indipen-dente dalla categoria di lavoro. Effettuano una indagine tra 500 lavoratori e i risulta-ti sono riportati in tabella:

500100200200Totale160606040ore ad Lav.34040140160fissi Lav.

Totale321lavorativa

Categoria

500100200200Totale160326464ore ad Lav.34068136136fissi Lav.

Totale321lavorativa

Categoria

Frequenze osservate Frequenze attese

99.563.49 22,05.0

2 =>= χχ

14

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

27

160 140 4040 60 60

136 136 6864 64 32

1,66906E-11

Test chi-quadrato per l’indipendenza(in EXCEL)

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

28

Test di Test di FisherFisherScopo: verificare se due fattori A e B hanno influito sulla presenza Di un certo carattere.

+ -A a b a+bB c d c+d

a+c b+d n

+ indica la presenza del carattere- indica l’assenza del carattere

La probabilità di osservare questo tipo di configurazione è data dauna v.a. ipergeometrica

+

+++

+

+

==+

cadcba

cdc

aba

aRP )(

15

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

29

Il metodo di Fisher si basa sul concetto che tenendo fissi i totalii numeri a,b,c,d possono assumere a caso qualsiasi valore.

Procedura:• si riduce di 1 il numero di osservazioni nella casella con il numerominore modificando gli altri valori in modo da mantenere i margi-nali costanti (fino a 0);• si calcolano le probabilità ipergeometriche associate alle tabelle così costruite (e si sommano);• se il valore ottenuto è piuttosto basso (inferiore a 0.10 o 0.05) si rigetta l’ipotesi nulla di indipendenza (altrimenti si andrebbe controil principio zero della statistica)

Per campioni di taglia elevata si può usare il test chi-quadrato per l’indipendenza.

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

30

Esercizio: Vengono esaminati un lotto di 18 esemplari di uno stesso prodotto indu-striale, ottenuti in parte col processo di lavorazione A e in parte col processo di lavora-zione B. I 18 esemplari vengono classificati in base al numero di difetti: C=“≤ 3” e

C D D=“>3”. Si determini se il processo di produzione haA 2 8 10 influito sulla presenza dei difettiB 5 3 8

7 11 18

0087.0

718

68

110

)1( 0.000251

718

78

010

)0( 0.079

718

58

210

)2( =

==

==

= PPP

16

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

31

Test di Test di McMc NemarNemarScopo: verificare l’esistenza di differenze tra prima e dopo un certo

trattamento.

dopo

prima+ -a bc d

+-

b e c rappresentano gli elementi su cui c’è stata una modifica del carattere;

Necessari: dati appaiati, risposte nominali binarie

Se fosse vera l’ipotesi nulla (il trattamento non determina un mutamen-to significativo), coloro che sono passati da + a – (e viceversa)dovrebbero aver scelto a caso: il numero dei cambi da + a - = numerodei cambi da – a +.

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

32

se il trattamento fosse inefficace, il numero medio di cambiamenti:(b+c)/2=E

Statistica: ( ) ( ) 21

22

χ≈−

+−

=EEc

EEbK

Esercizio: 25 soggetti di cui 18 fumatori e 7 non fumatori furono immessi in stessoambiente lavorativo in cui predominavano i fumatori incalliti. Dopo 3 mesi di attivitàlavorativa dei 18 fumatori, 4 avevano smesso di fumare, e dei 7 non fumatori, 4 avevanocominciato a fumare. Il “trattamento” era stato efficace?

• Il test chi-quadrato (a due vie) si applica a campioni potenzialmen-te indipendenti• Il test di McNemar si applica a campioni DIPENDENTI!

17

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

33

Esercizi

1. Una compagnia effettua 3 turni su 4 macchine ogni giorno. Per ogni macchina sono stati registrati inumeri di guasti per ogni turno (in tabella). Verificare l’ipotesi che i gustai sono indipendenti dai turni.

Turni A B C D1 41 20 12 162 31 11 9 143 15 17 16 10

2. Verificare con un test di Kolmogorov e con un test chi-quadrato se il seguente campione casualepuò ritenersi distribuito secondo un modello binomiale.

5 49 36 64 58 25 43 44 4

Compl. Prob & Stat. a.a. 04/05 -Statistica non parametrica

34

Esercizi1. Esaminando uno stesso campione prima e dopo un certo trattamento, sono state riscontrate le frequenze di cambiamenti (in entrambi i versi dal + al - o dal - al +) e di assenza dei medesimi (dal - al - o dal + al +) ripor-tate in tabella. Il trattamento ha influito nel determinare un verso prevalente dei cambiamenti?

+ - tot- 22 2 24+ 15 2 17

tot 37 4 41

2. Verificare se per il seguente campione si può assumere che la mediana è 0.

-0,30 1,73-1,28 -2,180,24 -0,231,28 1,101,20 -1,09

3. Gli alberi da frutta sono spesso soggetti a malattie causateda batteri che prendono il nome di ruggine da fuoco, per il fatto che i rami degli alberi affetti da tale malattia appaiono bruciacchiati. 24 alberi con questa malattia sono stati sud-divisi in due gruppi: a 19 alberi non è stata applicata alcuna terapia (e di questi 7 sono morti entro l’anno e 12 sono sopravvissuti per altri 4 anni), mentre a 5 alberi sono stati tagliati i rami che sembravano affetti da batteri (e di questi tutti sono sopravvissuti peraltri 4 anni). Verificare se è utile intervenire sugli alberi ammalati.

Morti ViviTratt. A 7 12 19Tratt. B 0 5 5

7 17 24