Formulario di Statistica con R -...

Formulario di Statistica con

http://cran.r-project.org/

Fabio Frascati1

Dipartimento di Statistica “G. Parenti”Universita degli Studi di Firenze

Versione 1.3.1

Novembre 2005

1Fabio Frascati, Laurea in Statistica e Scienze Economiche conseguita pressol’Universita degli Studi di Firenze, email: fabiofrascati@freemail.it

E garantito il permesso di copiare, distribuire e/o modificare questo documento seguendo i terminidella Licenza per Documentazione Libera GNU, Versione 1.1 o ogni versione successiva pubblicatadalla Free Software Foundation. La Licenza per Documentazione Libera GNU e consultabile suInternet:originale in inglese:

http://www.fsf.org/licenses/licenses.html#FDL

e con traduzione in italiano:

http://www.softwarelibero.it/gnudoc/fdl.it.html

La creazione e distribuzione di copie fedeli di questo articolo e concessa a patto che la nota dicopyright e questo permesso stesso vengano distribuiti con ogni copia. Copie modificate di questoarticolo possono essere copiate e distribuite alle stesse condizioni delle copie fedeli, a patto che illavoro risultante venga distribuito con la medesima concessione.

–2–

INDICE

I Background 15

1 Funzioni matematiche 171.1 Operatori matematici . . . . . . . . . . . . . . . . . . . . . . . . 17

1.1.1 + . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.1.2 – . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.1.3 * . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.1.4 / . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.1.5 ** . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.1.6 ˆ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.1.7 %/% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.1.8 %% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.2 Operatori relazionali . . . . . . . . . . . . . . . . . . . . . . . . . 201.2.1 < . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.2.2 > . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.2.3 <= . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.2.4 >= . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.2.5 != . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.2.6 == . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3 Operatori logici . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.3.1 & . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.3.2 && . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.3.3 | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.3.4 || . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.3.5 xor() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.3.6 ! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.4 Funzioni di base . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.4.1 sum() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.4.2 prod() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.4.3 abs() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.4.4 sign() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.4.5 sqrt() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.5 Funzioni insiemistiche . . . . . . . . . . . . . . . . . . . . . . . . 271.5.1 union() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

–3–

1.5.2 intersect() . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.5.3 setdiff() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.5.4 is.element() . . . . . . . . . . . . . . . . . . . . . . . . . . 291.5.5 %in% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.5.6 setequal() . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.6 Funzioni indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.6.1 which() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.6.2 which.min() . . . . . . . . . . . . . . . . . . . . . . . . . . 321.6.3 which.max() . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.7 Funzioni combinatorie . . . . . . . . . . . . . . . . . . . . . . . . 331.7.1 choose() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331.7.2 lchoose() . . . . . . . . . . . . . . . . . . . . . . . . . . . 341.7.3 factorial() . . . . . . . . . . . . . . . . . . . . . . . . . . . 341.7.4 lfactorial() . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.8 Funzioni trigonometriche . . . . . . . . . . . . . . . . . . . . . . . 351.8.1 sin() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351.8.2 cos() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361.8.3 tan() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361.8.4 asin() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361.8.5 acos() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.8.6 atan() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.8.7 atan2() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381.8.8 sinh() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381.8.9 cosh() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391.8.10 tanh() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391.8.11 asinh() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401.8.12 acosh() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401.8.13 atanh() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.9 Funzioni esponenziali e logaritmiche . . . . . . . . . . . . . . . . 411.9.1 exp() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411.9.2 expm1() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421.9.3 log2() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421.9.4 log10() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431.9.5 log() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431.9.6 logb() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441.9.7 log1p() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

1.10 Funzioni di successione . . . . . . . . . . . . . . . . . . . . . . . . 451.10.1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451.10.2 rep() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451.10.3 rep.int() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461.10.4 ave() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471.10.5 sequence() . . . . . . . . . . . . . . . . . . . . . . . . . . . 481.10.6 seq() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

1.11 Funzioni di ordinamento . . . . . . . . . . . . . . . . . . . . . . . 491.11.1 sort() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491.11.2 rev() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511.11.3 order() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

1.12 Funzioni di arrotondamento . . . . . . . . . . . . . . . . . . . . . 521.12.1 trunc() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521.12.2 floor() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

–4–

INDICE

1.12.3 ceiling() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 531.12.4 round() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541.12.5 signif() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541.12.6 fractions() . . . . . . . . . . . . . . . . . . . . . . . . . . . 551.12.7 rational() . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

1.13 Funzioni avanzate . . . . . . . . . . . . . . . . . . . . . . . . . . . 561.13.1 gamma() . . . . . . . . . . . . . . . . . . . . . . . . . . . 561.13.2 lgamma() . . . . . . . . . . . . . . . . . . . . . . . . . . . 561.13.3 digamma() . . . . . . . . . . . . . . . . . . . . . . . . . . 571.13.4 trigamma() . . . . . . . . . . . . . . . . . . . . . . . . . . 571.13.5 psigamma() . . . . . . . . . . . . . . . . . . . . . . . . . . 581.13.6 beta() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581.13.7 lbeta() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

1.14 Funzioni sui numeri complessi . . . . . . . . . . . . . . . . . . . . 601.14.1 complex() . . . . . . . . . . . . . . . . . . . . . . . . . . . 601.14.2 Re() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601.14.3 Im() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601.14.4 Mod() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 611.14.5 Conj() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 611.14.6 Arg() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

1.15 Funzioni cumulate . . . . . . . . . . . . . . . . . . . . . . . . . . 621.15.1 cumsum() . . . . . . . . . . . . . . . . . . . . . . . . . . . 621.15.2 cumprod() . . . . . . . . . . . . . . . . . . . . . . . . . . . 631.15.3 cummin() . . . . . . . . . . . . . . . . . . . . . . . . . . . 641.15.4 cummax() . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

1.16 Funzioni in parallelo . . . . . . . . . . . . . . . . . . . . . . . . . 651.16.1 pmin() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651.16.2 pmax() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

1.17 Funzioni di analisi numerica . . . . . . . . . . . . . . . . . . . . . 661.17.1 uniroot() . . . . . . . . . . . . . . . . . . . . . . . . . . . 661.17.2 polyroot() . . . . . . . . . . . . . . . . . . . . . . . . . . . 671.17.3 D() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 681.17.4 integrate() . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

1.18 Funzioni user - defined . . . . . . . . . . . . . . . . . . . . . . . . 691.18.1 function() . . . . . . . . . . . . . . . . . . . . . . . . . . . 691.18.2 args() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 691.18.3 body() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

1.19 Miscellaneous . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711.19.1 list() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711.19.2 lapply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731.19.3 duplicated() . . . . . . . . . . . . . . . . . . . . . . . . . . 741.19.4 pi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741.19.5 .Last.value . . . . . . . . . . . . . . . . . . . . . . . . . . 751.19.6 any() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 751.19.7 all() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 751.19.8 match() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 761.19.9 outer() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 771.19.10 expression() . . . . . . . . . . . . . . . . . . . . . . . . . . 781.19.11 eval() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 781.19.12 replace() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

–5–

1.19.13 e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2 Vettori e Matrici 812.1 Creazione di Vettori . . . . . . . . . . . . . . . . . . . . . . . . . 81

2.1.1 c() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 812.1.2 scan() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822.1.3 [ ] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822.1.4 vector() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 842.1.5 numeric() . . . . . . . . . . . . . . . . . . . . . . . . . . . 842.1.6 complex() . . . . . . . . . . . . . . . . . . . . . . . . . . . 852.1.7 complex() . . . . . . . . . . . . . . . . . . . . . . . . . . . 852.1.8 head() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 852.1.9 tail() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 862.1.10 %o% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2.2 Creazione di Matrici . . . . . . . . . . . . . . . . . . . . . . . . . 882.2.1 matrix() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 882.2.2 dim() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892.2.3 [ ] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892.2.4 head() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 912.2.5 tail() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 922.2.6 length() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 922.2.7 cbind() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 932.2.8 rbind() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 942.2.9 toeplitz() . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

2.3 Operazioni sulle Matrici . . . . . . . . . . . . . . . . . . . . . . . 952.3.1 det() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 952.3.2 determinant() . . . . . . . . . . . . . . . . . . . . . . . . . 962.3.3 as.vector() . . . . . . . . . . . . . . . . . . . . . . . . . . . 972.3.4 norm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 972.3.5 solve() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 982.3.6 eigen() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 992.3.7 crossprod() . . . . . . . . . . . . . . . . . . . . . . . . . . 1002.3.8 % ∗% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1012.3.9 kronecker() . . . . . . . . . . . . . . . . . . . . . . . . . . 1022.3.10 diag() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1032.3.11 t() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1032.3.12 aperm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1042.3.13 dim() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1052.3.14 nrow() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1052.3.15 NROW() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1062.3.16 ncol() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1062.3.17 NCOL() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1072.3.18 rowSums() . . . . . . . . . . . . . . . . . . . . . . . . . . 1072.3.19 rowMeans() . . . . . . . . . . . . . . . . . . . . . . . . . . 1082.3.20 colSums() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1082.3.21 colMeans() . . . . . . . . . . . . . . . . . . . . . . . . . . 1082.3.22 rowsum() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1092.3.23 apply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1092.3.24 solveCrossprod() . . . . . . . . . . . . . . . . . . . . . . . 1102.3.25 model.matrix() . . . . . . . . . . . . . . . . . . . . . . . . 111

–6–

INDICE

2.3.26 kappa() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1112.3.27 lower.tri() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1122.3.28 upper.tri() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1122.3.29 backsolve() . . . . . . . . . . . . . . . . . . . . . . . . . . 1132.3.30 forwardsolve() . . . . . . . . . . . . . . . . . . . . . . . . 114

2.4 Fattorizzazioni di Matrici . . . . . . . . . . . . . . . . . . . . . . 1152.4.1 svd() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1152.4.2 qr.Q() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1162.4.3 qr.R() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1172.4.4 chol() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1182.4.5 chol2inv() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1182.4.6 ginv() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

II Statistica Descrittiva 121

3 Funzioni statistiche 1233.1 Funzioni di base . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

3.1.1 length() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1233.1.2 min() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1233.1.3 max() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

3.2 Indici di posizione . . . . . . . . . . . . . . . . . . . . . . . . . . 1253.2.1 mean() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1253.2.2 mean.default() . . . . . . . . . . . . . . . . . . . . . . . . 1263.2.3 weighted.mean() . . . . . . . . . . . . . . . . . . . . . . . 1273.2.4 mean.a() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1283.2.5 mean.g() . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

3.3 Indici di variabilita . . . . . . . . . . . . . . . . . . . . . . . . . . 1293.3.1 range() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1293.3.2 quantile() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1303.3.3 median() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1313.3.4 IQR() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1323.3.5 mad() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1333.3.6 cv() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1343.3.7 sigma2() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1343.3.8 var() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1353.3.9 Var() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1363.3.10 sd() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1373.3.11 COV() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1383.3.12 cov() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1393.3.13 cov.wt() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

3.4 Indici di forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1433.4.1 skew() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1433.4.2 skewness() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1443.4.3 kurt() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1453.4.4 kurtosis() . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

3.5 Indici di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . 1463.5.1 cor() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1463.5.2 cancor() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1493.5.3 partial.cor() . . . . . . . . . . . . . . . . . . . . . . . . . . 151

–7–

3.5.4 corr() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1523.5.5 acf() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1523.5.6 pacf() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

3.6 Indici di connessione e di dipendenza in media . . . . . . . . . . 1553.6.1 eta() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1553.6.2 gini() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1563.6.3 chi2() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1573.6.4 E() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

3.7 Funzioni di sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . 1593.7.1 summary() . . . . . . . . . . . . . . . . . . . . . . . . . . 1593.7.2 fivenum() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1603.7.3 basicStats() . . . . . . . . . . . . . . . . . . . . . . . . . . 1623.7.4 boxplot.stats() . . . . . . . . . . . . . . . . . . . . . . . . 165

3.8 Funzioni di distribuzione di frequenza . . . . . . . . . . . . . . . 1663.8.1 tabulate() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1663.8.2 table() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1673.8.3 unique() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1683.8.4 hist() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1683.8.5 cut() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

3.9 Funzioni di adattamento normale . . . . . . . . . . . . . . . . . . 1703.9.1 qqnorm() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1703.9.2 ppoints() . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

3.10 Funzioni di distanza . . . . . . . . . . . . . . . . . . . . . . . . . 1723.10.1 mahalanobis() . . . . . . . . . . . . . . . . . . . . . . . . 1723.10.2 dist() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

3.11 Funzioni logistiche . . . . . . . . . . . . . . . . . . . . . . . . . . 1743.11.1 logit() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1743.11.2 ilogit() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1743.11.3 inv.logit() . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

3.12 Funzioni di distribuzione discrete . . . . . . . . . . . . . . . . . . 1763.12.1 Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . 1763.12.2 Binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 1763.12.3 Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . 1763.12.4 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1773.12.5 Binomiale Negativa . . . . . . . . . . . . . . . . . . . . . . 1773.12.6 Ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . 1773.12.7 Multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . 178

3.13 Funzioni di distribuzione continue . . . . . . . . . . . . . . . . . . 1783.13.1 Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1783.13.2 Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1783.13.3 Student non centrale . . . . . . . . . . . . . . . . . . . . . 1793.13.4 Chi - Quadrato . . . . . . . . . . . . . . . . . . . . . . . . 1793.13.5 Chi - Quadrato non centrale . . . . . . . . . . . . . . . . . 1793.13.6 Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1803.13.7 Fisher non centrale . . . . . . . . . . . . . . . . . . . . . . 1803.13.8 Esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . 1803.13.9 Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1813.13.10Gamma 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 1813.13.11Gamma inversa . . . . . . . . . . . . . . . . . . . . . . . . 1813.13.12Gamma inversa 2 . . . . . . . . . . . . . . . . . . . . . . . 182

–8–

INDICE

3.13.13LogNormale . . . . . . . . . . . . . . . . . . . . . . . . . . 1823.13.14Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1823.13.15Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1833.13.16Beta non centrale . . . . . . . . . . . . . . . . . . . . . . . 1833.13.17Logistica . . . . . . . . . . . . . . . . . . . . . . . . . . . 1833.13.18Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1833.13.19Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 1843.13.20Normale inversa . . . . . . . . . . . . . . . . . . . . . . . 1843.13.21Wilcoxon signed rank . . . . . . . . . . . . . . . . . . . . 1843.13.22Mann - Whitney . . . . . . . . . . . . . . . . . . . . . . . 185

3.14 Funzioni ai valori mancanti . . . . . . . . . . . . . . . . . . . . . 1853.14.1 is.na() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1853.14.2 is.nan() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

3.15 Miscellaneous . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1863.15.1 ic.var() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1863.15.2 sample() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1873.15.3 rank() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1883.15.4 is.finite() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1893.15.5 is.infinite() . . . . . . . . . . . . . . . . . . . . . . . . . . 1893.15.6 diff() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1903.15.7 scale() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1903.15.8 moment() . . . . . . . . . . . . . . . . . . . . . . . . . . . 1913.15.9 cum3() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1933.15.10 sweep() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1943.15.11nsize() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1953.15.12array() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

4 Analisi delle componenti principali (ACP) 1994.1 ACP con matrice di correlazione . . . . . . . . . . . . . . . . . . 199

4.1.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . 1994.1.2 prcomp() . . . . . . . . . . . . . . . . . . . . . . . . . . . 2004.1.3 summary() . . . . . . . . . . . . . . . . . . . . . . . . . . 200

4.2 ACP con matrice di varianza . . . . . . . . . . . . . . . . . . . . 2014.2.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . 2014.2.2 prcomp() . . . . . . . . . . . . . . . . . . . . . . . . . . . 2024.2.3 summary() . . . . . . . . . . . . . . . . . . . . . . . . . . 202

III Statistica Inferenziale 205

5 Test di ipotesi parametrici 2075.1 Test di ipotesi sulla media con uno o due campioni . . . . . . . . 207

5.1.1 Test Z con un campione . . . . . . . . . . . . . . . . . . . 2075.1.2 Test di Student con un campione . . . . . . . . . . . . . . 2105.1.3 Test Z con due campioni indipendenti . . . . . . . . . . . 2135.1.4 Test di Student con due campioni indipendenti

con varianze non note ma supposte uguali . . . . . . . . . 2165.1.5 Test di Student con due campioni indipendenti

con varianze non note e diverse . . . . . . . . . . . . . . . 2195.1.6 Test di Student per dati appaiati . . . . . . . . . . . . . . 223

–9–

5.2 Test di ipotesi sulla media con uno o due campioni (summarizeddata) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2265.2.1 Test Z con un campione . . . . . . . . . . . . . . . . . . . 2265.2.2 Test di Student con un campione . . . . . . . . . . . . . . 2285.2.3 Test Z con due campioni indipendenti . . . . . . . . . . . 2315.2.4 Test di Student con due campioni indipendenti

con varianze non note ma supposte uguali . . . . . . . . . 2345.2.5 Test di Student con due campioni indipendenti

con varianze non note e diverse . . . . . . . . . . . . . . . 2375.3 Test di ipotesi sulla varianza con uno o due campioni . . . . . . . 240

5.3.1 Test Chi-Quadrato con un campione . . . . . . . . . . . . 2405.3.2 Test di Fisher con due campioni . . . . . . . . . . . . . . 242

5.4 Test di ipotesi su proporzioni . . . . . . . . . . . . . . . . . . . . 2455.4.1 Test con un campione . . . . . . . . . . . . . . . . . . . . 2455.4.2 Potenza nel Test con un campione . . . . . . . . . . . . . 2485.4.3 Test con due campioni indipendenti . . . . . . . . . . . . 2505.4.4 Test con k campioni indipendenti . . . . . . . . . . . . . . 252

5.5 Test di ipotesi sull’omogeneita delle varianze . . . . . . . . . . . 2535.5.1 Test di Bartlett . . . . . . . . . . . . . . . . . . . . . . . . 253

6 Analisi della varianza (Anova) 2576.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2576.2 Comandi utili in analisi della varianza . . . . . . . . . . . . . . . 257

6.2.1 factor() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2576.2.2 as.factor() . . . . . . . . . . . . . . . . . . . . . . . . . . . 2596.2.3 relevel() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2596.2.4 by() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2606.2.5 tapply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2616.2.6 gl() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2616.2.7 levels() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2626.2.8 nlevels() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2626.2.9 ordered() . . . . . . . . . . . . . . . . . . . . . . . . . . . 2636.2.10 letters[ ] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2636.2.11 LETTERS[ ] . . . . . . . . . . . . . . . . . . . . . . . . . 263

6.3 Modelli di analisi della varianza . . . . . . . . . . . . . . . . . . . 2646.3.1 Anova ad un fattore . . . . . . . . . . . . . . . . . . . . . 2646.3.2 Anova a due fattori senza interazione . . . . . . . . . . . . 2666.3.3 Anova a due fattori con interazione . . . . . . . . . . . . . 268

7 Confronti multipli 2717.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2717.2 Metodo di Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . 271

7.2.1 Applicazione in Anova ad un fattore . . . . . . . . . . . . 2717.2.2 Applicazione in Anova a fattori senza interazione . . . . . 2727.2.3 Applicazione in Anova a due fattori con interazione . . . 274

7.3 Metodo di Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . 2767.3.1 Applicazione in Anova ad un fattore . . . . . . . . . . . . 276

7.4 Metodo di Student . . . . . . . . . . . . . . . . . . . . . . . . . . 2777.4.1 Applicazione in Anova ad un fattore . . . . . . . . . . . . 277

–10–

INDICE

8 Test di ipotesi su correlazione ed autocorrelazione 2798.1 Test di ipotesi sulla correlazione lineare . . . . . . . . . . . . . . 279

8.1.1 Test di Pearson . . . . . . . . . . . . . . . . . . . . . . . . 2798.1.2 Test di Kendall . . . . . . . . . . . . . . . . . . . . . . . . 282

8.2 Test di ipotesi sulla autocorrelazione . . . . . . . . . . . . . . . . 2858.2.1 Test di Box - Pierce . . . . . . . . . . . . . . . . . . . . . 2858.2.2 Test di Ljung - Box . . . . . . . . . . . . . . . . . . . . . 286

9 Test di ipotesi non parametrici 2899.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2899.2 Test di ipotesi sull’omogeneita delle varianze . . . . . . . . . . . 289

9.2.1 Test di Levene . . . . . . . . . . . . . . . . . . . . . . . . 2899.3 Test di ipotesi sulla mediana con uno o due campioni . . . . . . . 291

9.3.1 Test esatto Wilcoxon signed rank . . . . . . . . . . . . . . 2919.3.2 Test asintotico Wilcoxon signed rank . . . . . . . . . . . . 2939.3.3 Test esatto di Mann - Whitney . . . . . . . . . . . . . . . 2959.3.4 Test asintotico di Mann - Whitney . . . . . . . . . . . . . 2989.3.5 Test esatto Wilcoxon signed rank per dati appaiati . . . . 3009.3.6 Test asintotico Wilcoxon signed rank per dati appaiati . . 303

9.4 Test di ipotesi sulla mediana con piucampioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3059.4.1 Test di Kruskal - Wallis . . . . . . . . . . . . . . . . . . . 305

9.5 Anova non parametrica a due fattori senza interazione . . . . . . 3079.5.1 Test di Friedman . . . . . . . . . . . . . . . . . . . . . . . 307

9.6 Test di ipotesi su una proporzione . . . . . . . . . . . . . . . . . 3099.6.1 Test di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 309

9.7 Test sul ciclo di casualita . . . . . . . . . . . . . . . . . . . . . . 3109.7.1 Test dei Runs . . . . . . . . . . . . . . . . . . . . . . . . . 310

9.8 Test sulla differenza tra parametri di scala . . . . . . . . . . . . . 3129.8.1 Test di Mood . . . . . . . . . . . . . . . . . . . . . . . . . 312

10 Tabelle di contingenza 31510.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31510.2 Test di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315

10.2.1 Test Chi - Quadrato di indipendenza . . . . . . . . . . . . 31510.2.2 Test di McNemar . . . . . . . . . . . . . . . . . . . . . . . 31710.2.3 Test esatto di Fisher . . . . . . . . . . . . . . . . . . . . . 31810.2.4 Test di Mantel - Haenszel . . . . . . . . . . . . . . . . . . 319

10.3 Test di ipotesi generalizzati . . . . . . . . . . . . . . . . . . . . . 32210.3.1 Test Chi - Quadrato di indipendenza . . . . . . . . . . . . 32210.3.2 Test di McNemar . . . . . . . . . . . . . . . . . . . . . . . 323

10.4 Comandi utili per le tabelle di contingenza . . . . . . . . . . . . . 32410.4.1 margin.table() . . . . . . . . . . . . . . . . . . . . . . . . 32410.4.2 prop.table() . . . . . . . . . . . . . . . . . . . . . . . . . . 32510.4.3 xtabs() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32610.4.4 summary . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

–11–

11 Test di adattamento 32911.1 Adattamento alla distribuzione normale . . . . . . . . . . . . . . 329

11.1.1 Test di Kolmogorov - Smirnov . . . . . . . . . . . . . . . 32911.1.2 Test di Jarque - Bera . . . . . . . . . . . . . . . . . . . . 33011.1.3 Test di Cramer - von Mises . . . . . . . . . . . . . . . . . 33211.1.4 Test di Anderson - Darlin . . . . . . . . . . . . . . . . . . 33411.1.5 Test di Shapiro - Francia . . . . . . . . . . . . . . . . . . 33511.1.6 Test di Lilliefors . . . . . . . . . . . . . . . . . . . . . . . 337

11.2 Adattamento ad una distribuzione non normale . . . . . . . . . . 34011.2.1 Test Chi - Quadrato GOF . . . . . . . . . . . . . . . . . . 340

IV Statistica di Regressione 343

12 Regressione lineare 34512.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34512.2 Stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346

12.2.1 lm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34612.2.2 summary.lm() . . . . . . . . . . . . . . . . . . . . . . . . . 34712.2.3 vcov() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34912.2.4 lm.fit() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34912.2.5 lsfit() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35012.2.6 confint() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35012.2.7 coef() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35112.2.8 coefficients() . . . . . . . . . . . . . . . . . . . . . . . . . 35112.2.9 coeftest() . . . . . . . . . . . . . . . . . . . . . . . . . . . 35112.2.10boxcox() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35212.2.11box.cox() . . . . . . . . . . . . . . . . . . . . . . . . . . . 35212.2.12box.cox.var() . . . . . . . . . . . . . . . . . . . . . . . . . 35312.2.13bc() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35312.2.14fitted() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35412.2.15fitted.values() . . . . . . . . . . . . . . . . . . . . . . . . . 35412.2.16predict() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35412.2.17predict.lm() . . . . . . . . . . . . . . . . . . . . . . . . . . 35612.2.18 linear.hypothesis.lm() . . . . . . . . . . . . . . . . . . . . 35712.2.19 lm.ridge() . . . . . . . . . . . . . . . . . . . . . . . . . . . 359

12.3 Adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36012.3.1 logLik() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36012.3.2 dwtest() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36012.3.3 AIC() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36112.3.4 BIC() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36112.3.5 extractAIC() . . . . . . . . . . . . . . . . . . . . . . . . . 36212.3.6 deviance() . . . . . . . . . . . . . . . . . . . . . . . . . . . 36212.3.7 leaps() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36212.3.8 anova() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36412.3.9 drop1() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36512.3.10 add1() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36612.3.11bptest() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367

12.4 Diagnostica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36812.4.1 ls.diag() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368

–12–

INDICE

12.4.2 cooks.distance() . . . . . . . . . . . . . . . . . . . . . . . 37012.4.3 cookd() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37012.4.4 rstandard() . . . . . . . . . . . . . . . . . . . . . . . . . . 37012.4.5 stdres() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37112.4.6 rstudent() . . . . . . . . . . . . . . . . . . . . . . . . . . . 37112.4.7 studres() . . . . . . . . . . . . . . . . . . . . . . . . . . . 37112.4.8 lmwork() . . . . . . . . . . . . . . . . . . . . . . . . . . . 37212.4.9 dffits() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37212.4.10 covratio() . . . . . . . . . . . . . . . . . . . . . . . . . . . 37312.4.11 lm.influence() . . . . . . . . . . . . . . . . . . . . . . . . . 37312.4.12 residuals() . . . . . . . . . . . . . . . . . . . . . . . . . . . 37412.4.13 residuals.default() . . . . . . . . . . . . . . . . . . . . . . 37412.4.14 resid() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37412.4.15df.residual() . . . . . . . . . . . . . . . . . . . . . . . . . . 37512.4.16hatvalues() . . . . . . . . . . . . . . . . . . . . . . . . . . 37512.4.17hat() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37512.4.18dfbeta() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37612.4.19dfbetas() . . . . . . . . . . . . . . . . . . . . . . . . . . . 37612.4.20vif.lm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37612.4.21outlier.test.lm() . . . . . . . . . . . . . . . . . . . . . . . . 377

13 Regressione lineare pesata 37913.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37913.2 Stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380

13.2.1 lm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38013.2.2 summary.lm() . . . . . . . . . . . . . . . . . . . . . . . . . 38113.2.3 vcov() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38313.2.4 lm.wfit() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38313.2.5 lsfit() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38413.2.6 confint() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38513.2.7 coef() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38513.2.8 coefficients() . . . . . . . . . . . . . . . . . . . . . . . . . 38613.2.9 coeftest() . . . . . . . . . . . . . . . . . . . . . . . . . . . 38613.2.10fitted() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38613.2.11fitted.values() . . . . . . . . . . . . . . . . . . . . . . . . . 38713.2.12predict() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38713.2.13predict.lm() . . . . . . . . . . . . . . . . . . . . . . . . . . 38813.2.14 linear.hypothesis.lm() . . . . . . . . . . . . . . . . . . . . 389

13.3 Adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39113.3.1 logLik() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39113.3.2 deviance() . . . . . . . . . . . . . . . . . . . . . . . . . . . 39113.3.3 AIC() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39213.3.4 BIC() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39213.3.5 extractAIC() . . . . . . . . . . . . . . . . . . . . . . . . . 393

13.4 Diagnostica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39313.4.1 weights() . . . . . . . . . . . . . . . . . . . . . . . . . . . 39313.4.2 weighted.residuals() . . . . . . . . . . . . . . . . . . . . . 39313.4.3 residuals() . . . . . . . . . . . . . . . . . . . . . . . . . . . 39413.4.4 residuals.default() . . . . . . . . . . . . . . . . . . . . . . 39413.4.5 resid() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395

–13–

13.4.6 outlier.test.lm() . . . . . . . . . . . . . . . . . . . . . . . . 39513.4.7 df.residual() . . . . . . . . . . . . . . . . . . . . . . . . . . 39613.4.8 hatvalues() . . . . . . . . . . . . . . . . . . . . . . . . . . 39613.4.9 hat() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39713.4.10 rstandard() . . . . . . . . . . . . . . . . . . . . . . . . . . 39713.4.11 stdres() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39813.4.12 rstudent() . . . . . . . . . . . . . . . . . . . . . . . . . . . 39813.4.13 studres() . . . . . . . . . . . . . . . . . . . . . . . . . . . 39813.4.14 lmwork() . . . . . . . . . . . . . . . . . . . . . . . . . . . 39913.4.15dffits() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40013.4.16 covratio() . . . . . . . . . . . . . . . . . . . . . . . . . . . 40013.4.17 cooks.distance() . . . . . . . . . . . . . . . . . . . . . . . 40013.4.18 cookd() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401

V Appendice 403

14 Librerie installate 405

–14–

Parte I

Background

–15–

CAPITOLO 1

Funzioni matematiche

1.1 Operatori matematici

1.1.1 +

• Significato: addizione

• Esempio:

> 1+2[1] 3> x[1] 1 2 3 4 5 6 7> y[1] -3.2 -2.2 -1.2 -0.2 0.8 1.8 2.8> x+y[1] -2.2 -0.2 1.8 3.8 5.8 7.8 9.8

1.1.2 –

• Significato: sottrazione

• Esempio:

> 1.2-6.7[1] -5.5> --3[1] 3> Inf-Inf[1] NaN> # NaN = Not a Number> x

–17–

[1] 1 2 3 4 5 6 7> y[1] -3.2 -2.2 -1.2 -0.2 0.8 1.8 2.8> x-y[1] 4.2 4.2 4.2 4.2 4.2 4.2 4.2

1.1.3 *

• Significato: moltiplicazione

• Esempio:

> 2.3*4[1] 9.2> x[1] 1 2 3 4 5 6 7> y[1] -3.2 -2.2 -1.2 -0.2 0.8 1.8 2.8> x*y[1] -3.2 -4.4 -3.6 -0.8 4.0 10.8 19.6

1.1.4 /

• Significato: divisione

• Esempio:

> 21/7[1] 3> 2/0[1] Inf> -1/0[1] -Inf> 0/0[1] NaN> # NaN = Not a Number> x[1] 1 2 3 4 5 6 7> y[1] -3.2 -2.2 -1.2 -0.2 0.8 1.8 2.8> y/x[1] -3.20 -1.10 -0.40 -0.05 0.16 0.30 0.40

–18–

1.1 Operatori matematici

1.1.5 **

• Significato: elevamento a potenza

• Esempio:

> 2**4[1] 16> x[1] 1 2 3 4> y[1] -3.2 -2.2 -1.2 -0.2> y**x[1] -3.2000 4.8400 -1.7280 0.0016

1.1.6 ˆ

• Significato: elevamento a potenza

• Esempio:

> 2^4[1] 16> x[1] 1 2 3 4> y[1] -3.2 -2.2 -1.2 -0.2> y^x[1] -3.2000 4.8400 -1.7280 0.0016

1.1.7 %/%

• Significato: quoziente intero della divisione

• Esempio:

> 22.6%/%3.4[1] 6> # 22.6 = 3.4 * 6 + 2.2

> 23%/%3[1] 7> # 23 = 3 * 7 + 2

–19–

1.1.8 %%

• Significato: resto della divisione

• Esempio:

> 22.6%%3.4[1] 2.2> # 22.6 = 3.4 * 6 + 2.2

> 23%%3[1] 2> # 23 = 3 * 7 + 2

1.2 Operatori relazionali

1.2.1 <

• Significato: minore

• Esempio:

> 1<2[1] TRUE> x[1] 0.11 1.20 2.30 4.50> x<2.4[1] TRUE TRUE TRUE FALSE

1.2.2 >

• Significato: maggiore

• Esempio:

> 3>1.2[1] TRUE> x[1] 0.11 1.20 2.30 4.50> x>2.4[1] FALSE FALSE FALSE TRUE

–20–

1.2 Operatori relazionali

1.2.3 <=

• Significato: minore od uguale

• Esempio:

> 3.4<=8.5[1] TRUE> x[1] 0.11 1.20 2.30 4.50> x<=2.4[1] TRUE TRUE TRUE FALSE

1.2.4 >=

• Significato: maggiore od uguale

• Esempio:

> 3.4>=5.4[1] FALSE> x[1] 0.11 1.20 2.30 4.50> x>=5.4[1] FALSE FALSE FALSE FALSE

1.2.5 !=

• Significato: diverso

• Esempio:

> 2!=3[1] TRUE> x[1] 0.11 1.20 2.30 4.50> x!=5.4[1] TRUE TRUE TRUE TRUE

1.2.6 ==

• Significato: uguale

• Esempio:

–21–

> 4==4[1] TRUE> x[1] 0.11 1.20 2.30 4.50> x==5.4[1] FALSE FALSE FALSE FALSE

1.3 Operatori logici

1.3.1 &

• Significato: AND termine a termine

• Esempio:

> 1&5[1] TRUE> x[1] 0.11 1.20 2.30 4.50 0.00> x&3[1] TRUE TRUE TRUE TRUE FALSE

1.3.2 &&

• Significato: AND si arresta al primo elemento che soddisfa la condizione

• Esempio:

> 1&&5[1] TRUE> x[1] 0.11 1.20 2.30 4.50 0.00> x&&3[1] TRUE> x[1] 0.0 1.2 2.3 4.5 0.0> x&&3[1] FALSE

1.3.3 |• Significato: OR termine a termine

• Esempio:

–22–

1.3 Operatori logici

> 5|0[1] TRUE> x[1] 0.11 1.20 2.30 4.50 0.00> x|3[1] TRUE TRUE TRUE TRUE TRUE

1.3.4 ||• Significato: OR si arresta al primo elemento che soddisfa la condizione

• Esempio:

> 5||0[1] TRUE> x[1] 0.11 1.20 2.30 4.50 0.00> x[1] 0.11 1.20 2.30 4.50 0.00> x||3[1] TRUE> x[1] 0.0 1.2 2.3 4.5 0.0> x||0[1] FALSE

1.3.5 xor()

• Significato: EXCLUSIVE OR termine a termine

• Esempio:

> xor(4,5)[1] FALSE> x[1] 0.11 1.20 2.30 4.50 0.00> xor(x,3)[1] FALSE FALSE FALSE FALSE TRUE

1.3.6 !

• Significato: NOT

• Esempio:

–23–

> !8[1] FALSE> x[1] 0.11 1.20 2.30 4.50 0.00> !x[1] FALSE FALSE FALSE FALSE TRUE

1.4 Funzioni di base

1.4.1 sum()

• Parametri:

x vettore numerico di dimensione n

• Significato: somma

• Formula:n∑

• Esempio:

> x[1] 1.2 2.0 3.0> n<-length(x)> n[1] 3> 1.2+2+3[1] 6.2> sum(x)[1] 6.2

> x[1] 1.2 3.4 5.1 5.6 7.8> n<-length(x)> n[1] 5> 1.2+3.4+5.1+5.6+7.8[1] 23.1> sum(x)[1] 23.1

–24–

1.4.2 prod()

• Parametri:

• Significato: prodotto

• Formula:n∏

• Esempio:

> x[1] 1 2 3.2> n<-length(x)> n[1] 3> 1*2*3.2[1] 6.4> prod(x)[1] 6.4

> x[1] 1.2 3.4 5.1 5.6 7.8> n<-length(x)> n[1] 5> 1.2*3.4*5.1*5.6*7.8[1] 908.8934> prod(x)[1] 908.8934

1.4.3 abs()

• Parametri:

x valore numerico

• Significato: modulo

• Formula:

x se x > 0

0 se x = 0

−x se x < 0

• Esempio:

–25–

> x<-1.3> abs(x)[1] 1.3

> x<-0> abs(x)[1] 0

> x<--2.3> abs(x)[1] 2.3

1.4.4 sign()

• Parametri:

x valore numerico

• Significato: segno

• Formula:

sign(x) =

1 se x > 0

0 se x = 0

−1 se x < 0

• Esempio:

> x<-1.2> sign(x)[1] 1

> x<-0> sign(x)[1] 0

> x<--1.2> sign(x)[1] -1

1.4.5 sqrt()

• Parametri:

x valore numerico tale che x > 0

• Significato: radice quadrata

–26–

1.5 Funzioni insiemistiche

• Formula:√

• Esempio:

> x<-2> sqrt(x)[1] 1.414214

> x<-3.5> sqrt(x)[1] 1.870829

1.5.1 union()

• Parametri:

x vettore alfanumerico di dimensione n

y vettore alfanumerico di dimensione m

• Significato: unione

• Formula:

x ∪ y

• Esempio:

> x[1] 1 2 3 4 5 6 7 8 9 10> y[1] 1 2 6 11> union(x,y)[1] 1 2 3 4 5 6 7 8 9 10 11

> x[1] "a" "b" "c" "d" "e" "f" "g"> y[1] "a" "e" "f" "h"> union(x,y)[1] "a" "b" "c" "d" "e" "f" "g" "h"

–27–

1.5.2 intersect()

• Parametri:

• Significato: intersezione

• Formula:x ∩ y

• Esempio:

> x[1] 1 2 3 4 5 6 7 8 9 10> y[1] 1 2 6 11> intersect(x,y)[1] 1 2 6

> x[1] "a" "b" "c" "d" "e" "f" "g"> y[1] "a" "e" "f" "h"> intersect(x,y)[1] "a" "e" "f"

1.5.3 setdiff()

• Parametri:

• Significato: differenza

• Formula:x \ y

• Esempio:

> x[1] 1 2 3 4 5 6 7 8 9 10> y[1] 1 2 6 11> setdiff(x,y)[1] 3 4 5 7 8 9 10

–28–

[1] "a" "b" "c" "d" "e" "f" "g"> y[1] "a" "e" "f" "h"> setdiff(x,y)[1] "b" "c" "d" "g"

1.5.4 is.element()

• Parametri:

x valore alfanumerico

y vettore alfanumerico di dimensione n

• Significato: appartenenza di x all’insieme y

• Formula:x ∈ y

• Esempio:

> x[1] 2> y[1] 1 2 6 11> is.element(x,y)[1] TRUE

> x[1] 3> y[1] 1 2 6 11> is.element(x,y)[1] FALSE

> x[1] "d"> y[1] "a" "b" "c" "d" "e" "f" "g"> is.element(x,y)[1] TRUE

> x[1] "h"> y[1] "a" "b" "c" "d" "e" "f" "g"> is.element(x,y)[1] FALSE

–29–

1.5.5 %in%

• Parametri:

x valore alfanumerico

y vettore alfanumerico di dimensione n

• Significato: appartenenza di x all’insieme y

• Formula:x ∈ y

• Esempio:

> x[1] 2> y[1] 1 2 6 11> x%in%y[1] TRUE

> x[1] 3> y[1] 1 2 6 11> x%in%y[1] FALSE

> x[1] "d"> y[1] "a" "b" "c" "d" "e" "f" "g"> x%in%y[1] TRUE

> x[1] "h"> y[1] "a" "b" "c" "d" "e" "f" "g"> x%in%y[1] FALSE

1.5.6 setequal()

• Parametri:

• Significato: uguaglianza

–30–

1.6 Funzioni indice

• Formula:

x = y ⇔

x ⊆ y

y ⊆ x

• Esempio:

> x[1] 1 4 5 6 8 77> y[1] 1 1 1 4 5 6 8 77> setequal(x,y)[1] TRUE> # x ed y sono lo stesso insieme

> x[1] "a" "b"> y[1] "a" "b" "a" "b" "a" "b" "a"> setequal(x,y)[1] TRUE> # x ed y sono lo stesso insieme

1.6 Funzioni indice

1.6.1 which()

• Parametri:

• Significato: indici degli elementi del vettore x che soddisfano ad unacondizione fissata

• Esempio:

> x[1] 1 2 6 11> n<-length(x)> n[1] 4> which(x>2)[1] 3 4

> x[1] -3 -2 -1 0 1 2 3 4 5 6 7 8> n<-length(x)> n

–31–

[1] 12> which((x>=-1)&(x<5))[1] 3 4 5 6 7 8

> x[1] -3 -2 -1 0 1 2 3 4 5 6 7 8> n<-length(x)> n[1] 12> which((x>=-1)|(x<5))[1] 1 2 3 4 5 6 7 8 9 10 11 12

1.6.2 which.min()

• Parametri:

• Significato: indice del primo elemento minimo del vettore x

• Esempio:

> x[1] 1.2 1.0 2.3 4.0 1.0 4.0> n<-length(x)> n[1] 6> which.min(x)[1] 2

> x[1] 1 -10 -10 5 9> n<-length(x)> n[1] 5> which.min(x)[1] 2

1.6.3 which.max()

• Parametri:

• Significato: indice del primo elemento massimo del vettore x

• Esempio:

–32–

1.7 Funzioni combinatorie

> x[1] 1.2 1.0 2.3 4.0 1.0 4.0> n<-length(x)> n[1] 6> which.max(x)[1] 4

> x[1] 1 10 10 5 9> n<-length(x)> n[1] 5> which.max(x)[1] 2

1.7 Funzioni combinatorie

1.7.1 choose()

• Parametri:

n valore naturale

k valore naturale

• Significato: coefficiente binomiale

• Formula: (n

n !k ! (n− k) !

• Esempio:

> n<-10> k<-3> prod(1:n)/(prod(1:k)*prod(1:(n-k)))[1] 120> choose(n,k)[1] 120

> n<-8> k<-5> prod(1:n)/(prod(1:k)*prod(1:(n-k)))[1] 56> choose(n,k)[1] 56

–33–

1.7.2 lchoose()

• Parametri:

n valore naturalek valore naturale

• Significato: logaritmo naturale del coefficiente binomiale

• Formula:

))= log

k ! (n− k) !

)• Esempio:

> n<-10> k<-3> log(prod(1:n)/(prod(1:k)*prod(1:(n-k))))[1] 4.787492> lchoose(n,k)[1] 4.787492

> n<-8> k<-5> log(prod(1:n)/(prod(1:k)*prod(1:(n-k))))[1] 4.025352> lchoose(n,k)[1] 4.025352

1.7.3 factorial()

• Parametri:

n valore naturale

• Significato: fattoriale

• Formula:n ! = n · (n− 1) · (n− 2) · (n− 3) · · · 2 · 1

• Esempio:

> n<-4> prod(1:n)[1] 24> factorial(n)[1] 24

> n<-6> prod(1:n)[1] 720> factorial(n)[1] 720

–34–

1.8 Funzioni trigonometriche

1.7.4 lfactorial()

• Parametri:

n valore naturale

• Significato: logaritmo del fattoriale in base e

• Formula:log(n !)

• Esempio:

> n<-4> log(prod(1:n))[1] 3.178054> lfactorial(n)[1] 3.178054

> n<-6> log(prod(1:n))[1] 6.579251> lfactorial(n)[1] 6.579251

1.8.1 sin()

• Parametri:

x valore numerico

• Significato: seno

• Formula:sin(x)

• Esempio:

> x<-1.2> sin(x)[1] 0.932039

> x<-pi> sin(x)[1] 1.224606e-16

–35–

1.8.2 cos()

• Parametri:

x valore numerico

• Significato: coseno

• Formula:cos(x)

• Esempio:

> x<-1.2> cos(x)[1] 0.3623578

> x<-pi/2> cos(x)[1] 6.123032e-17

1.8.3 tan()

• Parametri:

x valore numerico

• Significato: tangente

• Formula:tan(x)

• Esempio:

> x<-1.2> tan(x)[1] 2.572152

> x<-pi> tan(x)[1] -1.224606e-16

1.8.4 asin()

• Parametri:

x valore numerico tale che |x| ≤ 1

• Significato: arcoseno di x, espresso in radianti nell’intervallo tra −π / 2e π / 2

–36–

• Formula:arcsin(x)

• Esempio:

> x<-0.9> asin(x)[1] 1.119770

> x<--1> asin(x)[1] -1.570796

1.8.5 acos()

• Parametri:

x valore numerico tale che |x| ≤ 1

• Significato: arcocoseno di x, espresso in radianti nell’intervallo tra 0 e π

• Formula:arccos(x)

• Esempio:

> x<-0.9> acos(x)[1] 0.4510268

> x<--1> acos(x)[1] 3.141593

1.8.6 atan()

• Parametri:

x valore numerico

• Significato: arcotangente di x, espressa in radianti nell’intervallo tra−π / 2 e π / 2

• Formula:arctan(x)

• Esempio:

–37–

> x<-0.9> atan(x)[1] 0.7328151

> x<--34> atan(x)[1] -1.541393

1.8.7 atan2()

• Parametri:

x valore numerico di ascissa

y valore numerico di ordinata

• Significato: arcotangente in radianti dalle coordinate x e y specificate,nell’intervallo tra −π e π

• Formula:arctan(x)

• Esempio:

> x<-0.9> y<--2> atan2(y,x)[1] -1.147942

> x<--1> y<--1> atan2(y,x)[1] -2.356194

1.8.8 sinh()

• Parametri:

x valore numerico

• Significato: seno iperbolico

• Formula:

sinh(x) =ex − e−x

• Esempio:

–38–

> x<-2.45> (exp(x)-exp(-x))/2[1] 5.751027> sinh(x)[1] 5.751027

> x<-3.7> (exp(x)-exp(-x))/2[1] 20.21129> sinh(x)[1] 20.21129

1.8.9 cosh()

• Parametri:

x valore numerico

• Significato: coseno iperbolico

• Formula:

cosh(x) =ex + e−x

• Esempio:

> x<-2.45> (exp(x)+exp(-x))/2[1] 5.83732> cosh(x)[1] 5.83732

> x<-3.7> (exp(x)+exp(-x))/2[1] 20.23601> cosh(x)[1] 20.23601

1.8.10 tanh()

• Parametri:

x valore numerico

• Significato: tangente iperbolica

• Formula:

tanh(x) =e2 x − 1e2 x + 1

–39–

• Esempio:

> x<-2.45> (exp(2*x)-1)/(exp(2*x)+1)[1] 0.985217> tanh(x)[1] 0.985217

> x<-3.7> (exp(2*x)-1)/(exp(2*x)+1)[1] 0.9987782> tanh(x)[1] 0.9987782

1.8.11 asinh()

• Parametri:

x valore numerico

• Significato: inversa seno iperbolico

• Formula:arcsinh(x)

• Esempio:

> x<-2.45> asinh(x)[1] 1.628500

> x<-3.7> asinh(x)[1] 2.019261

1.8.12 acosh()

• Parametri:

x valore numerico tale che x ≥ 1

• Significato: inversa coseno iperbolico

• Formula:arccosh(x)

• Esempio:

–40–

1.9 Funzioni esponenziali e logaritmiche

> x<-2.45> acosh(x)[1] 1.544713

> x<-3.7> acosh(x)[1] 1.982697

1.8.13 atanh()

• Parametri:

x valore numerico tale che |x| < 1

• Significato: inversa tangente iperbolica

• Formula:arctanh(x)

• Esempio:

> x<-0.45> atanh(x)[1] 0.4847003

> x<-0.7> atanh(x)[1] 0.8673005

1.9.1 exp()

• Parametri:

x valore numerico

• Significato: esponenziale

• Formula:ex

• Esempio:

> x<-1.2> exp(x)[1] 3.320117

–41–

> x<-0> exp(x)[1] 1

1.9.2 expm1()

• Parametri:

x valore numerico

• Significato: esponenziale

• Formula:ex − 1

• Esempio:

> x<-1.2> exp(x)-1[1] 2.320117> expm1(x)[1] 2.320117

> x<-0> exp(x)-1[1] 0> expm1(x)[1] 0

1.9.3 log2()

• Parametri:

• Significato: logaritmo di x in base 2

• Formula:log2(x)

• Esempio:

> x<-1.2> log2(x)[1] 0.2630344

> x<-8> log2(x)[1] 3

–42–

1.9.4 log10()

• Parametri:

• Significato: logaritmo di x in base 10

• Formula:log10(x)

• Esempio:

> x<-1.2> log10(x)[1] 0.07918125

> x<-1000> log10(x)[1] 3

1.9.5 log()

• Parametri:

base il valore b tale che b > 0

• Significato: logaritmo di x in base b

• Formula:logb(x)

• Esempio:

> x<-2> b<-4> log(x,base=b)[1] 0.5

> x<-8> b<-2> log(x,base=b)[1] 3

–43–

1.9.6 logb()

• Parametri:

x valore numerico tale che x > 0base il valore b tale che b > 0

• Significato: logaritmo di x in base b

• Formula:logb(x)

• Esempio:

> x<-2> b<-4> logb(x,base=b)[1] 0.5

> x<-8> b<-2> log(x,base=b)[1] 3

1.9.7 log1p()

Parametri:

x valore numerico tale che x > −1

• Significato: logaritmo di x in base e

• Formula:log(x + 1)

• Esempio:

> x<-2.3> b<-exp(1)> log(x+1,base=b)[1] 1.193922> log1p(x)[1] 1.193922

> x<-8> b<-exp(1)> log(x+1,base=b)[1] 2.197225> log1p(x)[1] 2.197225

–44–

1.10 Funzioni di successione

1.10.1 :

• Significato: successione con intervallo unitario

• Esempio:

> 1:10[1] 1 2 3 4 5 6 7 8 9 10> 1.1:10.1[1] 1.1 2.1 3.1 4.1 5.1 6.1 7.1 8.1 9.1 10.1> 1.1:10.2[1] 1.1 2.1 3.1 4.1 5.1 6.1 7.1 8.1 9.1 10.1

> 1:5+1[1] 2 3 4 5 6> 1:(5+1)[1] 1 2 3 4 5 6

1.10.2 rep()

• Parametri:

times ogni elemento del vettore viene ripetuto lo stesso numerotimes di volte

each ogni elemento del vettore viene ripetuto each volte

length.out dimensione

• Significato: replicazioni

• Esempio:

> x<-2> rep(x,times=5)[1] 2 2 2 2 2> x<-c("a")> rep(x,times=5)[1] "a" "a" "a" "a" "a"

> x<-c(1,2,3)> rep(x,times=5)[1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3> x<-c("a","b","c")> rep(x,times=5)[1] "a" "b" "c" "a" "b" "c" "a" "b" "c" "a" "b" "c" "a" "b" "c"

> x<-c(1,2,3)

–45–

> rep(x,times=c(1,2,3))[1] 1 2 2 3 3 3> x<-c("a","b","c")> rep(x,times=c(1,2,3))[1] "a" "b" "b" "c" "c" "c"

> x<-c(1,2,3)> rep(x,each=2)[1] 1 1 2 2 3 3> x<-c("a","b","c")> rep(x,each=2)[1] "a" "a" "b" "b" "c" "c"

> x<-c(1,2,3)> rep(x,length.out=7)[1] 1 2 3 1 2 3 1> x<-c("a","b","c")> rep(x,length.out=7)[1] "a" "b" "c" "a" "b" "c" "a"

1.10.3 rep.int()

• Parametri:

times ogni elemento del vettore viene ripetuto lo stesso numerotimes di volte

• Significato: replicazioni

• Esempio:

> x<-2> rep.int(x,times=5)[1] 2 2 2 2 2> x<-c("a")> rep.int(x,times=5)[1] "a" "a" "a" "a" "a"

> x<-c(1,2,3)> rep.int(x,times=5)[1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3> x<-c("a","b","c")> rep.int(x,times=5)[1] "a" "b" "c" "a" "b" "c" "a" "b" "c" "a" "b" "c" "a" "b" "c"

> x<-c(1,2,3)> rep.int(x,times=c(1,2,3))[1] 1 2 2 3 3 3

–46–

1.10 Funzioni di successione

> x<-c("a","b","c")> rep.int(x,times=c(1,2,3))[1] "a" "b" "b" "c" "c" "c"

1.10.4 ave()

• Parametri:

f fattore a k livelli di dimensione n

FUN funzione

• Significato: applica e replica la funzione FUN ad ogni gruppo di elementidi y definito dai livelli di f

• Esempio:

> y[1] 1 2 3 4 5 6 7 8> f[1] a a a a b b b bLevels: a b> k<-nlevels(f)> k[1] 2> n<-length(f)> n[1] 8> mean(y[f=="a"])[1] 2.5> mean(y[f=="b"])[1] 6.5> ave(y,f,FUN=mean)[1] 2.5 2.5 2.5 2.5 6.5 6.5 6.5 6.5

> y[1] 1 2 3 4 5 6 7 8> f[1] a a a a b b b bLevels: a b> k<-nlevels(f)> k[1] 2> n<-length(f)> n[1] 8> sum(y[f=="a"])[1] 10

–47–

> sum(y[f=="b"])[1] 26> ave(y,f,FUN=sum)[1] 10 10 10 10 26 26 26 26

1.10.5 sequence()

• Parametri:

x vettore numerico di valori naturali di dimensione n

• Significato: per ogni elemento ni di x viene creata la sequenza di valorinaturali 1, 2, . . . , ni

• Esempio:

> x<-c(1,2,3,4)> n<-length(x)> n[1] 4> n1<-1> n2<-2> n3<-3> n4<-4> c(1:n1,1:n2,1:n3,1:n4)[1] 1 1 2 1 2 3 1 2 3 4> sequence(x)[1] 1 1 2 1 2 3 1 2 3 4

> x<-c(4,3,2,1)> n<-length(x)> n[1] 4> n1<-4> n2<-3> n3<-2> n4<-1> c(1:n1,1:n2,1:n3,1:n4)[1] 1 2 3 4 1 2 3 1 2 1> sequence(x)[1] 1 2 3 4 1 2 3 1 2 1

1.10.6 seq()

• Parametri:

from punto di partenza

to punto di arrivo

by passo

–48–

1.11 Funzioni di ordinamento

length.out dimensione

along.with vettore di dimensione n per creare la sequenza di valorinaturali 1, 2, . . . , n

• Significato: successione

• Esempio:

> seq(from=1,to=3.4,by=0.4)[1] 1.0 1.4 1.8 2.2 2.6 3.0 3.4

> seq(from=1,to=3.4,length.out=5)[1] 1.0 1.6 2.2 2.8 3.4

> seq(from=3.4,to=1,length.out=5)[1] 3.4 2.8 2.2 1.6 1.0

> x[1] 1 2 6 11> n<-length(x)> n[1] 4> 1:n[1] 1 2 3 4> seq(along.with=x)[1] 1 2 3 4

> seq(from=8)[1] 1 2 3 4 5 6 7 8

> seq(from=-8)[1] 1 0 -1 -2 -3 -4 -5 -6 -7 -8

1.11.1 sort()

• Parametri:

decreasing = T / F decremento oppure incremento

index.return = T / F vettore indici ordinato

• Significato: ordinamento crescente oppure decrescente

• Output:

x vettore ordinato

ix indici ordinati

–49–

• Formula:

decreasing = T

x(n), x(n−1), . . . , x(1)

decreasing = F

x(1), x(2), . . . , x(n)

• Esempio:

> x[1] 1.20 2.30 4.21 0.00 2.10 3.40> n<-length(x)> n[1] 6> sort(x,decreasing=T,index.return=F)[1] 4.21 3.40 2.30 2.10 1.20 0.00

> x[1] 1.20 2.30 4.21 0.00 2.10 3.40> n<-length(x)> n[1] 6> sort(x,decreasing=T,index.return=T)$x[1] 4.21 3.40 2.30 2.10 1.20 0.00> sort(x,decreasing=T,index.return=T)$ix[1] 3 6 2 5 1 4

> x[1] 1.20 2.30 4.21 0.00 2.10 3.40> n<-length(x)> n[1] 6> sort(x,decreasing=F,index.return=F)[1] 0.00 1.20 2.10 2.30 3.40 4.21

> x[1] 1.20 2.30 4.21 0.00 2.10 3.40> n<-length(x)> n[1] 6> sort(x,decreasing=F,index.return=T)$x[1] 0.00 1.20 2.10 2.30 3.40 4.21> sort(x,decreasing=F,index.return=T)$ix[1] 4 1 5 2 6 3

–50–

1.11.2 rev()

• Parametri:

• Significato: inverte l’ordine degli elementi

• Formula:xn, xn−1, . . . , x1

• Esempio:

> x[1] 1.20 2.30 4.21 0.00 2.10 3.40> n<-length(x)> n[1] 6> rev(x)[1] 3.40 2.10 0.00 4.21 2.30 1.20

> x[1] 1.2 4.2 4.5 -5.6 6.5 1.2> n<-length(x)> n[1] 6> rev(x)[1] 1.2 6.5 -5.6 4.5 4.2 1.2

1.11.3 order()

• Parametri:

• Significato: restituisce la posizione di ogni elemento di x se questo fosseordinato in maniera crescente

• Esempio:

> x[1] 2 4> n<-length(x)> n[1] 2> order(x)[1] 1 2

> x[1] 5 5 5 4 4 4 3 3 3 2 2 2 1 1 1> n<-length(x)

–51–

> n[1] 15> order(x)[1] 13 14 15 10 11 12 7 8 9 4 5 6 1 2 3

1.12 Funzioni di arrotondamento

1.12.1 trunc()

• Parametri:

x valore numerico

• Significato: tronca la parte decimale

• Formula:[x]

• Esempio:

> x<-2> trunc(x)[1] 2

> x<-2.999> trunc(x)[1] 2

> x<--2.01> trunc(x)[1] -2

1.12.2 floor()

• Parametri:

x valore numerico

• Significato: arrotonda all’intero inferiore

• Formula:

x se x e intero

[x] se x e positivo non intero

[x]−1 se x e negativo non intero

–52–

• Esempio:

> x<-2> floor(x)[1] 2

> x<-2.99> floor(x)[1] 2

> x<--2.01> floor(x)[1] -3

1.12.3 ceiling()

• Parametri:

x valore numerico

• Significato: arrotonda all’intero superiore

• Formula:

x se x e intero

[x]+1 se x e positivo non intero

[x] se x e negativo non intero

• Esempio:

> x<-2> ceiling(x)[1] 2

> x<-2.001> ceiling(x)[1] 3

> x<--2.01> ceiling(x)[1] -2

–53–

1.12.4 round()

• Parametri:

x valore numerico

digits valore naturale n

• Significato: arrotonda al numero di cifre specificato da n

• Esempio:

> pi[1] 3.141593> x<-pi> n<-4> round(x,digits=n)[1] 3.1416

> exp(1)[1] 2.718282> x<-exp(1)> n<-3> round(x,digits=n)[1] 2.718

1.12.5 signif()

• Parametri:

x valore numerico

digits valore naturale n

• Significato: arrotonda al numero di cifre significative specificate da n

• Esempio:

> pi[1] 3.141593> x<-pi> n<-4> signif(x,digits=n)[1] 3.142

> exp(1)[1] 2.718282> x<-exp(1)> n<-3> signif(x,digits=n)[1] 2.72

–54–

1.12.6 fractions()

• Parametri:

x oggetto numerico

• Significato: trasforma un valore decimale in frazionario

• Esempio:

> x<-2.3> fractions(x)[1] 23/10

> x<-1.34> fractions(x)[1] 67/50

> x<-matrix(c(1.2,34,4.3,4.2),nrow=2,ncol=2,byrow=F)> x

[,1] [,2][1,] 1.2 4.3[2,] 34.0 4.2> fractions(x)

[,1] [,2][1,] 6/5 43/10[2,] 34 21/5

• Osservazioni: E’ necessario installare la libreria MASS.

1.12.7 rational()

• Parametri:

x oggetto numerico

• Significato: approssimazione razionale

• Esempio:

> x<-matrix(c(1.2,34,4.3,4.2),nrow=2,ncol=2,byrow=F)> x

[,1] [,2][1,] 1.2 4.3[2,] 34.0 4.2> det(x)[1] -141.16> # matrice x invertibile> solve(x)%*%x

[,1] [,2][1,] 1.000000e+00 -2.303930e-17

–55–

[2,] 2.428613e-17 1.000000e+00> rational(solve(x)%*%x)

[,1] [,2][1,] 1 0[2,] 0 1

1.13 Funzioni avanzate

1.13.1 gamma()

• Parametri:

• Significato: funzione gamma

• Formula:

Γ(x) =∫ +∞

ux−1 e−u du

• Esempio:

> x<-3.45> gamma(x)[1] 3.146312

> x<-5> gamma(x)[1] 24

1.13.2 lgamma()

• Parametri:

• Significato: logaritmo naturale della funzione gamma

• Formula:log(Γ(x)

)• Esempio:

–56–

> x<-3.45> log(gamma(x))[1] 1.146231> lgamma(x)[1] 1.146231

> x<-5> log(gamma(x))[1] 3.178054> lgamma(x)[1] 3.178054

1.13.3 digamma()

• Parametri:

• Significato: derivata logaritmica prima della funzione gamma

• Formula:d

dx(log (Γ(x))

• Esempio:

> x<-2.45> digamma(x)[1] 0.6783387

> x<-5> digamma(x)[1] 1.506118

1.13.4 trigamma()

• Parametri:

• Significato: derivata logaritmica seconda della funzione gamma

• Formula:d2

dx(log (Γ(x))

• Esempio:

–57–

> x<-2.45> trigamma(x)[1] 0.5024545

> x<-5> trigamma(x)[1] 0.2213230

1.13.5 psigamma()

• Parametri:

deriv valore naturale n

• Significato: derivata logaritmica (n + 1)-esima della funzione gamma

• Formula:dn+1

dx(log (Γ(x))

• Esempio:

> x<-2.45> psigamma(x,deriv=0) # funzione digamma[1] 0.6783387> digamma(x)[1] 0.6783387

> x<-5> psigamma(x,deriv=1) # funzione trigamma[1] 0.2213230> trigamma(x)[1] 0.2213230

1.13.6 beta()

• Parametri:

y valore numerico tale che y > 0

• Significato: funzione beta

• Formula:

B(x, y) =Γ(x) Γ(y)Γ(x + y)

=∫ 1

ux−1 (1− u)y−1 du

–58–

• Esempio:

> x<-3.45> y<-2.3> gamma(x)*gamma(y)/gamma(x+y)[1] 0.04659344> beta(x,y)[1] 0.04659344

> x<-5> y<-4> gamma(x)*gamma(y)/gamma(x+y)[1] 0.003571429> beta(x,y)[1] 0.003571429

1.13.7 lbeta()

• Parametri:

y valore numerico tale che y > 0

• Significato: logaritmo naturale della funzione beta

• Formula:

log (B(x, y))

• Esempio:

> x<-3.45> y<-2.3> log(gamma(x)*gamma(y)/gamma(x+y))[1] -3.066296> lbeta(x,y)[1] -3.066296

> x<-5> y<-4> log(gamma(x)*gamma(y)/gamma(x+y))[1] -5.63479> lbeta(x,y)[1] -5.63479

–59–

1.14 Funzioni sui numeri complessi

1.14.1 complex()

• Parametri:

real parte reale

imaginary parte immaginaria

• Significato: numero complesso

• Esempio:

> complex(real=1,imaginary=3)[1] 1+3i

> complex(real=-3,imaginary=4)[1] -3+4i

1.14.2 Re()

• Parametri:

x numero complesso

• Significato: parte reale

• Esempio:

> x[1] 2+3i> Re(x)[1] 2

> x[1] -3+4i> Re(x)[1] -3

1.14.3 Im()

• Parametri:

x numero complesso

• Significato: parte immaginaria

• Esempio:

–60–

1.14 Funzioni sui numeri complessi

> x[1] -2+3i> Im(x)[1] 3

> x[1] -3+4i> Im(x)[1] 4

1.14.4 Mod()

• Parametri:

x numero complesso

• Significato: modulo

• Esempio:

> x[1] 2+3i> sqrt(2^2+3^2)[1] 3.605551> Mod(x)[1] 3.605551

> x[1] -3+4i> sqrt((-3)**2+4**2)[1] 5> Mod(x)[1] 5

1.14.5 Conj()

• Parametri:

x numero complesso

• Significato: coniugato

• Esempio:

> x[1] 2+3i> Conj(x)[1] 2-3i

–61–

> x[1] -3+4i> Conj(x)[1] -3-4i

1.14.6 Arg()

• Parametri:

x numero complesso

• Significato: argomento

• Esempio:

> x[1] 2+3i> atan(3/2)[1] 0.9827937> Arg(x)[1] 0.9827937

> x[1] 4+5i> atan(5/4)[1] 0.8960554> Arg(x)[1] 0.8960554

1.15 Funzioni cumulate

1.15.1 cumsum()

• Parametri:

• Significato: somma cumulata

• Formula:i∑

xj ∀ i = 1, 2, . . . , n

• Esempio:

–62–

1.15 Funzioni cumulate

> x[1] 1 2 4 3 5 6> n<-length(x)> n[1] 6> cumsum(x)[1] 1 3 7 10 15 21

> x[1] 1.0 2.3 4.5 6.7 2.1> n<-length(x)> n[1] 5> cumsum(x)[1] 1.0 3.3 7.8 14.5 16.6

1.15.2 cumprod()

• Parametri:

• Significato: prodotto cumulato

• Formula:i∏

xj ∀ i = 1, 2, . . . , n

• Esempio:

> x[1] 1 2 4 3 5 6> n<-length(x)> n[1] 6> cumprod(x)[1] 1 2 8 24 120 720

> x[1] 1.0 2.3 4.5 6.7 2.1> n<-length(x)> n[1] 5> cumprod(x)[1] 1.0000 2.3000 10.3500 69.3450 145.6245

–63–

1.15.3 cummin()

• Parametri:

• Significato: minimo cumulato

• Formula:min(x1, x2, . . . , xi) ∀ i = 1, 2, . . . , n

• Esempio:

> x[1] 3 4 3 2 4 1> n<-length(x)> n[1] 6> cummin(x)[1] 3 3 3 2 2 1

> x[1] 1 3 2 4 5 1> n<-length(x)> n[1] 6> cummin(x)[1] 1 1 1 1 1 1

1.15.4 cummax()

• Parametri:

• Significato: massimo cumulato

• Formula:max(x1, x2, . . . , xi) ∀ i = 1, 2, . . . , n

• Esempio:

> x[1] 1 3 2 4 5 1> n<-length(x)> n[1] 6> cummax(x)[1] 1 3 3 4 5 5

–64–

1.16 Funzioni in parallelo

[1] 1 3 2 4 5 1> n<-length(x)> n[1] 6> cummax(x)[1] 1 3 3 4 5 5

1.16 Funzioni in parallelo

1.16.1 pmin()

• Parametri:

y vettore numerico di dimensione n

• Significato: minimo in parallelo

• Formula:min(xi, yi) ∀ i = 1, 2, . . . , n

• Esempio:

> x[1] 1.20 2.30 0.11 4.50> y[1] 1.1 2.1 1.3 4.4> n<-length(x)[1] 4> pmin(x,y)[1] 1.10 2.10 0.11 4.40

> x[1] 1.20 2.30 0.11 4.50> y[1] 1.1 2.1 1.1 2.1> n<-length(x)[1] 4> pmin(x,y)[1] 1.1 2.1 0.11 2.1

1.16.2 pmax()

• Parametri:

–65–

• Significato: massimo in parallelo

• Formula:max(xi, yi) ∀ i = 1, 2, . . . , n

• Esempio:

> x[1] 1.20 2.30 0.11 4.50> y[1] 1.1 2.1 1.3 4.4> n<-length(x)[1] 4> pmax(x,y)[1] 1.2 2.3 1.3 4.5

> x[1] 1.20 2.30 0.11 4.50> y[1] 1.1 2.1 1.1 2.1> n<-length(x)[1] 4> pmax(x,y)[1] 1.2 2.3 1.1 4.5

1.17 Funzioni di analisi numerica

1.17.1 uniroot()

• Parametri:

f funzione

lower estremo inferiore

upper estremo superiore

tol tolleranza

maxiter mumero massimo di iterazioni

• Significato: ricerca di uno zero

• Output:

root radice

f.root valore assunto dalla funzione nel punto individuato

iter numero di iterazioni

estim.prec tolleranza

• Formula:f(x) = 0

–66–

1.17 Funzioni di analisi numerica

• Esempio:

> f<-function(x){+ exp(-x)-x}> uniroot(f,lower=0,upper=1,tol=1e-4,maxiter=1000)

1.17.2 polyroot()

• Parametri:

a vettore dei k coefficienti di un polinomio di ordine k − 1

• Significato: ricerca di uno zero in un polinomio

• Formula:a1 + a2 x + a3 x2 + · · ·+ ak xk−1 = 0

• Esempio:

> k<-3> # equazione di un polinomio di secondo grado> a1<-3> a2<--2> a3<-2> a<-c(a1,a2,a3)> polyroot(a)[1] 0.5+1.118034i 0.5-1.118034i> # verifica radici> radice1<-0.5+1.1180340i> a1+a2*radice1+a3*radice1**2[1] -5.0312e-08+0i> # verifica OK> radice2<-0.5-1.1180340i> a1+a2*radice2+a3*radice2**2[1] -5.0312e-08+0i> # verifica OK

> k<-4> # equazione di un polinomio di terzo grado> a1<-3> a2<--2> a3<-2> a4<--1> a<-c(a1,a2,a3,a4)> polyroot(a)[1] 0.09473214+1.283742i 0.09473214-1.283742i 1.81053571+0.000000i> # verifica radici> radice1<-0.09473214+1.283742i> a1+a2*radice1+a3*radice1**2+a4*radice1**3

–67–

[1] 7.477461e-07-5.808714e-07i> # verifica OK> radice2<-0.09473214-1.283742i> a1+a2*radice2+a3*radice2**2+a4*radice2**3[1] 7.477461e-07+5.808714e-07i> # verifica OK> radice3<-1.81053571+0.000000i> a1+a2*radice3+a3*radice3**2+a4*radice3**3[1] 1.729401e-08+0i> # verifica OK

1.17.3 D()

• Parametri:

expression() espressione contenente la funzione f(x) da derivare

name variabile x di derivazione

Significato: derivata simbolica al primo ordine

• Formula:∂

∂xf(x)

• Esempio:

> D(expression(exp(-x)-x),name="x")-(exp(-x) + 1)

> D(expression(x*exp(-a)),name="x")exp(-a)

1.17.4 integrate()

• Parametri:

f funzione f(x) da integrare

lower estremo inferiore a di integrazione

upper estremo superiore b di integrazione

subdivisions mumero di suddivisioni dell’intervallo di integrazione

• Significato: integrazione numerica

• Output:

value integrale definito

–68–

1.18 Funzioni user - defined

• Formula: ∫ b

f(x) dx

• Esempio:

> f<-function(x){+ exp(-x)-x}> a<-1.2> b<-2.3> integrate(f,lower=a,upper=b,subdivisions=150)

1.18 Funzioni user - defined

1.18.1 function()

• Significato: definisce una funzione creata dall’utente

• Esempio:

> # funzione ad un solo parametro> media<-function(x){+ n<-length(x)+ somma<-sum(x)+ somma/n}> x[1] 1 1 2 3 3 1 0 2 2> media(x)[1] 1.666667

> # funzione a due parametri> prodotto<-function(x,y){+ x*y}> x[1] 1 1 2 3 3 1 0> y[1] -3.2 -2.2 -1.2 -0.2 0.8 1.8 2.8> prodotto(x,y)[1] -3.2 -2.2 -2.4 -0.6 2.4 1.8 0.0

1.18.2 args()

• Parametri:

f funzione

• Significato: argomenti di una funzione

–69–

• Esempio:

> media<-function(x){+ n<-length(x)+ somma<-sum(x)+ somma/n}

> args(media)function (x)NULL

> prodotto<-function(x,y){+ x*y}

> args(prodotto)function (x, y)NULL

1.18.3 body()

• Parametri:

f funzione

• Significato: corpo di una funzione

• Esempio:

> media<-function(x){+ n<-length(x)+ somma<-sum(x)+ somma/n}

> body(media){

n <- length(x)somma <- sum(x)somma/n

> prodotto<-function(x,y){+ x*y}

> body(prodotto){

x * y}

–70–

1.19 Miscellaneous

1.19.1 list()

• Significato: creazione di un oggetto lista

• Esempio:

> x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1> y[1] 4.5 5.4 6.1 6.1 5.4> lista<-list(x=x,y=y)> lista$x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1$y[1] 4.5 5.4 6.1 6.1 5.4> lista[1]$x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1> lista$x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1> lista[[1]][1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1> lista[[1]][1][1] 7.8> lista[2]$y[1] 4.5 5.4 6.1 6.1 5.4> lista$y[1] 4.5 5.4 6.1 6.1 5.4> lista[[2]][1] 4.5 5.4 6.1 6.1 5.4> lista[[2]][1][1] 4.5

> x[1] 1.0 2.3 4.5 6.7 8.9> y[1] 154 109 137 115 140> z[1] 108 115 126 92 146> lista<-list(x=x,y=y,z=z)> lista$x[1] 1.0 2.3 4.5 6.7 8.9$y[1] 154 109 137 115 140$z[1] 108 115 126 92 146

–71–

> lista[1]$x[1] 1.0 2.3 4.5 6.7 8.9> lista$x[1] 1.0 2.3 4.5 6.7 8.9> lista[[1]][1] 1.0 2.3 4.5 6.7 8.9> lista[[1]][1][1] 1> lista[2]$y[1] 154 109 137 115 140> lista$y[1] 154 109 137 115 140> lista[[2]][1] 154 109 137 115 140> lista[[2]][1][1] 154> lista[3]$z[1] 108 115 126 92 146> lista$z[1] 108 115 126 92 146> lista[[3]][1] 108 115 126 92 146> lista[[3]][1][1] 108

> x[1] 1 2 3> y[1] 11 12 13 14 15> lista<-list(x,y)> lista[[1]][1] 1 2 3[[2]][1] 11 12 13 14 15> names(lista)NULL

> x[1] 1 2 3> y[1] 11 12 13 14 15> lista<-list(A=x,B=y)> lista$A[1] 1 2 3$B

–72–

1.19 Miscellaneous

[1] 11 12 13 14 15> names(lista)[1] "A" "B"

1.19.2 lapply()

• Parametri:

x oggetto listaFUN funzione

• Significato: applica la funzione FUN ad ogni elemento di lista

• Esempio:

> vec1[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1> mean(vec1)[1] 7.0125> vec2[1] 4.5 5.4 6.1 6.1 5.4> mean(vec2)[1] 5.5> x<-list(vec1=vec1,vec2=vec2)> lapply(x,FUN=mean)$vec1[1] 7.0125$vec2[1] 5.5

> vec1[1] 1.0 2.3 4.5 6.7 8.9> sd(vec1)[1] 3.206556> vec2[1] 154 109 137 115 140> sd(vec2)[1] 18.61451> vec3[1] 108 115 126 92 146> sd(vec3)[1] 20.19406> x<-list(vec1=vec1,vec2=vec2,vec3=vec3)> lapply(x,FUN=sd)$vec1[1] 3.206556$vec2[1] 18.61451$vec3[1] 20.19406

–73–

1.19.3 duplicated()

• Parametri:

• Significato: segnalazione di valori duplicati

• Esempio:

> x[1] 1 2 1 3 2 2 4> n<-length(x)> n[1] 7> duplicated(x)[1] FALSE FALSE TRUE FALSE TRUE TRUE FALSE

> x[1] 1 2 1 2 1 2> n<-length(x)> n[1] 6> duplicated(x)[1] FALSE FALSE TRUE TRUE TRUE TRUE

1.19.4 pi

• Significato: costante pi greco

• Formula:

• Esempio:

> pi[1] 3.141593

> 2*pi[1] 6.283185

–74–

1.19 Miscellaneous

1.19.5 .Last.value

• Significato: ultimo valore calcolato

• Esempio:

> 2+4[1] 6> .Last.value[1] 6

> 3*4**4.2[1] 1013.382> .Last.value[1] 1013.382

1.19.6 any()

• Parametri:

• Significato: restituisce TRUE se almeno un elemento del vettore soddisfaad una condizione fissata

• Esempio:

> x[1] 3 4 3 2 4 1> x<2[1] FALSE FALSE FALSE FALSE FALSE TRUE> any(x<2)[1] TRUE

> x[1] 1 2 3 4 5 6 7 8> x>4[1] FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE> any(x>4)[1] TRUE

1.19.7 all()

• Parametri:

• Significato: restituisce TRUE se tutti gli elementi del vettore soddisfanoad una condizione fissata

–75–

• Esempio:

> x[1] 3 4 3 2 4 1> x<2[1] FALSE FALSE FALSE FALSE FALSE TRUE> all(x<2)[1] FALSE

> x[1] 1 2 3 4 5 6 7 8> x>4[1] FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE> all(x>4)[1] FALSE

1.19.8 match()

• Parametri:

y vettore numerico di dimensione m

nomatch alternativa da inserire al posto di NA

• Significato: per ogni elemento di x restituisce la posizione della primaoccorrenza in y

• Esempio:

> x[1] 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5> n<-length(x)> n[1] 15> y[1] 2 4> m<-length(y)> m[1] 2> match(x,y,nomatch=0)[1] 0 0 0 1 1 1 0 0 0 2 2 2 0 0 0

> x[1] 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5> n<-length(x)> n[1] 15> y

–76–

1.19 Miscellaneous

[1] 2 4> m<-length(y)> m[1] 2> match(x,y)[1] NA NA NA 1 1 1 NA NA NA 2 2 2 NA NA NA

1.19.9 outer()

• Parametri:

FUN funzione

• Significato: applica FUN per ogni coppia ordinata costituita da unelemento di x ed uno di y

• Esempio:

> x[1] 1 2 2 4> n<-length(x)> n[1] 4> y[1] 1.2 2.3> m<-length(y)> m[1] 2> outer(x,y,FUN="+")

[,1] [,2][1,] 2.2 3.3[2,] 3.2 4.3[3,] 3.2 4.3[4,] 5.2 6.3

> x[1] 1 2 2 4> n<-length(x)> n[1] 4> y[1] 1.2 2.3> m<-length(y)> m[1] 2> outer(x,y,FUN="*")

–77–

[,1] [,2][1,] 1.2 2.3[2,] 2.4 4.6[3,] 2.4 4.6[4,] 4.8 9.2

1.19.10 expression()

• Significato: crea una espressione simbolica

• Esempio:

> x[1] 4.3 5.5 6.8 8.0> y[1] 4 5 6 7> z<-expression(x/y)

> x[1] 1.2 3.4 4.5> y[1] 1 2 44> z<-expression(x*y)

1.19.11 eval()

• Significato: valuta una espressione simbolica

• Esempio:

> x[1] 4.3 5.5 6.8 8.0> y[1] 4 5 6 7> z<-expression(x/y)> eval(z)[1] 1.075000 1.100000 1.133333 1.142857

> x[1] 1.2 3.4 4.5> y[1] 1 2 44> z<-expression(x*y)> eval(z)[1] 1.2 6.8 198.0

–78–

1.19 Miscellaneous

1.19.12 replace()

• Parametri:

list indice dell’elemento da rimpiazzarevalues valore da inserire

• Significato: rimpiazza un elemento del vettore x

• Esempio:

> x[1] 1 2 3 4 5 6 7 8> n<-length(x)> n[1] 8> replace(x,list=1,values=10)[1] 10 2 3 4 5 6 7 8> x[1] 1 2 3 4 5 6 7 8> # il nuovo vettore non viene salvato

> x[1] 1 2 3 4 5 6 7 8> n<-length(x)> n[1] 8> x<-replace(x,list=1,values=10)> x[1] 10 2 3 4 5 6 7 8

1.19.13 e

• Significato: scrittura veloce di un valore numerico potenza di dieci

• Esempio:

> 1e3[1] 1000

> -2e-2[1] -0.02

> 1e-2[1] 0.01

> 3e4[1] 30000

–79–

–80–

CAPITOLO 2

Vettori e Matrici

2.1 Creazione di Vettori

2.1.1 c()

• Significato: creazione di un vettore

• Esempio:

> x<-c(1.2,3.4,5.6,7.8)> x[1] 1.2 3.4 5.6 7.8> x<-c(x,9.9)> x[1] 1.2 3.4 5.6 7.8 9.9

> x<-c("a","b","a","a","b")> x[1] "a" "b" "a" "a" "b"> x<-c(x,"a")> x[1] "a" "b" "a" "a" "b" "a"

> x<-c("a",1)> x[1] "a" "1"> # il valore numerico 1 viene trasformato in carattere> x<-c(x,2)> x[1] "a" "1" "2"

–81–

2.1.2 scan()

• Significato: creazione di un vettore

• Esempio:

> # creazione di un vettore numerico> x<-scan()1: 1.22: 3.43: 0.454:Read 3 items> x[1] 1.20 3.40 0.45

> x<-scan()1: 1.2 3.4 0.454:Read 3 items> x[1] 1.20 3.40 0.45

> # creazione di un vettore di caratteri> x<-scan(what="character")1: a2: b3: a4:Read 3 items> x[1] "a" "b" "a"

> x<-scan(what="character")1: a b a4:Read 3 items> x[1] "a" "b" "a"

2.1.3 [ ]

• Parametri:

• Significato: estrazione di elementi da un vettore

• Esempio:

–82–

> x[1] 1.2 3.4 5.6 7.8 9.0 9.9> n<-length(x)> n[1] 6> # elemento di posto 2> x[2][1] 3.4> # elementi di posto 1,3,4> x[c(1,3,4)][1] 1.2 5.6 7.8> # elementi di posto 1,2,3> x[1:3][1] 1.2 3.4 5.6> # tutti gli elementi eccetto quelli di posto 1,2,3> x[-c(1:3)][1] 7.8 9.0 9.9> # elementi maggiori di 6.3> x[x>6.3][1] 7.8 9.0 9.9> # elementi maggiori di 6.3 e minori di 9.7> x[x>6.3 & x<9.7][1] 7.8 9.0> # elementi il cui indice corrisponde a T> x[c(T,T,F,F,T,T)][1] 1.2 3.4 9.0 9.9> # non posso richiamare elementi il cui> # indice supera la lunghezza del vettore> x[7][1] NA> # indice nullo significa non> # considerare nessun elemento> x[0]numeric(0)> # indice NA significa> # restituire NA> x[c(1,2,NA)][1] 1.2 3.4 NA> # definizione di etichette> names(x)<-c("a","b","c","d","e","f")> xa b c d e f

1.2 3.4 5.6 7.8 9.0 9.9> # elemento con etichetta "a"> x["a"]a

–83–

2.1.4 vector()

• Parametri:

mode = numeric / complex / logical tipo di oggetto

length dimensione

• Significato: inizializzazione di un vettore di dimensione n

• Esempio:

> n<-5> x<-vector(mode="numeric",length=n)> x[1] 0 0 0 0 0

> n<-3> x<-vector(mode="complex",length=n)> x[1] 0+0i 0+0i 0+0i

> n<-4> x<-vector(mode="logical",length=n)> x[1] FALSE FALSE FALSE FALSE

2.1.5 numeric()

• Parametri:

length dimensione

• Significato: inizializzazione di un vettore numerico di dimensione n

• Esempio:

> n<-5> x<-numeric(length=5)> x[1] 0 0 0 0 0

> n<-4> x<-numeric(length=n)> x[1] 0 0 0 0

–84–

2.1.6 complex()

• Parametri:

length dimensione

• Significato: inizializzazione di un vettore complesso di dimensione n

• Esempio:

> n<-5> x<-complex(length=n)> x[1] 0+0i 0+0i 0+0i 0+0i 0+0i

> n<-4> x<-complex(length=n)> x[1] 0+0i 0+0i 0+0i 0+0i

2.1.7 complex()

• Parametri:

length dimensione

• Significato: inizializzazione di un vettore logico di dimensione n

• Esempio:

> n<-5> x<-logical(length=n)> x[1] 0+0i 0+0i 0+0i 0+0i 0+0i

> n<-4> x<-logical(length=n)> x[1] FALSE FALSE FALSE FALSE

2.1.8 head()

• Parametri:

x vettore numerico di dimensione m

n numero di elementi

• Significato: seleziona i primi n elementi

• Esempio:

–85–

> x[1] 1.2 3.2 3.3 2.5 5.0 5.6> m<-length(x)> m[1] 6> head(x,n=2)[1] 1.2 3.2

> x[1] 1 2 1 2 1 2> m<-length(x)> m[1] 6> head(x,n=3)[1] 1 2 1

• Osservazioni: E’ necessario installare la libreria utils.

2.1.9 tail()

• Parametri:

x vettore numerico di dimensione m

n numero di elementi

• Significato: seleziona gli ultimi n elementi

• Esempio:

> x[1] 1.2 3.2 3.3 2.5 5.0 5.6> m<-length(x)> m[1] 6> tail(x,n=3)[1] 2.5 5.0 5.6

> x[1] 1 2 1 2 1 2> m<-length(x)> m[1] 6> tail(x,n=4)[1] 1 2 1 2

–86–

2.1.10 %o%

• Parametri:

• Significato: prodotto esterno

• Formula:

xi yj ∀i = 1, 2, . . . , n ∀j = 1, 2, . . . , m

• Esempio:

>x[1] 1 2 3 4>n<-length(x)>n[1] 4>y[1] 1.2 3.4>m<-length(y)>m[1] 2>x%o%y

[,1] [,2][1,] 1.2 3.4[2,] 2.4 6.8[3,] 3.6 10.2[4,] 4.8 13.6

>x[1] 3 4 7>n<-length(x)>n[1] 3>y[1] 1.1 2.2 3.3>m<-length(y)>m[1] 3>x%o%y

[,1] [,2] [,3][1,] 3.3 6.6 9.9[2,] 4.4 8.8 13.2[3,] 7.7 15.4 23.1

–87–

2.2 Creazione di Matrici

2.2.1 matrix()

• Parametri:

x vettore numerico di dimensione n m

nrow numero n di righe

ncol numero m di colonne

byrow = T / F elementi disposti per riga o per colonna

dimnames etichette di riga e di colonna

• Esempio:

> n<-2> m<-3> x<-c(1,-0.2,3,1.1,-0.3,3.2)> A<-matrix(x,nrow=n,ncol=m,byrow=T)> A

[,1] [,2] [,3][1,] 1.0 -0.2 3.0[2,] 1.1 -0.3 3.2

> n<-3> m<-2> x<-c(1,-0.2,3,4,5.6,6.7)> A<-matrix(x,nrow=n,ncol=m,byrow=F)> A

[,1] [,2][1,] 1.0 4.0[2,] -0.2 5.6[3,] 3.0 6.7

> n<-2> m<-3> x<-0> A<-matrix(x,nrow=n,ncol=m)> A

[,1] [,2] [,3][1,] 0 0 0[2,] 0 0 0

> n<-2> m<-3> x<-1> A<-matrix(x,nrow=n,ncol=m)> A

[,1] [,2] [,3][1,] 1 1 1[2,] 1 1 1

–88–

> n<-3> m<-3> x<-1:9> riga<-c("r1","r2","r3")> colonna<-c("c1","c2","c3")> A<-matrix(x,nrow=n,ncol=m,byrow=F,dimnames=list(riga,colonna))> A

c1 c2 c3r1 1 4 7r2 2 5 8r3 3 6 9

2.2.2 dim()

• Parametri:

x vettore numerico di dimensione nm

• Esempio:

> n<-3> m<-3> x<-1:9> dim(x)<-c(n,m)> x

[,1] [,2] [,3][1,] 1 4 7[2,] 2 5 8[3,] 3 6 9

> n<-1> m<-5> x<-1:5> dim(x)<-c(n,m)> x

[,1] [,2] [,3] [,4] [,5][1,] 1 2 3 4 5

2.2.3 [ ]

• Parametri:

A matrice di dimensione n×m

• Significato: estrazione di elementi da una matrice

• Esempio:

–89–

> Ac1 c2 c3

r1 1 4 7r2 2 5 8r3 3 6 8> n<-3> m<-3> # elemento di posto (2,3)> A[2,3][1] 8> # prima riga> A[1,]c1 c2 c31 4 7

> A["r1",]c1 c2 c31 4 7

> # terza colonna> A[,3]r1 r2 r37 8 8

> A[,"c3"]r1 r2 r37 8 8

> # prima e seconda riga> A[c(1,2),]

c1 c2 c3r1 1 4 7r2 2 5 8> A[c("r1","r2"),]

c1 c2 c3r1 1 4 7r2 2 5 8> # seconda e terza colonna> A[,c(2,3)]

c2 c3r1 4 7r2 5 8r3 6 8> A[,c("c2","c3")]

c2 c3r1 4 7r2 5 8r3 6 8> # tutte le righe eccetto la prima> A[-1,]

c1 c2 c3r2 2 5 8r3 3 6 8> # tutte le colonne eccetto la terza

–90–

> A[,-3]c1 c2

r1 1 4r2 2 5r3 3 6> # tutte le righe che presentano un> # valore maggiore di 4.1 nella colonna 2> A[A[,"c2"]>4.1,]

c1 c2 c3r2 2 5 8r3 3 6 8

2.2.4 head()

• Parametri:

x matrice di dimensione k ×m

n numero di righe

• Significato: seleziona le prime n righe

• Esempio:

> x[,1] [,2] [,3]

[1,] 1 4 7[2,] 2 5 8[3,] 3 6 9> k<-3> m<-3> head(x,n=2)

[,1] [,2] [,3][1,] 1 4 7[2,] 2 5 8

> x[,1] [,2] [,3]

[1,] 1 2 3[2,] 4 5 6[3,] 7 8 9> k<-3> m<-3> head(x,n=2)

[,1] [,2] [,3][1,] 1 2 3[2,] 4 5 6

–91–

2.2.5 tail()

• Parametri:

x matrice di dimensione k ×m

n numero di righe

• Significato: seleziona le ultime n righe

• Esempio:

> x[,1] [,2] [,3]

[1,] 1 4 7[2,] 2 5 8[3,] 3 6 9> k<-3> m<-3> tail(x,n=2)

[,1] [,2] [,3][2,] 2 5 8[3,] 3 6 9

> x[,1] [,2] [,3]

[1,] 1 2 3[2,] 4 5 6[3,] 7 8 9> k<-3> m<-3> tail(x,n=2)

[,1] [,2] [,3][2,] 4 5 6[3,] 7 8 9

2.2.6 length()

• Parametri:

• Significato: numero di elementi

• Formula:n m

• Esempio:

–92–

> A[,1] [,2] [,3]

[1,] 1 4 7[2,] 2 5 8[3,] 3 6 9> n<-3> m<-3> n*m[1] 9> length(A)[1] 9

> A[,1] [,2]

[1,] 1.2 2.3[2,] 4.5 3.1> n<-2> m<-2> n*m[1] 4> length(A)[1] 4

2.2.7 cbind()

• Parametri:

B matrice di dimensione n× k

• Significato: unisce due matrici accostandole per colonna

• Esempio:

> A[,1]

[1,] 9.9[2,] 1.0[3,] 12.0> B

[,1][1,] 1[2,] 2[3,] 3> n<-3> m<-1> k<-1> cbind(A,B)

[,1] [,2]

–93–

[1,] 9.9 1[2,] 1.0 2[3,] 12.0 3

2.2.8 rbind()

• Parametri:

B matrice di dimensione k ×m

• Significato: unisce due matrici accostandole per riga

• Esempio:

> A[,1] [,2] [,3]

[1,] 9.9 1 12> B

[,1] [,2] [,3][1,] 1 2 3> n<-1> m<-3> k<-1> rbind(A,B)

[,1] [,2] [,3][1,] 9.9 1 12[2,] 1.0 2 3

2.2.9 toeplitz()

• Parametri:

• Significato: matrice simmetrica di Toeplitz di dimensione n× n

• Esempio:

> x[1] 1 2 3> n<-length(x)> n[1] 3> toeplitz(x)

[,1] [,2] [,3][1,] 1 2 3[2,] 2 1 2

–94–

2.3 Operazioni sulle Matrici

[3,] 3 2 1

> # matrice di Toeplitz di dimensione d x d> # sulle autocorrelazioni di ordine d-1 di una serie storica> x[1] -2.05 -1.04 0.92 -0.67 0.82 0.09 -0.64 0.21 0.02 1.83> d<-3> rho<-as.vector(acf(x,lag=d-1,plot=F)[[1]])> rho<-round(rho,4)> rho[1] 1.0000 -0.0077 -0.0541> toeplitz(rho)

[,1] [,2] [,3][1,] 1.0000 -0.0077 -0.0541[2,] -0.0077 1.0000 -0.0077[3,] -0.0541 -0.0077 1.0000

2.3.1 det()

• Parametri:

A matrice di dimensione n× n

• Significato: determinante

• Formula:det(A)

• Esempio:

> A[,1] [,2]

[1,] 1.0 -0.2[2,] 4.0 5.6> n<-2> det(A)[1] 6.4

> A[,1] [,2] [,3]

[1,] 1.2 6.5 2.3[2,] 2.3 7.6 4.5[3,] 4.5 1.1 6.7> n<-3> det(A)[1] 13.783

–95–

2.3.2 determinant()

• Parametri:

logarithm = T / F logaritmo naturale del modulo del determi-nante

• Significato: determinante

• Output:

modulus modulo

sign segno

• Formula:

logarithm = T

moduluslog (|det(A)|)

signsign (det(A))

logarithm = F

modulus|det(A)|

signsign (det(A))

• Esempio:

> A[,1] [,2]

[1,] 1.0 -0.2[2,] 4.0 5.6> n<-2> abs(det(A))[1] 6.4> determinant(A,logarithm=F)$modulus[1] 6.4attr(,"logarithm")[1] FALSE> sign(det(A))[1] 1> determinant(A,logarithm=F)$sign[1] 1

–96–

2.3.3 as.vector()

• Parametri:

• Significato: trasforma la matrice in vettore di dimensione nm seguendol’ordine delle colonne

• Esempio:

> A[,1] [,2] [,3]

[1,] 1 4 7[2,] 2 5 8[3,] 3 6 9> n<-3> m<-3> as.vector(A)[1] 1 2 3 4 5 6 7 8 9

> A[,1] [,2]

[1,] 1.2 6.5[2,] 2.3 7.6> n<-2> m<-2> as.vector(A)[1] 1.2 2.3 6.5 7.6

2.3.4 norm()

• Parametri:

type = o / i / F / m massima somma assoluta di colonna, mas-sima somma assoluta di riga, norma di Frobenius, massimo valoreassoluto

• Significato: norma

• Formula:

type = o

| aij |

)∀j = 1, 2, . . . , m

type = i

–97–

m∑j=1

| aij |

∀i = 1, 2, . . . , n

type = F

n∑i=1

m∑j=1

type = m

max ( | aij |) ∀i = 1, 2, . . . , n ∀j = 1, 2, . . . , m

• Esempio:

> n<-2> m<-2> x<-c(1.2,3.4,0.2,-1.2)> A<-Matrix(x,nrow=n,ncol=m,byrow=F)> A2 x 2 Matrix of class ’dgeMatrix’

[,1] [,2][1,] 1.2 0.2[2,] 3.4 -1.2> sqrt(1.2**2+0.2**2+3.4**2+(-1.2)**2)[1] 3.805260> norm(A,type="F")[1] 3.805260> max(abs(1.2),abs(0.2),abs(3.4),abs(-1.2))[1] 3.4> norm(A,type="m")[1] 3.4

• Osservazioni: E’ necessario installare la libreria Matrix.

2.3.5 solve()

• Parametri:

A matrice invertibile di dimensione n× n

• Significato: matrice inversa

• Formula:A−1 A−1 B

–98–

• Esempio:

> A[,1] [,2]

[1,] 1.0 4.0[2,] -0.2 5.6> n<-2> invA<-solve(A)> round(A%*%invA,1)

[,1] [,2][1,] 1 0[2,] 0 1> round(invA%*%A,1)

[,1] [,2][1,] 1 0[2,] 0 1

> A[,1] [,2]

[1,] 1.0 4.0[2,] -0.2 5.6> B[1] 11 -2> n<-2> k<-1> solve(A,B)[1] 10.87500 0.03125> solve(A)%*%B

[,1][1,] 10.87500[2,] 0.03125

2.3.6 eigen()

• Parametri:

A matrice simmetrica di dimensione n× n

• Significato: autovalori ed autovettori

• Output:

values la diagonale della matrice D degli autovalori di dimensionen× n

vectors matrice ortogonale Γ degli autovettori di dimensione n× n

• Formula:A = Γ D ΓT

–99–

dove ΓT Γ = In = Γ ΓT e D = diag(λ1, λ2, . . . , λn)

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.2 3.0 5.6[2,] 3.0 4.0 6.7[3,] 5.6 6.7 9.8> n<-3> # A simmetrica> D<-round(diag(eigen(A)$values),2)> D

[,1] [,2] [,3][1,] 16.77 0.00 0.0[2,] 0.00 -0.17 0.0[3,] 0.00 0.00 -1.6> GAMMA<-round(eigen(A)$vectors,4)> GAMMA

[,1] [,2] [,3][1,] -0.3768 0.3676 0.8503[2,] -0.4981 -0.8543 0.1486[3,] -0.7810 0.3675 -0.5049> GAMMA%*%D%*%t(GAMMA)

[,1] [,2] [,3][1,] 1.2 3.0 5.6[2,] 3.0 4.0 6.7[3,] 5.6 6.7 9.8> # A = GAMMA%*%D%*%t(GAMMA)

2.3.7 crossprod()

• Parametri:

• Significato: prodotto scalare

• Formula:AT A AT B

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.2 3.0 5.6

–100–

[2,] 3.0 4.0 6.7[3,] 5.6 6.7 9.8> n<-3> m<-3> t(A)%*%A

[,1] [,2] [,3][1,] 41.80 53.12 81.70[2,] 53.12 69.89 109.26[3,] 81.70 109.26 172.29> crossprod(A)

[,1] [,2] [,3][1,] 41.80 53.12 81.70[2,] 53.12 69.89 109.26[3,] 81.70 109.26 172.29

> A[,1] [,2] [,3]

[1,] 1.2 3.0 5.6[2,] 3.0 4.0 6.7[3,] 5.6 6.7 9.8> B

[,1] [,2][1,] 11.0 4.1[2,] -2.0 5.0[3,] 3.4 7.0> n<-3> m<-3> k<-2> t(A)%*%B

[,1] [,2][1,] 26.24 59.12[2,] 47.78 79.20[3,] 81.52 125.06> crossprod(A,B)

[,1] [,2][1,] 26.24 59.12[2,] 47.78 79.20[3,] 81.52 125.06

2.3.8 % ∗%

• Parametri:

B matrice di dimensione m× k

• Significato: prodotto scalare

–101–

• Formula:A B

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> B

[,1] [,2][1,] 11.0 4.1[2,] -2.0 5.0[3,] 3.4 7.0> n<-3> m<-3> k<-2> A%*%B

[,1] [,2][1,] 36.66 93.40[2,] -10.00 34.18[3,] 58.20 135.30

2.3.9 kronecker()

• Parametri:

B matrice di dimensione h× k

• Significato: prodotto di Kronecker

• Formula:

A ⊗ B =

a1, 1 B · · · a1, m B...

......

an, 1 B · · · an, m B

• Esempio:

> A[,1]

[1,] 1[2,] 2[3,] 3> B

[,1] [,2] [,3][1,] 7 8 9> n<-3

–102–

> m<-1> h<-1> k<-3> kronecker(A,B)

[,1] [,2] [,3][1,] 7 8 9[2,] 14 16 18[3,] 21 24 27

2.3.10 diag()

• Parametri:

h valore naturale

• Significato: estrae gli elementi diagonali o crea una matrice diagonale

• Esempio:

> A[,1] [,2] [,3]

[1,] 1 4 7[2,] 2 5 8[3,] 3 6 9> n<-3> diag(A)[1] 1 5 9

> x<-1:3> diag(x)

[,1] [,2] [,3][1,] 1 0 0[2,] 0 2 0[3,] 0 0 3

> h<-2> diag(h)

[,1] [,2][1,] 1 0[2,] 0 1

2.3.11 t()

• Parametri:

–103–

• Significato: trasposta

• Formula:AT

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.20 1.0 4.60[2,] 3.40 2.0 7.80[3,] 4.23 3.4 9.88> n<-3> m<-3> t(A)

[,1] [,2] [,3][1,] 1.2 3.4 4.23[2,] 1.0 2.0 3.40[3,] 4.6 7.8 9.88

2.3.12 aperm()

• Parametri:

• Significato: trasposta

• Formula:AT

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.20 1.0 4.60[2,] 3.40 2.0 7.80[3,] 4.23 3.4 9.88> n<-3> m<-3> aperm(A)

[,1] [,2] [,3][1,] 1.2 3.4 4.23[2,] 1.0 2.0 3.40[3,] 4.6 7.8 9.88

–104–

2.3.13 dim()

• Parametri:

• Significato: numero di righe e di colonne

• Formula:n m

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> dim(A)[1] 3 3

> A[,1] [,2]

[1,] 1.2 6.5[2,] 2.3 7.6> n<-2> m<-2> dim(A)[1] 2 2

2.3.14 nrow()

• Parametri:

• Significato: numero di righe

• Formula:n

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> nrow(A)[1] 3

–105–

> A[,1] [,2]

[1,] 1.2 6.5[2,] 2.3 7.6> nrow(A)[1] 2

2.3.15 NROW()

• Parametri:

• Significato: numero di righe

• Formula:n

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> NROW(A)[1] 3

> A[,1] [,2]

[1,] 1.2 6.5[2,] 2.3 7.6> NROW(A)[1] 2

2.3.16 ncol()

• Parametri:

• Significato: numero di colonne

• Formula:m

• Esempio:

–106–

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> ncol(A)[1] 3

2.3.17 NCOL()

• Parametri:

• Significato: numero di colonne

• Formula:m

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> NCOL(A)[1] 3

2.3.18 rowSums()

• Parametri:

• Significato: somme di riga

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> rowSums(A)[1] 14.9 6.4 22.8

–107–

2.3.19 rowMeans()

• Parametri:

• Significato: medie di riga

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> rowMeans(A)[1] 4.966667 2.133333 7.600000

2.3.20 colSums()

• Parametri:

• Significato: somme di colonna

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> colSums(A)[1] 3.8 17.4 22.9

2.3.21 colMeans()

• Parametri:

• Significato: medie di colonna

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0

–108–

[3,] 3.0 7.8 12.0> colMeans(A)[1] 1.266667 5.800000 7.633333

2.3.22 rowsum()

• Parametri:

• Significato: applica la funzione somma ad ogni gruppo di elementi inciascuna colonna di A definito dai livelli di f

• Esempio:

> A[,1] [,2]

[1,] 1.2 4.2[2,] 2.3 2.1[3,] 4.3 2.2[4,] 4.2 4.0> n<-4> m<-2> f[1] 1 2 1 2Levels: 1 2> k<-nlevels(f)> k[1] 2> rowsum(A,f)

[,1] [,2]1 5.5 6.42 6.5 6.1

2.3.23 apply()

• Parametri:

MARGIN = 1 /, 2 riga o colonna

FUN funzione scelta

• Significato: applica FUN ad ogni riga o colonna della matrice A

• Esempio:

–109–

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> n<-3> m<-3> # medie di riga> apply(A,MARGIN=1,FUN=mean)[1] 4.966667 2.133333 7.600000> # medie di colonna> apply(A,MARGIN=2,FUN=mean)[1] 1.266667 5.800000 7.633333

2.3.24 solveCrossprod()

• Parametri:

A matrice di dimensione n× k di rango k = min (n, k)

method = qr / chol / solve algoritmo risolutivo

• Significato: inversa del prodotto incrociato di X

• Formula:(AT A)−1

• Esempio:

> A[,1] [,2]

[1,] 11.0 4.1[2,] -2.0 5.0[3,] 3.4 7.0> n<-3> k<-2> round(solve(t(A)%*%A),3)

[,1] [,2][1,] 0.010 -0.007[2,] -0.007 0.015> round(solveCrossprod(A,method="qr"),3)

[,1] [,2][1,] 0.010 -0.007[2,] -0.007 0.015

• Osservazioni: E’ necessario installare la libreria strucchange.

–110–

2.3.25 model.matrix()

• Parametri:

modello modello di regressione lineare con k−1 variabili esplicativeed n unita

• Significato: matrice del modello di regressione di dimensione n× k

• Formula:X

• Esempio:

> modello<-lm(y~x1+x2+x3)> k<-4> n<-length(y)> X<-model.matrix(modello)

2.3.26 kappa()

• Parametri:

• Significato: Condition Number come rapporto tra il maggiore ed ilminore valore singolare non nullo della matrice diagonale D

• Formula:max (diag(D))min (diag(D))

dove A = U D V T e UT U = Ik = V T V = V V T

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.2 3.0 5.6[2,] 3.0 4.0 6.7[3,] 5.6 6.7 9.8> n<-3> m<-3> D<-diag(svd(A)$d)> max(diag(D))/min(diag(D))[1] 96.86229> kappa(A,exact=T)[1] 96.86229

• Osservazioni: Calcola Condition Number con la funzione svd().

–111–

2.3.27 lower.tri()

• Parametri:

• Significato: matrice triangolare inferiore di dimensione n × n a partiredalla matrice A

• Esempio:

> A[,1] [,2] [,3]

[1,] 1 4 7[2,] 2 5 8[3,] 3 6 9> n<-3> A[t(lower.tri(A,diag=F))]<-0> A

[,1] [,2] [,3][1,] 1 0 0[2,] 2 5 0[3,] 3 6 9

2.3.28 upper.tri()

• Parametri:

• Significato: matrice triangolare superiore di dimensione n × n a partiredalla matrice A

• Esempio:

> A[,1] [,2] [,3]

[1,] 1 4 7[2,] 2 5 8[3,] 3 6 9> n<-3> A[lower.tri(A,diag=F)]<-0> A

[,1] [,2] [,3][1,] 1 4 7[2,] 0 5 8[3,] 0 0 9

–112–

2.3.29 backsolve()

• Parametri:

r matrice A dei coefficienti di dimensione n× n

x matrice b dei termini noti di dimensione 1× n

upper.tri = T / F sistema triangolare superiore od inferiore

transpose = T / F matrice dei coefficienti trasposta

• Significato: soluzione di un sistema triangolare di dimensione n× n

• Formula:

upper.tri = T AND transpose = T

a1,1 0 . . . . . . 0 b1

a1,2 a2,2 0 . . . 0 b2

......

. . .. . .

......

a1,n−1 a2,n−1 . . .. . . 0

...a1,n a2,n . . . . . . an,n bn

upper.tri = T AND transpose = F

a1,1 a1,2 . . . a1,n−1 a1,n b1

0 a2,2 . . . a2,n−1 a2,n b2

... 0. . .

......

.... . .

. . ....

...0 0 · · · 0 an,n bn

upper.tri = F AND transpose = T

a1,1 a2,1 . . . an−1,1 an,1 b1

0 a2,2 . . . an−1,2 an,2 b2

... 0. . .

......

.... . .

. . ....

...0 0 · · · 0 an,n bn

upper.tri = F AND transpose = F

a1,1 0 . . . . . . 0 b1

a2,1 a2,2 0 . . . 0 b2

......

. . .. . .

......

an−1,1 an−1,2 . . .. . . 0

...an,1 an,2 . . . . . . an,n bn

–113–

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> b[1] 8 4 2> backsolve(r=A,x=b,upper.tri=T,transpose=T)[1] 8.000000 -5.000000 -6.016667

2.3.30 forwardsolve()

• Parametri:

r matrice A dei coefficienti di dimensione n× n

x matrice b dei termini noti di dimensione 1× n

upper.tri = T / F sistema triangolare superiore od inferiore

transpose = T / F matrice dei coefficienti trasposta

• Significato: soluzione di un sistema triangolare di dimensione n× n

• Formula:

upper.tri = T AND transpose = T

a1,1 0 . . . . . . 0 b1

a1,2 a2,2 0 . . . 0 b2

......

. . .. . .

......

a1,n−1 a2,n−1 . . .. . . 0

...a1,n a2,n . . . . . . an,n bn

upper.tri = T AND transpose = F

a1,1 a1,2 . . . a1,n−1 a1,n b1

0 a2,2 . . . a2,n−1 a2,n b2

... 0. . .

......

.... . .

. . ....

...0 0 · · · 0 an,n bn

upper.tri = F AND transpose = T

–114–

2.4 Fattorizzazioni di Matrici

a1,1 a2,1 . . . an−1,1 an,1 b1

0 a2,2 . . . an−1,2 an,2 b2

... 0. . .

......

.... . .

. . ....

...0 0 · · · 0 an,n bn

upper.tri = F AND transpose = F

a1,1 0 . . . . . . 0 b1

a2,1 a2,2 0 . . . 0 b2

......

. . .. . .

......

an−1,1 an−1,2 . . .. . . 0

...an,1 an,2 . . . . . . an,n bn

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9 [2,] -0.2 5.6 1.0 [3,] 3.0 7.8 12.0> b[1] 8 4 2> forwardsolve(r=A,x=b,upper.tri=T,transpose=T)[1] 8.000000 -5.000000 -6.016667

2.4.1 svd()

• Parametri:

• Significato: fattorizzazione ai valori singolari

• Output:

d diagonale della matrice D dei valori singolari di dimensione m×m

u matrice U di dimensione n×m

v matrice ortogonale V di dimensione m×m

• Formula:A = U D V T

dove UT U = Im = V T V = V V T

–115–

• Esempio:

> A[,1] [,2]

[1,] 11.0 4.1[2,] -2.0 5.0[3,] 3.4 7.0> n<-3> m<-2> D<-diag(svd(A)$d)> D

[,1] [,2][1,] 13.29929 0.000000[2,] 0.00000 7.106262> U<-svd(A)$u> U

[,1] [,2][1,] -0.8566792 0.3981302[2,] -0.0882360 -0.7395948[3,] -0.5082471 -0.5426710> t(U)%*%U

[,1] [,2][1,] 1.000000e+00 -3.762182e-17[2,] -3.762182e-17 1.000000e+00> V<-svd(A)$v> V

[,1] [,2][1,] -0.8252352 0.5647893[2,] -0.5647893 -0.8252352> t(V)%*%V

[,1] [,2][1,] 1.000000e+00 -2.222614e-18[2,] -2.222614e-18 1.000000e+00> V%*%t(V)

[,1] [,2][1,] 1.000000e+00 2.222614e-18[2,] 2.222614e-18 1.000000e+00> U%*%D%*%t(V)

[,1] [,2][1,] 11.0 4.1[2,] -2.0 5.0[3,] 3.4 7.0> # A = U%*%D%*%t(V)

2.4.2 qr.Q()

• Parametri:

A matrice di rango pieno di dimensione n×m

–116–

• Significato: matrice Q di dimensione n×m

• Formula:A = QR

dove QT Q = Im

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> n<-3> m<-3> Q<-qr.Q(qr(A))> round(Q,5)

[,1] [,2] [,3][1,] -0.31560 -0.22021 -0.92299[2,] 0.06312 -0.97542 0.21114[3,] -0.94679 0.00838 0.32174> round(t(Q)%*%Q,1)

[,1] [,2] [,3][1,] 1 0 0[2,] 0 1 0[3,] 0 0 1

2.4.3 qr.R()

• Parametri:

A matrice di rango pieno di dimensione n×m

• Significato: matrice R triangolare superiore di dimensione m×m

• Formula:A = QR

• Esempio:

> A[,1] [,2] [,3]

[1,] 1.0 4.0 9.9[2,] -0.2 5.6 1.0[3,] 3.0 7.8 12.0> n<-3> m<-3

–117–

> R<-qr.R(qr(A))> round(R,5)

[,1] [,2] [,3][1,] -3.1686 -8.29389 -14.42279[2,] 0.0000 -6.27784 -3.05501[3,] 0.0000 0.00000 -5.06557

2.4.4 chol()

• Parametri:

A matrice simmetrica definita positiva di dimensione n× n

• Significato: matrice P triangolare superiore di dimensione n× n

• Formula:A = PT P

• Esempio:

> A[,1] [,2]

[1,] 5 1[2,] 1 3> n<-2> # A simmetrica definita positiva> P<-chol(A)> P

[,1] [,2][1,] 2.236068 0.4472136[2,] 0.000000 1.6733201> t(P)%*%P

[,1] [,2][1,] 5 1[2,] 1 3> # A = t(P)%*%P

2.4.5 chol2inv()

• Parametri:

P matrice P triangolare superiore di dimensione n× n

• Significato: funzione inversa di chol()

• Formula:(PT P )−1

• Esempio:

–118–

> A[,1] [,2]

[1,] 5 1[2,] 1 3> n<-2> # A simmetrica definita positiva> P<-chol(A)> P

[,1] [,2][1,] 2.236068 0.4472136[2,] 0.000000 1.6733201> t(P)%*%P

[,1] [,2][1,] 5 1[2,] 1 3> # A = t(P)%*%P> chol2inv(P)

[,1] [,2][1,] 0.21428571 -0.07142857[2,] -0.07142857 0.35714286> solve(A)

[,1] [,2][1,] 0.21428571 -0.07142857[2,] -0.07142857 0.35714286> # solve(A) = chol2inv(P)

2.4.6 ginv()

• Parametri:

• Significato: inversa generalizzata Ag di dimensione m× n

• Formula:A = A Ag A

• Esempio:

> A[,1] [,2]

[1,] 1.0 4.0[2,] -0.2 5.6[3,] 3.0 7.8> n<-3> m<-2> Ag<-ginv(A)> round(ginv(A),5)

[,1] [,2] [,3]

–119–

[1,] 0.00778 -0.42662 0.30230[2,] 0.03508 0.15537 -0.00133> A%*%Ag%*%A

[,1] [,2][1,] 1.0 4.0[2,] -0.2 5.6[3,] 3.0 7.8> # A = A%*%Ag%*%A

–120–

Parte II

Statistica Descrittiva

–121–

CAPITOLO 3

Funzioni statistiche

3.1.1 length()

• Parametri:

• Significato: dimensione

• Formula:n

• Esempio:

> x[1] 1.2 2.3 4.5 6.5> n<-length(x)> n[1] 4

> x[1] 1.2 3.4 4.5 6.4 4.0 3.0 4.0> n<-length(x)> n[1] 7

3.1.2 min()

• Parametri:

–123–

• Significato: minimo

• Formula:x(1)

• Esempio:

> x[1] 1.2 2.3 4.5 6.5> n<-length(x)> n[1] 4> min(x)[1] 1.2

> x[1] 1.1 3.4 4.5 6.4 4.0 3.0 4.0> n<-length(x)> n[1] 7> min(x)[1] 1.1

3.1.3 max()

• Parametri:

• Significato: massimo

• Formula:x(n)

• Esempio:

> x[1] 1.2 2.3 4.5 6.5> n<-length(x)> n[1] 4> max(x)[1] 6.5

> x[1] 1.1 3.4 4.5 6.4 4.0 3.0 4.0> n<-length(x)> n[1] 7> max(x)[1] 6.4

–124–

3.2 Indici di posizione

3.2.1 mean()

• Parametri:

trim il valore di α con 0 ≤ α ≤ 0.5 che rappresenta la percentualedi osservazioni piu basse e piu alte che deve essere esclusa dal calcolodella media aritmetica

• Significato: media α-trimmed

• Formula:

x se α = 0

1n−2 bn αc

∑n−bn αci=bn αc+1 x(i) se 0 < α < 0.5

Q0.5(x) se α = 0.5

• Esempio:

> x[1] 1.00 1.20 3.40 0.80 10.20 9.30 7.34> n<-length(x)> n[1] 7> sum(x)/n[1] 4.748571> alpha<-0> mean(x,trim=alpha)[1] 4.748571

> x[1] 1.00 1.20 3.40 0.80 10.20 9.30 7.34> x<-sort(x,decreasing=F)> # x ordinato in maniera crescente> n<-length(x)> n[1] 7> alpha<-0.26> sum(x[(floor(n*alpha)+1):(n-floor(n*alpha))])/(n-2*floor(n*alpha))[1] 4.448> mean(x,trim=alpha)[1] 4.448

–125–

[1] 1.00 1.20 3.40 0.80 10.20 9.30 7.34> median(x)[1] 3.4> alpha<-0.5> mean(x,trim=alpha)[1] 3.4

3.2.2 mean.default()

• Parametri:

trim il valore di α con 0 ≤ α ≤ 0.5 che rappresenta la percentualedi osservazioni piu basse e piu alte che deve essere esclusa dal calcolodella media aritmetica

• Significato: media α-trimmed

• Formula:

x se α = 0

1n−2 bn αc

∑n−bn αci=bn αc+1 x(i) se 0 < α < 0.5

Q0.5(x) se α = 0.5

• Esempio:

> x[1] 1.00 1.20 3.40 0.80 10.20 9.30 7.34> n<-length(x)> n[1] 7> sum(x)/n[1] 4.748571> alpha<-0> mean.default(x,trim=alpha)[1] 4.748571

> x[1] 1.00 1.20 3.40 0.80 10.20 9.30 7.34> x<-sort(x,decreasing=F)> # x ordinato in maniera crescente> n<-length(x)> n[1] 7> alpha<-0.26> sum(x[(floor(n*alpha)+1):(n-floor(n*alpha))])/(n-2*floor(n*alpha))

–126–

3.2 Indici di posizione

[1] 4.448> mean.default(x,trim=alpha)[1] 4.448

> x[1] 1.00 1.20 3.40 0.80 10.20 9.30 7.34> median(x)[1] 3.4> alpha<-0.5> mean.default(x,trim=alpha)[1] 3.4

3.2.3 weighted.mean()

• Parametri:

w vettore numerico di pesi di dimensione n

• Significato: media pesata

• Formula:

xW =∑n

i=1 xi wi∑nj=1 wj

• Esempio:

> x[1] 3.7 3.3 3.5 2.8> w[1] 5 5 4 1> sum(w)[1] 15> sum(x*w)/sum(w)[1] 3.453333> weighted.mean(x,w)[1] 3.453333

> x[1] 3.7 3.3 3.5 2.8> w[1] 0.16 0.34 0.28 0.22> sum(w)[1] 1> sum(x*w)[1] 3.325> weighted.mean(x,w)[1] 3.325

–127–

3.2.4 mean.a()

• Parametri:

x vettore numerico di elementi non nulli di dimensione n

• Significato: media armonica

• Formula:

n∑i=1

• Esempio:

> x[1] 1.2 2.3 4.5 6.5> n<-length(x)> n[1] 4> # sono 4 valori non nulli> 1/mean(1/x)[1] 2.432817> mean.a(x)[1] 2.432817

> x[1] 1.2 3.4 4.5 6.4 4.0 3.0 4.0> n<-length(x)> n[1] 7> # sono 7 valori non nulli> 1/mean(1/x)[1] 2.992404> mean.a(x)[1] 2.992404

• Osservazioni: E’ necessario installare la libreria labstatR.

3.2.5 mean.g()

• Parametri:

x vettore numerico di elementi positivi di dimensione n

• Significato: media geometrica

• Formula:

)1 / n

–128–

3.3 Indici di variabilita

• Esempio:

> x[1] 1.2 2.3 4.5 6.5> n<-length(x)> n[1] 4> # sono 4 valori positivi> prod(x)**(1/n)[1] 2.997497> mean.g(x)[1] 2.997497

> x[1] 1.2 3.4 4.5 6.4 4.0 3.0 4.0> n<-length(x)> n[1] 7> # sono 7 valori positivi> prod(x)**(1/n)[1] 3.434782> mean.g(x)[1] 3.434782

3.3.1 range()

• Parametri:

• Significato: campo di variazione

• Formula:x(1) x(n)

• Esempio:

> x[1] 1.0 1.2 3.4 0.8> n<-length(x)> n[1] 4> min(x)[1] 0.8> max(x)

–129–

[1] 3.4> range(x)[1] 0.8 3.4

> x[1] 1.2 3.4 4.5 6.4 4.0 3.0 4.0> n<-length(x)> n[1] 7> min(x)[1] 1.2> max(x)[1] 6.4> range(x)[1] 1.2 6.4

3.3.2 quantile()

• Parametri:

probs valore p di probabilita

• Significato: quantile al (100 p)%

• Formula:

Qp(x) =

x(α) se α e intero

x(bαc) + (α− bαc)(x(bαc+1) − x(bαc)

)se α non e intero

dove α = 1 + (n− 1) p

• Esempio:

> x[1] 1.20 2.30 0.11 4.50> x<-sort(x,decreasing=F)> # x ordinato in maniera crescente> n<-length(x)> n[1] 4> p<-1/3> alpha<-1+(n-1)*p> alpha[1] 2> # alpha intero

–130–

> x[alpha][1] 1.2> quantile(x,probs=1/3)33.33333%

> x[1] 1.20 2.30 0.11 4.50> x<-sort(x,decreasing=F)> # x ordinato in maniera crescente> n<-length(x)> n[1] 4> p<-0.34> alpha<-1+(n-1)*p> alpha[1] 2.02> # alpha non intero> x[floor(alpha)]+(alpha-floor(alpha))*(x[floor(alpha)+1]-x[floor(alpha)])[1] 1.222> quantile(x,probs=p)34%

3.3.3 median()

• Parametri:

• Significato: mediana

• Formula:

Q0.5(x) =

x( n+1

2 ) se n e dispari

0.5(x( n

2 ) + x( n2 +1)

)se n e pari

• Esempio:

> x[1] 1.20 0.34 5.60 7.40 2.10 3.20 9.87 10.10> x<-sort(x,decreasing=F)> # x ordinato in maniera crescente> x[1] 0.34 1.20 2.10 3.20 5.60 7.40 9.87 10.10> n<-length(x)> n

–131–

[1] 8> # n pari> 0.5*(x[n/2]+x[n/2+1])[1] 4.4> median(x)[1] 4.4

> x[1] 1.20 0.34 5.60 7.40 2.10 3.20 9.87> x<-sort(x,decreasing=F)> # x ordinato in maniera crescente> n<-length(x)> n[1] 7> # n dispari> x[(n+1)/2][1] 3.2> median(x)[1] 3.2

3.3.4 IQR()

• Parametri:

• Significato: range interquartile

• Formula:IQR(x) = Q0.75(x)−Q0.25(x)

• Esempio:

> x[1] 1.00 1.20 3.40 0.80 10.20 9.30 7.34> n<-length(x)> n[1] 7> Q1<-quantile(x,probs=0.25)> Q3<-quantile(x,probs=0.75)> Q3-Q175%

7.22> IQR(x)[1] 7.22

> x[1] 1.2 3.4 4.5 6.4 4.0 3.0 4.0> n<-length(x)

–132–

> n[1] 7> Q1<-quantile(x,probs=0.25)> Q3<-quantile(x,probs=0.75)> Q3-Q175%1.05> IQR(x)[1] 1.05

• Osservazioni: Calcola i quartili con la funzione quantile().

3.3.5 mad()

• Parametri:

center parametro rispetto al quale si effettuano gli scarticonstant il valore della costante const

• Significato: deviazione assoluta dalla mediana

• Formula:const · Q0.5 ( |x− center(x) | )

• Esempio:

> x[1] 3 5 11 14 15 20 22> n<-length(x)> n[1] 7> const<-1.23> const*median(abs(x-median(x)))[1] 7.38> mad(x,center=median(x),constant=const)[1] 7.38

> x[1] 3 5 11 14 15 20 22> n<-length(x)> n[1] 7> const<-1.23> const*median(abs(x-mean(x)))[1] 8.785714> mad(x,center=mean(x),constant=const)[1] 8.785714

–133–

3.3.6 cv()

• Parametri:

• Significato: coefficiente di variazione

• Formula:cvx =

• Esempio:

> x[1] 1.0 1.2 3.4 0.8> n<-length(x)> n[1] 4> sigmax<-sqrt(sigma2(x))> sigmax/abs(mean(x))[1] 0.6555055> cv(x)[1] 0.6555055

> x[1] 1.2 3.4 4.5 6.4 4.0 3.0 4.0> n<-length(x)> n[1] 7> sigmax<-sqrt(sigma2(x))> sigmax/abs(mean(x))[1] 0.3852385> cv(x)[1] 0.3852385

3.3.7 sigma2()

• Parametri:

• Significato: varianza della popolazione

• Formula:

σ2x =

n∑i=1

(xi − x)2

• Esempio:

–134–

> x[1] 1.0 2.3 4.5 6.7 8.9> n<-length(x)> n[1] 5> mean((x-mean(x))**2)[1] 8.2256> sigma2(x)[1] 8.2256

> x[1] 1.2 2.3 4.5 6.5> n<-length(x)> n[1] 4> mean((x-mean(x))**2)[1] 4.166875> sigma2(x)[1] 4.166875

3.3.8 var()

• Parametri:

• Significato: varianza campionaria

• Formula:

1n− 1

n∑i=1

(xi − x)2

• Esempio:

> x[1] 1.0 2.3 4.5 6.7 8.9> n<-length(x)> n[1] 5> sum((x-mean(x))**2)/(n-1)[1] 10.282> var(x)[1] 10.282

> x[1] 1.0 2.3 4.5 6.7 8.9> y

–135–

[1] 1 3 4 6 8> n<-length(x)> n[1] 5> sum((x-mean(x))**2)/(n-1)[1] 10.282> sum((y-mean(y))**2)/(n-1)[1] 7.3> sum((x-mean(x))*(y-mean(y)))/(n-1)[1] 8.585> z<-cbind(x,y)> var(z)

x yx 10.282 8.585y 8.585 7.300

3.3.9 Var()

• Parametri:

x matrice di dimensione n×k le cui colonne corrispondono ai vettorinumerici x1, x2, . . . , xk

diag = T / F varianze campionarie o matrice di covarianza

• Significato: matrice di covarianza

• Formula:

diag = T

n− 1(xi − xi)T (xi − xi) ∀ i, = 1, 2, . . . , k

diag = F

sxixj=

1n− 1

(xi − xi)T (xj − xj) ∀ i, j = 1, 2, . . . , k

• Esempio:

> k<-2> x1[1] 0.5 -0.1 0.2 -1.9 1.9 0.7 -1.5 0.0 -2.5 1.6 0.2 -0.3> x2[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 6.5 2.0 1.2 3.4> n<-length(x1)> n[1] 12> var(x1)

–136–

[1] 1.734545> var(x2)[1] 12.89295> cov(x1,x2)[1] -1.070909> x<-cbind(x1,x2)> Var(x,diag=T)

x1 x21.734545 12.892955> Var(x,diag=F)

x1 x2x1 1.734545 -1.070909x2 -1.070909 12.892955

> k<-2> x1[1] 1.2 3.4 5.6 7.5 7.7> x2[1] 1.1 2.3 4.4 5.1 2.9> n<-length(x1)> n[1] 5> var(x1)[1] 7.717> var(x2)[1] 2.588> cov(x1,x2)[1] 3.524> x<-cbind(x1,x2)> Var(x,diag=T)

x1 x27.717 2.588> Var(x,diag=F)

x1 x2x1 7.717 3.524x2 3.524 2.588

• Osservazioni: E’ necessario installare la libreria car.

3.3.10 sd()

• Parametri:

• Significato: deviazione standard

• Formula:

n− 1

n∑i=1

(xi − x)2)1 / 2

–137–

• Esempio:

> x[1] 1.0 2.3 4.5 6.7 8.9> n<-length(x)> n[1] 5> sqrt(sum((x-mean(x))**2)/(n-1))[1] 3.206556> sd(x)[1] 3.206556

> x[1] 1 3 4 6> n<-length(x)> n[1] 4> sqrt(sum((x-mean(x))**2)/(n-1))[1] 2.081666> sd(x)[1] 2.081666

3.3.11 COV()

• Parametri:

• Significato: covarianza nella popolazione

• Formula:

σxy =1n

xi yi − n x y

• Esempio:

> x[1] 1.0 2.3 4.5 6.7 8.9> y[1] 1 3 4 6 8> n<-length(x)> n[1] 5> mean((x-mean(x))*(y-mean(y)))[1] 6.868> COV(x,y)[1] 6.868

–138–

> x[1] 1.2 3.4 5.6 7.5 7.7 7.8> y[1] 1.1 2.3 4.4 5.1 2.9 8.7> n<-length(x)> n[1] 6> mean((x-mean(x))*(y-mean(y)))[1] 4.442222> COV(x,y)[1] 4.442222

3.3.12 cov()

• Parametri:

• Significato: covarianza campionaria

• Formula:

sxy =1

n− 1

xi yi − n x y

• Esempio:

> x[1] 1.0 2.3 4.5 6.7 8.9> y[1] 1 3 4 6 8> n<-length(x)> n[1] 5> sum((x-mean(x))*(y-mean(y)))/(n-1)[1] 8.585> cov(x,y)[1] 8.585

> x[1] 1.0 2.3 4.5 6.7 8.9> y[1] 1 3 4 6 8> n<-length(x)> n[1] 5> sum((x-mean(x))**2)/(n-1)

–139–

[1] 10.282> sum((y-mean(y))**2)/(n-1)[1] 7.3> sum((x-mean(x))*(y-mean(y)))/(n-1)[1] 8.585> z<-cbind(x,y)> cov(z)

x yx 10.282 8.585y 8.585 7.300

3.3.13 cov.wt()

• Parametri:

x matrice di dimensione n×k le cui colonne corrispondono ai vettorinumerici x1, x2, . . . , xk

wt vettore numerico w di pesi a somma unitaria di dimensione n

center = T / F parametro di posizione

• Significato: matrice di covarianza e correlazione pesata

• Output:

cov matrice di covarianza pesata

center media pesata

n.obs dimensione campionaria

wt vettore numerico w

cor matrice di correlazione pesata

• Formula:

center = T

sxixj= (1−wT w)−1 (xi−xi W )T diag(w) (xj−xj W ) ∀ i, j = 1, 2, . . . , k

center = F

sxixj= (1− wT w)−1 xT

i diag(w) xj ∀ i, j = 1, 2, . . . , k

center

center = T

xi W = xTi w ∀ i = 1, 2, . . . , k

center = F

–140–

center = T

center = F

center = T

center = F

center = T

rxixj=

(xi − xi W )T diag(w) (xj − xj W )

((xi − xi W )T diag(w) (xi − xi W ))1 / 2 ((xj − xj W )T diag(w) (xj − xj W ))1 / 2

∀ i, j = 1, 2, . . . , k

center = F

rxixj =xT

i diag(w) xj(xT

i diag(w) xi

)1 / 2 (xT

j diag(w) xj

)1 / 2

∀ i, j = 1, 2, . . . , k

• Esempio:

> k<-2> x1[1] 1.2 3.4 5.6 7.5 7.7 7.8> x2[1] 1.1 2.3 4.4 5.1 2.9 8.7> n<-length(x1)> n[1] 6> prova<-abs(rnorm(6))> pesi<-prova/sum(prova)> sum(pesi)[1] 1> x1W<-sum(x1*pesi)> x2W<-sum(x2*pesi)> as.numeric(1/(1-t(pesi)%*%pesi)*t(x1-x1W)%*%diag(pesi)%*%(x1-x1W))[1] 8.002225> as.numeric(1/(1-t(pesi)%*%pesi)*t(x2-x2W)%*%diag(pesi)%*%(x2-x2W))[1] 7.783884

–141–

> as.numeric(1/(1-t(pesi)%*%pesi)*t(x1-x1W)%*%diag(pesi)%*%(x2-x2W))[1] 6.56038> z<-cbind(x1,x2)> cov.wt(z,wt=pesi,center=T,cor=T)$cov

x1 x2x1 8.002225 6.560380x2 6.560380 7.783884> as.numeric(1/(1-t(pesi)%*%pesi)*t(x1)%*%diag(pesi)%*%x1)[1] 37.23229> as.numeric(1/(1-t(pesi)%*%pesi)*t(x2)%*%diag(pesi)%*%x2)[1] 26.33601> as.numeric(1/(1-t(pesi)%*%pesi)*t(x1)%*%diag(pesi)%*%x2)[1] 29.84728> cov.wt(z,wt=pesi,center=F,cor=T)$cov

x1 x2x1 37.23229 29.84728x2 29.84728 26.33601> c(x1W,x2W)[1] 4.854610 3.867553> cov.wt(z,wt=pesi,center=T,cor=T)$center

x1 x24.854610 3.867553> cov.wt(z,wt=pesi,center=F,cor=T)$center[1] 0> n[1] 6> cov.wt(z,wt=pesi,center=T,cor=T)$n.obs[1] 6> cov.wt(z,wt=pesi,center=F,cor=T)$n.obs[1] 6> pesi[1] 0.245156 0.16509 0.25690 0.09221 0.08210 0.15856> cov.wt(z,wt=pesi,center=T,cor=T)$wt[1] 0.245156 0.16509 0.25690 0.09221 0.08210 0.15856> cov.wt(z,wt=pesi,center=F,cor=T)$wt[1] 0.245156 0.16509 0.25690 0.09221 0.08210 0.15856> covx1x2<-1/(1-t(pesi)%*%pesi)*t(x1-x1W)%*%diag(pesi)%*%(x2-x2W)> covx1x2<-as.numeric(covx1x2)> covx1x2[1] 6.56038> sx1<-sqrt(1/(1-t(pesi)%*%pesi)*t(x1-x1W)%*%diag(pesi)%*%(x1-x1W))> sx1<-as.numeric(sx1)> sx1[1] 2.828820> sx2<-sqrt(1/(1-t(pesi)%*%pesi)*t(x2-x2W)%*%diag(pesi)%*%(x2-x2W))> sx2<-as.numeric(sx2)> sx2[1] 2.789961> rx1x2<-covx1x2/(sx1*sx2)> rx1x2

–142–

3.4 Indici di forma

[1] 0.831238> cov.wt(z,wt=pesi,center=T,cor=T)$cor

[,1] [,2][1,] 1.000000 0.831238[2,] 0.831238 1.000000> covx1x2<-as.numeric(1/(1-t(pesi)%*%pesi)*t(x1)%*%diag(pesi)%*%x2)> covx1x2[1] 29.84728> sx1<-sqrt(as.numeric(1/(1-t(pesi)%*%pesi)*t(x1)%*%diag(pesi)%*%x1))> sx1[1] 6.101826> sx2<-sqrt(as.numeric(1/(1-t(pesi)%*%pesi)*t(x2)%*%diag(pesi)%*%x2))> sx2[1] 5.131862> rx1x2<-covx1x2/(sx1*sx2)> rx1x2[1] 0.953169> cov.wt(z,wt=pesi,center=F,cor=T)$cor

[,1] [,2][1,] 1.000000 0.953169[2,] 0.953169 1.000000

3.4 Indici di forma

3.4.1 skew()

• Parametri:

• Significato: asimmetria nella popolazione

• Formula:1n

n∑i=1

(xi − x

• Esempio:

> x[1] 1.0 2.3 4.5 6.7 8.9> n<-length(x)> n[1] 5> sigmax<-sqrt(sigma2(x))> mean((x-mean(x))**3/sigmax**3)[1] 0.1701538> skew(x)[1] 0.1701538

–143–

> x[1] 1.2 3.4 5.2 3.4 4.4> n<-length(x)> n[1] 5> sigmax<-sqrt(sigma2(x))> mean((x-mean(x))**3/sigmax**3)[1] -0.5845336> skew(x)[1] -0.5845336

3.4.2 skewness()

• Parametri:

• Significato: asimmetria campionaria

• Formula:1n

n∑i=1

(xi − x

• Esempio:

> x[1] 1.0 2.3 4.5 6.7 8.9> n<-length(x)> n[1] 5> mean((x-mean(x))**3/sd(x)**3)[1] 0.1217521> skewness(x)[1] 0.1217521

> x[1] 1.2 3.4 5.2 3.4 4.4> n<-length(x)> n[1] 5> mean((x-mean(x))**3/sd(x)**3)[1] -0.4182582> skewness(x)[1] -0.4182582

• Osservazioni: E’ necessario installare la libreria fBasics.

–144–

3.4 Indici di forma

3.4.3 kurt()

• Parametri:

• Significato: kurtosi nella popolazione

• Formula:1n

n∑i=1

(xi − x

• Esempio:

> x[1] 1.0 2.3 4.5 6.7 8.9> n<-length(x)> n[1] 5> sigmax<-sqrt(sigma2(x))> mean((x-mean(x))**4/sigmax**4)[1] 1.623612> kurt(x)[1] 1.623612

> x[1] 1.2 3.4 5.2 3.4 4.4> n<-length(x)> n[1] 5> sigmax<-sqrt(sigma2(x))> mean((x-mean(x))**4/sigmax**4)[1] 2.312941> kurt(x)[1] 2.312941

3.4.4 kurtosis()

• Parametri:

• Significato: kurtosi campionaria

• Formula:1n

n∑i=1

(xi − x

• Esempio:

–145–

> x[1] 1.0 2.3 4.5 6.7 8.9> n<-length(x)> n[1] 5> mean((x-mean(x))**4/sd(x)**4)-3[1] -1.960889> kurtosis(x)[1] -1.960889

> x[1] 1.2 3.4 5.2 3.4 4.4> n<-length(x)> n[1] 5> mean((x-mean(x))**4/sd(x)**4)-3[1] -1.519718> kurtosis(x)[1] -1.519718

• Osservazioni: E’ necessario installare la libreria fBasics.

3.5 Indici di correlazione

3.5.1 cor()

• Parametri:

method = pearson / spearman / kendall coefficiente

• Significato: coefficiente di correlazione lineare

• Formula:

method = pearson

rxy =∑n

i=1 xi yi − n x y(∑ni=1 (xi − x)2

)1 / 2 (∑ni=1 (yi − y)2

)1 / 2

method = spearman

rSxy =

∑ni=1 ai bi − n a b(∑n

i=1 (ai − a)2)1 / 2 (∑n

i=1 (bi − b)2)1 / 2

dove a, b sono i ranghi di x ed y rispettivamente.

–146–

method = kendall

rKxy =

2∑n−1

∑nj=i+1 sign((xj − xi) (yj − yi))(

n (n− 1)−∑g

i=1 ti (ti − 1))1 / 2 (

n (n− 1)−∑h

j=1 uj (uj − 1))1 / 2

dove t, u sono i ties di x ed y rispettivamente.

• Esempio:

> # coefficiente di pearson> x[1] 1 2 2 4 3 3> y[1] 6 6 7 7 7 9> cov(x,y)/(sd(x)*sd(y))[1] 0.522233> cor(x,y,method="pearson")[1] 0.522233

> # coefficiente di pearson> x[1] 1.0 2.0 3.0 5.6 7.6 2.3 1.0> y[1] 1.2 2.2 3.0 15.6 71.6 2.2 1.2> cov(x,y)/(sd(x)*sd(y))[1] 0.8790885> cor(x,y,method="pearson")[1] 0.8790885

> # coefficiente di spearman> x[1] 1 2 2 4 3 3> y[1] 6 6 7 7 7 9> a<-rank(x)> b<-rank(y)> cov(a,b)/(sd(a)*sd(b))[1] 0.6833149> cor(x,y,method="spearman")[1] 0.6833149

> # coefficiente di spearman> x[1] 1.0 2.0 3.0 5.6 7.6 2.3 1.0> y[1] 1.2 2.2 3.0 15.6 71.6 2.2 1.2> a<-rank(x)> b<-rank(y)

–147–

> cov(a,b)/(sd(a)*sd(b))[1] 0.9908674> cor(a,b,method="pearson")[1] 0.9908674

> # coefficiente di kendall> x[1] 1 2 2 4 3 3> y[1] 6 6 7 7 7 9> n<-length(x)> n[1] 6> matrice<-matrix(0,nrow=n-1,ncol=n,byrow=F)> for(i in 1:(n-1))+ for(j in (i+1):n)+ matrice[i,j]<-sign((x[j]-x[i])*(y[j]-y[i]))> num<-2*sum(matrice)> table(rank(x))

1 2.5 4.5 61 2 2 1

> g<-2> t1<-2> t2<-2> t<-c(t1,t2)> t[1] 2 2> table(rank(y))

1.5 4 62 3 1

> h<-2> u1<-2> u2<-3> u<-c(u1,u2)> u[1] 2 3> den<-(n*(n-1)-sum(t*(t-1)))**0.5*(n*(n-1)-sum(u*(u-1)))**0.5> num/den[1] 0.5853694> cor(x,y,method="kendall")[1] 0.5853694

> # coefficiente di kendall> x[1] 1.0 2.0 3.0 5.6 7.6 2.3 1.0> y[1] 1.2 2.2 3.0 15.6 71.6 2.2 1.2> n<-length(x)

–148–

> n[1] 7> matrice<-matrix(0,nrow=n-1,ncol=n,byrow=F)> for(i in 1:(n-1))+ for(j in (i+1):n)+ matrice[i,j]<-sign((x[j]-x[i])*(y[j]-y[i]))> num<-2*sum(matrice)> table(rank(x))

1.5 3 4 5 6 72 1 1 1 1 1

> g<-1> t<-2> table(rank(y))

1.5 3.5 5 6 72 2 1 1 1

> h<-2> u1<-2> u2<-2> u<-c(u1,u2)> u[1] 2 2> den<-(n*(n-1)-sum(t*(t-1)))**0.5*(n*(n-1)-sum(u*(u-1)))**0.5> num/den[1] 0.9746794> cor(x,y,method="kendall")[1] 0.9746794

3.5.2 cancor()

• Parametri:

xcenter = T / F parametro di posizione

ycenter = T / F parametro di posizione

• Significato: coefficiente di correlazione lineare

• Output:

cor coefficiente di correlazione lineare

xcenter parametro di locazione

ycenter parametro di locazione

• Formula:

–149–

ycenter = T ycenter = F

xcenter = TPn

i=1 (xi−x) (yi−y)(Pni=1 (xi−x)2

)1 / 2 (Pni=1 (yi−y)2

)1 / 2

Pni=1 (xi−x) yi(Pn

i=1 (xi−x)2)1 / 2 (Pn

i=1 y2i

)1 / 2

xcenter = FPn

i=1 xi (yi−y)(Pni=1 x2

)1 / 2 (Pni=1 (yi−y)2

)1 / 2

Pni=1 xi yi(Pn

i=1 x2i

)1 / 2 (Pni=1 y2

)1 / 2

ycenter = T ycenter = Fxcenter = T x xxcenter = F 0 0

xcenter

ycenter

ycenter = T ycenter = Fxcenter = T y 0xcenter = F y 0

• Esempio:

> x[1] 1.0 2.0 3.0 5.6 7.6 2.3 1.0> y[1] 1.2 2.2 3.0 15.6 71.6 2.2 1.2> n<-length(x)> n[1] 7> sum((x-mean(x))*(y-mean(y)))/(sum((x-mean(x))**2)**0.5*sum((y-mean(y))**2)**0.5)[1] 0.8790885> cancor(x,y,xcenter=T,ycenter=T)$cor[1] 0.8790885> mean(x)[1] 3.214286> cancor(x,y,xcenter=T,ycenter=T)$xcenter[1] 3.214286> mean(y)[1] 13.85714> cancor(x,y,xcenter=T,ycenter=T)$ycenter[1] 13.85714> sum((x-mean(x))*y)/(sum((x-mean(x))**2)**0.5*sum(y**2)**0.5)[1] 0.7616638> cancor(x,y,xcenter=T,ycenter=F)$cor[1] 0.7616638> mean(x)[1] 3.214286> cancor(x,y,xcenter=T,ycenter=F)$xcenter[1] 3.214286> cancor(x,y,xcenter=T,ycenter=F)$ycenter[1] 0

–150–

> sum(x*(y-mean(y)))/(sum(x**2)**0.5*sum((y-mean(y))**2)**0.5)[1] 0.5118281> cancor(x,y,xcenter=F,ycenter=T)$cor[1] 0.5118281> cancor(x,y,xcenter=F,ycenter=T)$xcenter[1] 0> mean(y)[1] 13.85714> cancor(x,y,xcenter=F,ycenter=T)$ycenter[1] 13.85714> sum(x*y)/(sum(x**2)**0.5*sum(y**2)**0.5)[1] 0.8494115> cancor(x,y,xcenter=F,ycenter=F)$cor[1] 0.8494115> cancor(x,y,xcenter=F,ycenter=F)$xcenter[1] 0> cancor(x,y,xcenter=F,ycenter=F)$ycenter[1] 0

3.5.3 partial.cor()

• Parametri:

X matrice di dimensione n×k le cui colonne corrispondono ai vettorinumerici x1, x2, . . . , xk

• Significato: correlazione parziale

• Formula:

rxixj |· = −R−1

i, j√R−1

i, iR−1j, j

∀i 6= j = 1, 2, . . . , k

dove R e la matrice di correlazione tra i k vettori

• Esempio:

> n<-nrow(X)> k<-ncol(X)> R<-cor(X)> partial.cor(X)

• Osservazioni: E’ necessario installare la libreria Rcmdr.

–151–

3.5.4 corr()

• Parametri:

d matrice di dimensione n×2 le cui colonne corrispondono ai vettorinumerici x ed y

w vettore numerico w di pesi a somma unitaria di dimensione n

• Significato: correlazione pesata

• Formula:

rxy =(x− xW )T diag(w) (y − yW )

((x− xW )T diag(w) (x− xW ))1 / 2 ((y − yW )T diag(w) (y − yW ))1 / 2

• Esempio:

> matrice<-as.matrix(cbind(x,y))> n<-nrow(matrice)> prova<-abs(rnorm(n))> pesi<-prova/sum(prova)> sum(pesi)[1] 1> corr(d=matrice,w=pesi)

• Osservazioni: E’ necessario installare la libreria boot.

3.5.5 acf()

• Parametri:

lag.max il valore d del ritardo

type = correlation / covariance / partial tipo di legame

demean = T / F centratura

• Significato: autocovarianza o autocorrelazione

• Output:

acf autocovarianza o autocorrelazione

n.used dimensione campionaria

lag il valore d del ritardo

• Formula:

type = correlation demean = T

–152–

ρ(k) =∑n−k

t=1 (xt − x) (xt+k − x)∑nt=1 (xt − x)2

∀ k = 0, 1, 2, . . . , d

type = correlation demean = F

ρ(k) =∑n−k

t=1 xt xt+k∑nt=1 x2

∀ k = 0, 1, 2, . . . , d

type = covariance demean = T

γ(k) =1n

n−k∑t=1

(xt − x) (xt+k − x) ∀ k = 0, 1, 2, . . . , d

type = covariance demean = F

γ(k) =1n

n−k∑t=1

xt xt+k ∀ k = 0, 1, 2, . . . , d

type = partial

π(k) =

∣∣∣∣∣∣∣∣∣∣∣

1 ρ(1) ρ(2) . . . ρ(1)ρ(1) 1 ρ(1) . . . ρ(2)ρ(2) ρ(1) 1 . . . ρ(3)...

......

ρ(k − 1) ρ(k − 2) ρ(k − 3) . . . ρ(k)

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

1 ρ(1) ρ(2) . . . ρ(k − 1)ρ(1) 1 ρ(1) . . . ρ(k − 2)ρ(2) ρ(1) 1 . . . ρ(k − 3)...

......

ρ(k − 1) ρ(k − 2) ρ(k − 3) . . . 1

∣∣∣∣∣∣∣∣∣∣∣

∀ k = 1, 2, . . . , d

n.usedn

• Esempio:

> x[1] 1 2 7 3 5 2 0 1 4 5> n<-length(x)> n[1] 10> d<-4> sum((x[1:(n-d)]-mean(x))*(x[(d+1):n]-mean(x)))/((n-1)*var(x))[1] -0.3409091> acf(x,lag=d,type="correlation",demean=T,plot=F)$acf[d+1]

–153–

[1] -0.3409091

> x[1] 1 2 7 3 5 2 0 1 4 5> n<-length(x)> n[1] 10> d<-4> sum((x[1:(n-d)]-mean(x))*(x[(d+1):n]-mean(x)))/n[1] -1.5> acf(x,lag=d,type="covariance",demean=T,plot=F)$acf[d+1][1] -1.5

3.5.6 pacf()

• Parametri:

lag.max il valore d del ritardo

demean = T / F centratura

• Significato: autocorrelazione parziale

• Output:

acf autocorrelazione parziale

n.used dimensione campionaria

• Formula:

π(k) =

∣∣∣∣∣∣∣∣∣∣∣

1 ρ(1) ρ(2) . . . ρ(1)ρ(1) 1 ρ(1) . . . ρ(2)ρ(2) ρ(1) 1 . . . ρ(3)...

......

ρ(k − 1) ρ(k − 2) ρ(k − 3) . . . ρ(k)

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

1 ρ(1) ρ(2) . . . ρ(k − 1)ρ(1) 1 ρ(1) . . . ρ(k − 2)ρ(2) ρ(1) 1 . . . ρ(k − 3)...

......

ρ(k − 1) ρ(k − 2) ρ(k − 3) . . . 1

∣∣∣∣∣∣∣∣∣∣∣

∀ k = 1, 2, . . . , d

demean = T

ρ(k) =∑n−k

t=1 (xt − x) (xt+k − x)∑nt=1 (xt − x)2

∀ k = 0, 1, 2, . . . , d

–154–

3.6 Indici di connessione e di dipendenza in media

demean = F

ρ(k) =∑n−k

t=1 xt xt+k∑nt=1 x2

∀ k = 0, 1, 2, . . . , d

n.usedn

• Esempio:

> pacf(x,lag=d,demean=T,plot=F)

3.6 Indici di connessione e di dipendenza in me-dia

3.6.1 eta()

• Parametri:

• Significato: η2y|f

• Formula:

η2y|f =

∑kj=1 (yj − y)2 nj∑n

i=1 (yi − y)2

• Esempio:

> y[1] 1.0 1.2 2.1 3.4 5.4 5.6 7.2 3.2 3.0 1.0 2.3> f[1] a b c b a c a b b c aLevels: a b c> k<-nlevels(f)> k[1] 3> n<-length(f)> n[1] 11> table(f)fa b c4 4 3> n1<-4

–155–

> n2<-4> n3<-3> enne<-c(n1,n2,n3)> enne[1] 4 4 3> y1medio<-mean(y[f=="a"])> y2medio<-mean(y[f=="b"])> y3medio<-mean(y[f=="c"])> ymedio<-c(y1medio,y2medio,y3medio)> ymedio[1] 3.975 2.700 2.900> sum((ymedio-mean(y))**2*enne)/sum((y-mean(y))**2)[1] 0.08657807> eta(f,y)[1] 0.08657807

3.6.2 gini()

• Parametri:

• Significato: indici di concentrazione

• Output:

G indice di Gini

R rapporto di concentrazione di Gini

P proporzioni

Q somme cumulate

• Formula:

n− 1

n∑i=1

n−∑i

j=1 y(j)∑nj=1 yj

n− 1n

P0, i / n ∀ i = 1, 2, . . . , n

0,i∑

/ n∑j=1

yj ∀ i = 1, 2, . . . , n

• Esempio:

–156–

3.6 Indici di connessione e di dipendenza in media

> y<-c(1,1,1,4,4,5,7,10)> y<-sort(y)> n<-length(y)> G<-2/(n-1)*sum((1:n)/n-cumsum(y)/sum(y))> G[1] 0.4545455> gini(y,plot=F)$G[1] 0.4545455> R<-(n-1)/n*G> R[1] 0.3977273> gini(y,plot=F)$R[1] 0.3977273> P<-c(0,(1:n)/n)> P[1] 0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000> gini(y,plot=F)$P[1] 0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000> Q<-round(c(0,cumsum(y)/sum(y)),3)> Q[1] 0.000 0.030 0.061 0.091 0.212 0.333 0.485 0.697 1.000> round(gini(y,plot=F)$Q,3)[1] 0.000 0.030 0.061 0.091 0.212 0.333 0.485 0.697 1.000

3.6.3 chi2()

• Parametri:

f fattore a k livelli

g fattore a h livelli

• Significato: indice di connessione χ2

• Formula:

χ2 =χ2

χ2max

∑ki=1

∑hj=1

(nij−nij)2

n·· min(k − 1, h− 1)=

∑ki=1

∑hj=1

ni· n·j− 1

min(k − 1, h− 1)

dove nij = nij

ni· n·j∀ i = 1, 2, . . . , k ∀ j = 1, 2, . . . , h

n·· =∑k

∑hj=1 nij

• Esempio:

–157–

> f[1] a b c b a c a b b c aLevels: a b c> k<-nlevels(f)> k[1] 3> g[1] O P W P P O O W W P PLevels: O P W> h<-nlevels(g)> h[1] 3> table(f,g)

gf O P Wa 2 2 0b 0 2 2c 1 1 1

> sum(table(f,g))[1] 11> n..<-sum(table(f,g))> chi2(f,g)[1] 0.1777778

3.6.4 E()

• Parametri:

• Significato: indice di eterogeneita di Gini

• Formula:

k − 1

(1− 1

k∑i=1

• Esempio:

> f[1] a b c b a c a b b c aLevels: a b c> n<-length(f)> n[1] 11> k<-nlevels(f)> k[1] 3

–158–

3.7 Funzioni di sintesi

> table(f)fa b c4 4 3> n1<-4> n2<-4> n3<-3> enne<-c(n1,n2,n3)> enne[1] 4 4 3> k/(k-1)*(1-1/n**2*sum(enne**2))[1] 0.9917355> E(f)[1] 0.9917355

3.7.1 summary()

• Parametri:

• Significato: statistiche riassuntive

• Output:

[[1]] minimo

[[2]] primo quartile

[[3]] mediana

[[4]] media aritmetica

[[5]] terzo quartile

[[6]] massimo

• Formula:

[[1]]x(1)

[[2]]Q0.25(x)

[[3]]Q0.5(x)

[[4]]x

–159–

[[5]]Q0.75(x)

[[6]]x(n)

• Esempio:

> x[1] 1.0 2.3 5.0 6.7 8.0> min(x)[1] 1> summary(x)[[1]][1] 1> quantile(x,probs=0.25)25%2.3> summary(x)[[2]][1] 2.3> median(x)[1] 5> summary(x)[[3]][1] 5> mean(x)[1] 4.6> summary(x)[[4]][1] 4.6> quantile(x,probs=0.75)75%6.7> summary(x)[[5]][1] 6.7> max(x)[1] 8> summary(x)[[6]][1] 8

• Osservazioni: Calcola i quartili con la funzione quantile().

3.7.2 fivenum()

• Parametri:

• Significato: Tukey’s five - number summary

• Output:

[1] minimo

–160–

[2] primo quartile

[3] mediana

[4] terzo quartile

[5] massimo

• Formula:

Q0.25(x) = Q0.5

(xi |xi≤Q0.5(x)

Q0.5(x)

Q0.75(x) = Q0.5

(xi |xi≥Q0.5(x)

• Esempio:

> x[1] 1.0 2.3 5.0 6.7 8.0> min(x)[1] 1> fivenum(x)[1][1] 1> median(x[x<=median(x)])[1] 2.3> fivenum(x)[2][1] 2.3> median(x)[1] 5> fivenum(x)[3][1] 5> median(x[x>=median(x)])[1] 6.7> fivenum(x)[4][1] 6.7> max(x)[1] 8> fivenum(x)[5][1] 8

–161–

3.7.3 basicStats()

• Parametri:

ci livello di confidenza 1− α

• Significato: statistiche riassuntive

• Output:

[,1][1] dimensione campionaria

[,1][2] numero di valori mancanti

[,1][3] minimo

[,1][4] massimo

[,1][5] primo quartile

[,1][6] terzo quartile

[,1][7] media aritmetica

[,1][8] mediana

[,1][9] somma

[,1][10] errore standard della media

[,1][11] estremo inferiore dell’intervallo di confidenza a livello 1−αper la media incognita

[,1][12] estremo superiore dell’intervallo di confidenza a livello 1−α per la media incognita

[,1][13] varianza campionaria

[,1][14] deviazione standard

[,1][15] indice di asimmetria

[,1][16] indice di kurtosi

• Formula:

[,1][1]n

[,1][2]# NA

[,1][3]x(1)

[,1][4]x(n)

[,1][5]Q0.25(x)

[,1][6]Q0.75(x)

–162–

[,1][7]x

[,1][8]Q0.5(x)

[,1][9]n∑

[,1][10]sx /

[,1][11]x− t1−α / 2, n−1 sx /

[,1][12]x + t1−α / 2, n−1 sx /

[,1][13]s2

[,1][14]sx

[,1][15]1n

n∑i=1

(xi − x

[,1][16]1n

n∑i=1

(xi − x

• Esempio:

> x[1] 1.0 2.3 5.0 6.7 8.0> length(x)[1] 5> basicStats(x)[,1][1][1] 5> sum(is.na(x))[1] 0> basicStats(x)[,1][2][1] 0> min(x)[1] 1> basicStats(x)[,1][3][1] 1> max(x)[1] 8> basicStats(x)[,1][4][1] 8

–163–

> quantile(x,probs=0.25)25%2.3> basicStats(x)[,1][5][1] 2.3> quantile(x,probs=0.75)75%6.7> basicStats(x)[,1][6][1] 6.7> mean(x)[1] 4.6> basicStats(x)[,1][7][1] 4.6> median(x)[1] 5> basicStats(x)[,1][8][1] 5> sum(x)[1] 23> basicStats(x)[,1][9][1] 23> sd(x)/sqrt(length(x))[1] 1.311106> basicStats(x)[,1][10][1] 1.311106> alpha<-0.05> mean(x)-qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x))[1] 0.959785> basicStats(x,ci=1-alpha)[,1][11][1] 0.959785> mean(x)+qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x))[1] 8.240215> basicStats(x,ci=1-alpha)[,1][12][1] 8.240215> var(x)[1] 8.595> basicStats(x)[,1][13][1] 8.595> sd(x)[1] 2.931723> basicStats(x)[,1][14][1] 2.931723> mean((x-mean(x))**3/sd(x)**3)[1] -0.08091067> basicStats(x)[,1][15][1] -0.08091067> mean((x-mean(x))**4/sd(x)**4)-3[1] -2.055005> basicStats(x)[,1][16]

–164–

[1] -2.055005

• Osservazioni 1: E’ necessario installare la libreria fBasics.

• Osservazioni 2: Calcola i quartili con la funzione quantile().

3.7.4 boxplot.stats()

• Parametri:

coef il valore del coefficiente positivo coef

• Significato: statistiche necessarie per il boxplot

• Output:

stats statistiche riassuntive

n dimensione del vettore x

conf intervallo di notch

out valori di x esterni all’intervallo tra i baffi

• Formula:

stats[1]

minxi∈x

(xi < Q0.25(x) AND xi ≥ max(x(1), Q0.25(x)− coef · IQR(x))

)stats[2]

Q0.25(x)

stats[3]Q0.5(x)

stats[4]Q0.75(x)

stats[5]

maxxi∈x

(xi > Q0.75(x) AND xi ≤ min(x(n), Q0.75(x) + coef · IQR(x))

confQ0.5(x)∓ 1.58 · IQR(x) /

xi < Q0.25(x)−coef · IQR(x) OR xi > Q0.75(x)+coef · IQR(x)

• Esempio:

–165–

> x<-c(1:100,1000)> fn<-fivenum(x)> coef<-1.2> min(x[x<fn[2] & x>=max(fn[1],fn[2]-coef*(fn[4]-fn[2]))])[1] 1> boxplot.stats(x,coef=1.2)$stats[1][1] 1> fn[2][1] 26> boxplot.stats(x,coef=1.2)$stats[2][1] 26> fn[3][1] 51> boxplot.stats(x,coef=1.2)$stats[3][1] 51> fn[4][1] 76> boxplot.stats(x,coef=1.2)$stats[4][1] 76> max(x[x>fn[4] & x<=min(fn[5],fn[4]+coef*(fn[4]-fn[2]))])[1] 100> boxplot.stats(x,coef=1.2)$stats[5][1] 100> length(x)[1] 101> boxplot.stats(x,coef=1.2)$n[1] 101> x[x<fn[2]-coef*(fn[4]-fn[2]) | x>fn[4]+coef*(fn[4]-fn[2])][1] 1000> boxplot.stats(x,coef=1.2)$out[1] 1000

• Osservazioni: Calcola i quartili con la funzione fivenum().

3.8 Funzioni di distribuzione di frequenza

3.8.1 tabulate()

• Parametri:

bin vettore di valori naturali di dimensione n

• Significato: distribuzione di frequenza per i valori naturali 1, 2, . . . , max(bin)

• Esempio:

> bin<-c(2,3,5)> n<-length(bin)> n

–166–

[1] 3> max(bin)[1] 5> tabulate(bin)[1] 0 1 1 0 1

> bin<-c(2,3,3,5)> n<-length(bin)> n[1] 4> max(bin)[1] 5> tabulate(bin)[1] 0 1 2 0 1

> bin<-c(-2,0,2,3,3,5)> n<-length(bin)> n[1] 6> max(bin)[1] 5> tabulate(bin)[1] 0 1 2 0 1

3.8.2 table()

• Parametri:

• Significato: distribuzione di frequenza

• Esempio:

> x[1] "a" "a" "b" "c" "a" "c"> table(x)xa b c3 1 2

> f[1] a b c b a c a b b c aLevels: a b c> g[1] A S A S S S A S S A ALevels: A S> table(x,y)

–167–

f A Sa 3 1b 0 4c 2 1

> x[1] 1 2 3 2 1 3 1 1 2 3> table(x)x1 2 34 3 3

3.8.3 unique()

• Parametri:

• Significato: valori distinti (supporto)

• Esempio:

> x[1] "a" "a" "b" "c" "a" "c"> unique(x)a b c> x<-c(1,2,3,2,1,3,1,1,2,3)> unique(x)[1] 1 2 3

3.8.4 hist()

• Parametri:

breaks estremi delle classi di ampiezza ai

right = T / F classi chiuse a destra(x(i), x(i+1)

]oppure a sini-

stra[x(i), x(i+1)

)• Significato: istogramma

• Output:

breaks estremi delle classi

counts frequenze assolute

density densita di frequenza

mids punti centrali delle classi

–168–

• Formula:

breaksx(i) ∀ i = 1, 2, . . . , m

countsni ∀ i = 1, 2, . . . , m− 1

densityni

n ai∀ i = 1, 2, . . . , m− 1

midsx(i) + x(i+1)

2∀ i = 1, 2, . . . , m− 1

• Esempio:

> y[1] 51.10 52.30 66.70 77.10 77.15 77.17> n<-length(y)> m<-4> x1<-50> x2<-65> x3<-70> x4<-85> x<-c(x1,x2,x3,x4)> a1<-65-50> a2<-70-65> a3<-85-70> a<-c(a1,a2,a3)> x[1] 50 65 70 85> hist(y,breaks=x,right=F,plot=F)$breaks[1] 50 65 70 85> count<-numeric(m-1)> count[1]<-sum(y>=x1 & y<x2)> count[2]<-sum(y>=x2 & y<x3)> count[3]<-sum(y>=x3 & y<x4)> count[1] 2 1 3> hist(y,breaks=x,right=F,plot=F)$counts[1] 2 1 3> count/(n*a)[1] 0.02222222 0.03333333 0.03333333> hist(y,breaks=x,right=F,plot=F)$density[1] 0.02222222 0.03333333 0.03333333> (x[-m]+x[-1])/2[1] 57.5 67.5 77.5> hist(y,breaks=x,right=F,plot=F)$mids[1] 57.5 67.5 77.5

–169–

3.8.5 cut()

• Parametri:

breaks estremi delle classi di ampiezza ai

right = T / F classi chiuse a destra(x(i), x(i+1)

]oppure a sini-

stra[x(i), x(i+1)

)labels etichette

• Significato: raggruppamento in classi

• Esempio:

> y[1] 1.20 2.30 4.50 5.40 3.40 5.40 2.30 2.10 1.23 4.30 0.30> cut(y,breaks=c(0,2,4,6),right=T,labels=c("0-2","2-4","4-6"))[1] 0-2 2-4 4-6 4-6 2-4 4-6 2-4 2-4 0-2 4-6 0-2Levels: 0-2 2-4 4-6

> y[1] 1.0 2.0 3.0 4.0 5.6 7.4 1.2 4.0 4.4> cut(y,breaks=c(0,4,8),right=T,labels=c("0-4","4-8"))[1] 0-4 0-4 0-4 0-4 4-8 4-8 0-4 0-4 4-8Levels: 0-4 4-8

3.9 Funzioni di adattamento normale

3.9.1 qqnorm()

• Parametri:

y vettore numerico di dimensione n ordinato in maniera crescente

• Significato: quantili teorici e campionari per QQ-Norm

• Output:

x quantili teorici

y quantili campionari

• Formula:

x Φ−1 ((8 i− 3) / (8 n + 2)) ∀ i = 1, 2, . . . , n se n ≤ 10

Φ−1 ((i− 1 / 2) / n) ∀ i = 1, 2, . . . , n se n > 10

–170–

3.9 Funzioni di adattamento normale

yy(i) ∀ i = 1, 2, . . . , n

• Esempio:

> y[1] 3.2 1.4 4.2 12.4 13.4 17.3 18.1> y<-sort(y)> y[1] 1.4 3.2 4.2 12.4 13.4 17.3 18.1> n<-length(y)> n[1] 7> # 7 <= 10> qqnorm(y)$y[1] 1.4 3.2 4.2 12.4 13.4 17.3 18.1> qnorm((8*(1:n)-3)/(8*n+2))[1] -1.36448875 -0.75829256 -0.35293399 0.00000000 0.35293399[6] 0.75829256 1.36448875> qqnorm(y)$x[1] -1.36448875 -0.75829256 -0.35293399 0.00000000 0.35293399[6] 0.75829256 1.36448875

> y[1] 1.20 2.30 4.30 -3.40 4.20 5.43 3.20 2.20 0.20 2.10[11] 2.20 3.10> y<-sort(y)> y[1] -3.40 0.20 1.20 2.10 2.20 2.20 2.30 3.10 3.20 4.20[11] 4.30 5.43> n<-length(y)> n[1] 12> # 12 > 10> qqnorm(y)$y[1] -3.40 0.20 1.20 2.10 2.20 2.20 2.30 3.10 3.20 4.20[11] 4.30 5.43> qnorm(((1:n)-1/2)/n)[1] -1.73166440 -1.15034938 -0.81221780 -0.54852228 -0.31863936[6] -0.10463346 0.10463346 0.31863936 0.54852228 0.81221780[11] 1.15034938 1.73166440> qqnorm(y)$x[1] -1.73166440 -1.15034938 -0.81221780 -0.54852228 -0.31863936[6] -0.10463346 0.10463346 0.31863936 0.54852228 0.81221780[11] 1.15034938 1.73166440

3.9.2 ppoints()

• Parametri:

–171–

n valore naturale

• Significato: rapporti per QQ-Norm

• Formula:(8 i− 3) / (8 n + 2) ∀ i = 1, 2, . . . , n se n ≤ 10

(i− 1 / 2) / n ∀ i = 1, 2, . . . , n se n > 10

• Esempio:

> n[1] 5> # 5 <= 10> (8*(1:n)-3)/(8*n+2)[1] 0.11904762 0.30952381 0.50000000 0.69047619 0.88095238> ppoints(n=5)[1] 0.11904762 0.30952381 0.50000000 0.69047619 0.88095238

> n[1] 12> # 12 > 10> ((1:n)-1/2)/n[1] 0.041666667 0.125000000 0.208333333 0.291666667 0.375000000[6] 0.458333333 0.541666667 0.625000000 0.708333333 0.791666667[11] 0.875000000 0.958333333> ppoints(n=12)[1] 0.041666667 0.125000000 0.208333333 0.291666667 0.375000000[6] 0.458333333 0.541666667 0.625000000 0.708333333 0.791666667[11] 0.875000000 0.958333333

3.10 Funzioni di distanza

3.10.1 mahalanobis()

• Parametri:

center parametro rispetto al quale si considerano gli scarti

A matrice invertibile di dimensione n× n

inverted = T / F matrice A oppure A−1

• Significato: formula di Mahalanobis

• Formula:{(x− center(x))T · A · (x− center(x)) se inverted = T(x− center(x))T · A−1 · (x− center(x)) se inverted = F

–172–

3.10 Funzioni di distanza

• Esempio:

> x[1] 1 2 3 4 5 6 7 8 9 10> A<-matrix(rnorm(100),nrow=10,ncol=10,byrow=F)> det(A)!=0[1] TRUE> as.numeric(t(x-mean(x))%*%A%*%(x-mean(x)))[1] 127.1101> mahalanobis(x,center=mean(x),A,inverted=T)[1] 127.1101

> x[1] 1 2 3 4 5 6 7 8 9 10> A<-matrix(rnorm(100),nrow=10,ncol=10,byrow=F)> as.numeric(t(x-median(x))%*%solve(A)%*%(x-median(x)))[1] 42.86114> mahalanobis(x,center=median(x),A,inverted=F)[1] 42.86114

3.10.2 dist()

• Parametri:

x matrice di dimensione k × n le cui righe corrispondono ai vettorinumerici x1, x2, . . . , xk

method = euclidean / minkowski formula per la distanza

p valore p di potenza per la distanza di minkowski

• Significato: matrice di distanza per i k vettori di dimensione n

• Formula:

method = euclidean

(xih − xjh)2)1 / 2

∀ i, j = 1, 2, . . . , k

method = minkowski

|xih − xjh|p)1 / p

∀ i, j = 1, 2, . . . , k

• Esempio:

–173–

> x<-matrix(rnorm(30),nrow=3,ncol=10,byrow=F)> k<-3> n<-10> dist(x,method="euclidean",upper=T,diag=T)> dist(x,method="minkowski",p=1,upper=T,diag=T)

3.11 Funzioni logistiche

3.11.1 logit()

• Parametri:

x vettore numerico di probabilita di dimensione n

• Significato: trasformazione logit

• Formula:

1− xi

)∀ i = 1, 2, . . . , n

• Esempio:

> x[1] 0.20 0.34 0.54 0.65 0.11> log(x/(1-x))[1] -1.3862944 -0.6632942 0.1603427 0.6190392 -2.0907411> logit(x)[1] -1.3862944 -0.6632942 0.1603427 0.6190392 -2.0907411

> x[1] 0.23 0.45 0.67 0.89 0.11> log(x/(1-x))[1] -1.2083112 -0.2006707 0.7081851 2.0907411 -2.0907411> logit(x)[1] -1.2083112 -0.2006707 0.7081851 2.0907411 -2.0907411

• Osservazioni: E’ necessario installare la libreria faraway.

3.11.2 ilogit()

• Parametri:

• Significato: trasformazione logit inversa

• Formula:exi

1 + exi∀ i = 1, 2, . . . , n

–174–

3.11 Funzioni logistiche

• Esempio:

> x[1] 1 2 3 5 -6> exp(x)/(1+exp(x))[1] 0.731058579 0.880797078 0.952574127 0.993307149 0.002472623> ilogit(x)[1] 0.731058579 0.880797078 0.952574127 0.993307149 0.002472623

> x[1] 2.3 4.5 6.7 7.8 12.0> exp(x)/(1+exp(x))[1] 0.9088770 0.9890131 0.9987706 0.9995904 0.9999939> ilogit(x)[1] 0.9088770 0.9890131 0.9987706 0.9995904 0.9999939

• Osservazioni: E’ necessario installare la libreria faraway.

3.11.3 inv.logit()

• Parametri:

• Significato: trasformazione logit inversa

• Formula:exi

1 + exi∀ i = 1, 2, . . . , n

• Esempio:

> x[1] 1 2 3 5 -6> exp(x)/(1+exp(x))[1] 0.731058579 0.880797078 0.952574127 0.993307149 0.002472623> inv.logit(x)[1] 0.731058579 0.880797078 0.952574127 0.993307149 0.002472623

> x[1] 2.3 4.5 6.7 7.8 12.0> exp(x)/(1+exp(x))[1] 0.9088770 0.9890131 0.9987706 0.9995904 0.9999939> ilogit(x)[1] 0.9088770 0.9890131 0.9987706 0.9995904 0.9999939

–175–

3.12 Funzioni di distribuzione discrete

3.12.1 Bernoulli

pX(x) = px (1− p)1−x x = 0, 1, 0 < p < 1

µX = p

σ2X = p (1− p)

Oggetto Comando in RDensita dbinom(x, size= 1, prob= p)Ripartizione pbinom(x, size= 1, prob= p)Quantile al (100 α)% qbinom(α, size= 1, prob= p)Estrazione random rbinom(n, size= 1, prob= p)

3.12.2 Binomiale

pX(x) =(mx

)px (1− p)m−x x = 0, 1, 2, . . . , m, m ∈ N / {0}, 0 < p < 1

µX = m p

σ2X = m p (1− p)

Oggetto Comando in RDensita dbinom(x, size= m, prob= p)Ripartizione pbinom(x, size= m, prob= p)Quantile al (100 α)% qbinom(α, size= m, prob= p)Estrazione random rbinom(n, size= m, prob= p)

3.12.3 Geometrica

pX(x) = p (1− p)x x ∈ N, 0 < p < 1

µX = (1− p) / p

σ2X = (1− p) / p2

Oggetto Comando in RDensita dgeom(x, prob= p)Ripartizione pgeom(x, prob= p)Quantile al (100 α)% qgeom(α, prob= p)Estrazione random rgeom(n, prob= p)

–176–

3.12 Funzioni di distribuzione discrete

3.12.4 Poisson

pX(x) = λx e−λ / x ! x ∈ N, λ > 0

µX = λ

σ2X = λ

Oggetto Comando in RDensita dpois(x, lambda= λ)Ripartizione ppois(x, lambda= λ)Quantile al (100 α)% qpois(α, lambda= λ)Estrazione random rpois(n, lambda= λ)

3.12.5 Binomiale Negativa

pX(x) =(r+x−1

)pr (1− p)x x ∈ N, r ∈ N\{0}, 0 < p < 1

µX = r (1− p) / p

σ2X = r (1− p) / p2

Oggetto Comando in RDensita dnbinom(x, size= r, prob= p)Ripartizione pnbinom(x, size= r, prob= p)Quantile al (100 α)% qnbinom(α, size= r, prob= p)Estrazione random rnbinom(n, size= r, prob= p)

3.12.6 Ipergeometrica

pX(x) =(Mx

) (N−Mnn−x

)x = 0, 1, 2, . . . , nn

N ∈ N\{0}

nn = 1, 2, . . . , N

M = 0, 1, 2, . . . , N

µX = nn (M /N)

σ2X = nn (M /N) (1−M /N) (N − nn) / (N − 1)

–177–

Oggetto Comando in RDensita dhyper(x, m= M , n= N −M , k= nn)Ripartizione phyper(x, m= M , n= N −M , k= nn)Quantile al (100 α)% qhyper(α, m= M , n= N −M , k= nn)Estrazione random rhyper(nn, m= M , n= N −M , k= nn)

3.12.7 Multinomiale

pX1, X2, ..., Xk(x1, x2, . . . , xk) = m !

x1 ! x2 !···xk !

∏ki=1 pxi

xi = 0, 1, 2, . . . , m ∀i = 1, 2, . . . , k

0 < pi < 1 ∀i = 1, 2, . . . , k∑ki=1 xi = m∑ki=1 pi = 1

µXi = m pi ∀i = 1, 2, . . . , k

= m pi (1− pi) ∀i = 1, 2, . . . , k

σXiXj= −m pi pj ∀i 6= j = 1, 2, . . . , k

Oggetto Comando in RDensita dmultinom(c(x1, x2, . . . , xk), prob= c(p1, p2, . . . , pk))

3.13 Funzioni di distribuzione continue

3.13.1 Normale

fX(x) =(2 π σ2

)−1 / 2 exp[−(x− µ)2 / (2 σ2)

]x ∈ R, µ ∈ R, σ > 0

µX = µ

σ2X = σ2

Oggetto Comando in RDensita dnorm(x, mean= µ, sd= σ)Ripartizione pnorm(x, mean= µ, sd= σ)Quantile al (100 α)% qnorm(α, mean= µ, sd= σ)Estrazione random rnorm(n, mean= µ, sd= σ)

3.13.2 Student

fX(x) = Γ((k+1) / 2)Γ(k / 2) (k π)−1 / 2 (1 + x2 / k)−(k+1) / 2 x ∈ R, k > 0

–178–

µX = 0 per k > 1

σ2X = k / (k − 2) per k > 2

Oggetto Comando in RDensita dt(x, df= k)Ripartizione pt(x, df= k)Quantile al (100 α)% qt(α, df= k)Estrazione random rt(n, df= k)

3.13.3 Student non centrale

fX(x) = kk / 2 exp (−δ2 / 2)√π Γ(n / 2) (k+x2)(k+1) / 2

∑∞i=0

Γ((k+i+1) / 2) δi

)i / 2

x ∈ R, k > 0, δ ∈ R

µX = δ√

k / 2 Γ ((k − 1) / 2) / Γ (k / 2) per k > 1

σ2X = k (1 + δ2) / (k − 2) − (k /, 2) δ (Γ ((k − 1) / 2) / Γ (k / 2))2 per k > 2

Oggetto Comando in RDensita dt(x, df= k, ncp= δ)Ripartizione pt(x, df= k, ncp= δ)

3.13.4 Chi - Quadrato

fX(x) = 2−k / 2

Γ(k / 2) x(k−2) / 2 e−x / 2 x > 0, k > 0

µX = k

σ2X = 2 k

Oggetto Comando in RDensita dchisq(x, df= k)Ripartizione pchisq(x, df= k)Quantile al (100 α)% qchisq(α, df= k)Estrazione random rchisq(n, df= k)

3.13.5 Chi - Quadrato non centrale

fX(x) = exp (−(x + δ) / 2)∑∞

i=0(δ / 2)i xk / 2+i−1

2k / 2+i Γ(k / 2+i) i !x > 0, k > 0, δ > 0

µX = k + δ

–179–

σ2X = 2 (k + 2 δ)

Oggetto Comando in RDensita dchisq(x, df= k, ncp= δ)Ripartizione pchisq(x, df= k, ncp= δ)Quantile al (100 α)% qchisq(α, df= k, ncp= δ)Estrazione random rchisq(n, df= k, ncp= δ)

3.13.6 Fisher

fX(x) = Γ((n1+n2) / 2)Γ(n1 / 2) Γ(n2 / 2)

)n1 / 2

x(n1−2) / 2(1 + n1

n2x)−(n1+n2) / 2

x, n1, n2 > 0

µX = n2n2−2 per n2 > 2

σ2X = 2 n2

2 (n1+n2−2)n1 (n2−2)2 (n2−4) per n2 > 4

Oggetto Comando in RDensita df(x, df1= n1, df2= n2)Ripartizione pf(x, df1= n1, df2= n2)Quantile al (100 α)% qf(α, df1= n1, df2= n2)Estrazione random rf(n, df1= n1, df2= n2)

3.13.7 Fisher non centrale

fX(x) = nn1 / 21 n

n2 / 22

exp (δ / 2)xn1 / 2−1

(n1 x+n2)(n1+n2) / 2

∑∞i=0

(δ / 2)i

i !Γ(n1 / 2+n2 / 2+i)

Γ(n1 / 2+i) Γ(n2 / 2)

n1 x+n2

x, n1, n2, δ > 0

µX = n2 (n1+δ)n1 (n2−2) per n2 > 2

σ2X = 2

)2(n1+δ)2+(n1+2 δ) (n2−2)

(n2−2)2 (n2−4) per n2 > 4

Oggetto Comando in RDensita df(x, df1= n1, df2= n2, ncp= δ)Ripartizione pf(x, df1= n1, df2= n2, ncp= δ)

3.13.8 Esponenziale

fX(x) = λ e−λ x x > 0, λ > 0

µX = 1 / λ

–180–

σ2X = 1 / λ2

Oggetto Comando in RDensita dexp(x, rate= λ)Ripartizione pexp(x, rate= λ)Quantile al (100 α)% qexp(α, rate= λ)Estrazione random rexp(n, rate= λ)

3.13.9 Gamma

fX(x) = λθ

Γ(θ) xθ−1 e−λ x x > 0, θ > 0, λ > 0

µX = θ / λ

σ2X = θ / λ2

Oggetto Comando in RDensita dgamma(x, shape= θ, rate= λ)

dgamma(x, shape= θ, scale= 1 / λ)Ripartizione pgamma(x, shape= θ, rate= λ)

pgamma(x, shape= θ, scale= 1 / λ)Quantile al (100 α)% qgamma(α, shape= θ, rate= λ)

qgamma(α, shape= θ, scale= 1 / λ)Estrazione random rgamma(n, shape= θ, rate= λ)

rgamma(n, shape= θ, scale= 1 / λ)

3.13.10 Gamma 2

fX(x) = 1λθ Γ(θ)

xθ−1 e−x / λ x > 0, θ > 0, λ > 0

µX = θ λ

σ2X = θ λ2

3.13.11 Gamma inversa

fX(x) = λθ

Γ(θ) x− (θ+1) e−λ / x x > 0, θ > 0, λ > 0

µX = λ / (θ − 1) per θ > 1

σ2X = λ2 / [(θ − 1)2 (θ − 2)] per θ > 2

Osservazioni: E’ necessario installare la libreria MCMCpack.

–181–

Oggetto Comando in RDensita dgamma(x, shape= θ, rate= 1 / λ)

dgamma(x, shape= θ, scale= λ)Ripartizione pgamma(x, shape= θ, rate= 1 / λ)

pgamma(x, shape= θ, scale= λ)Quantile al (100 α)% qgamma(α, shape= θ, rate= 1 / λ)

qgamma(α, shape= θ, scale= λ)Estrazione random rgamma(n, shape= θ, rate= 1 / λ)

rgamma(n, shape= θ, scale= λ)

Oggetto Comando in RDensita dinvgamma(x, shape= θ, scale= 1 / λ)Estrazione random rinvgamma(n, shape= θ, scale= λ)

3.13.12 Gamma inversa 2

fX(x) = 1λθ Γ(θ)

x− (θ+1) e−1 / (λ x) x > 0, θ > 0, λ > 0

µX = 1 / [λ (θ − 1)] per θ > 1

σ2X = 1 / [λ2 (θ − 1)2 (θ − 2)] per θ > 2

Osservazioni: E’ necessario installare la libreria MCMCpack.

Oggetto Comando in RDensita dinvgamma(x, shape= θ, scale= λ)Estrazione random rinvgamma(n, shape= θ, scale= 1 / λ)

3.13.13 LogNormale

fX(x) =(2 π σ2 x2

)−1 / 2 exp[−(log(x)− µ)2 / (2 σ2)

]x > 0, µ ∈ R, σ > 0

µX = exp (µ + σ2 / 2)

σ2X = exp (2 µ + 2 σ2)− exp (2 µ + σ2)

3.13.14 Weibull

fX(x) = (θ / λ) (x / λ)θ−1 exp[− (x / λ)θ

]x > 0, θ > 0, λ > 0

µX = λ Γ((θ + 1) / θ)

σ2X = λ2

[Γ((θ + 2) / θ)− Γ2((θ + 1) / θ)

–182–

Oggetto Comando in RDensita dlnorm(x, meanlog= µ, sdlog= σ)Ripartizione plnorm(x, meanlog= µ, sdlog= σ)Quantile al (100 α)% qlnorm(α, meanlog= µ, sdlog= σ)Estrazione random rlnorm(n, meanlog= µ, sdlog= σ)

Oggetto Comando in RDensita dweibull(x, shape= θ, scale= λ)Ripartizione pweibull(x, shape= θ, scale= λ)Quantile al (100 α)% qweibull(α, shape= θ, scale= λ)Estrazione random rweibull(n, shape= θ, scale= λ)

3.13.15 Beta

fX(x) = Γ(θ+λ)Γ(θ) Γ(λ) xθ−1 (1− x)λ−1 0 < x < 1, θ > 0, λ > 0

µX = θ / (θ + λ)

σ2X = θ λ / ((θ + λ + 1) (θ + λ)2)

Oggetto Comando in RDensita dbeta(x, shape1= θ, shape2= λ)Ripartizione pbeta(x, shape1= θ, shape2= λ)Quantile al (100 α)% qbeta(α, shape1= θ, shape2= λ)Estrazione random rbeta(n, shape1= θ, shape2= λ)

3.13.16 Beta non centraleχ2

θ(δ)

χ2θ(δ)+χ2

λ0 < x < 1, θ > 0, λ > 0, δ > 0

3.13.17 Logistica

fX(x) = θ−1 exp [(x− θ) / λ] (1 + exp [(x− θ) / λ])−2x ∈ R, θ ∈ R, λ > 0

µX = θ

σ2X = (π λ)2 / 3

3.13.18 Cauchy

fX(x) = (π λ)−1[1 + ((x− θ) / λ)2

]−1x ∈ R, θ ∈ R, λ > 0

µX = Non esiste

σ2X = Non esiste

–183–

Oggetto Comando in RDensita dbeta(x, shape1= θ, shape2= λ, ncp= δ)Ripartizione pbeta(x, shape1= θ, shape2= λ, ncp= δ)

Oggetto Comando in RDensita dlogis(x, location= θ, scale= λ)Ripartizione plogis(x, location= θ, scale= λ)Quantile al (100 α)% qlogis(α, location= θ, scale= λ)Estrazione random rlogis(n, location= θ, scale= λ)

Oggetto Comando in RDensita dcauchy(x, location= θ, scale= λ)Ripartizione pcauchy(x, location= θ, scale= λ)Quantile al (100 α)% qcauchy(α, location= θ, scale= λ)Estrazione random rcauchy(n, location= θ, scale= λ)

3.13.19 Uniforme

fX(x) = 1 /(b− a) a < x < b, a ∈ R, b ∈ R

µX = (a + b) / 2

σ2X = (b− a)2 / 12

3.13.20 Normale inversa

fX(x) = (λ / (2 π x3))1 / 2 exp(−λ (x− θ)2 / (2 θ2 x)

)x > 0, θ > 0, λ > 0

µX = θ

σ2X = θ3 / λ

Osservazioni: E’ necessario installare la libreria SuppDists.

3.13.21 Wilcoxon signed rank

0 ≤ x ≤ n (n + 1) / 2, n ∈ N / {0}

µX = n (n + 1) / 4

σ2X = n (n + 1) (2 n + 1) / 24

–184–

3.14 Funzioni ai valori mancanti

Oggetto Comando in RDensita dunif(x, min= a, max= b)Ripartizione punif(x, min= a, max= b)Quantile al (100 α)% qunif(α, min= a, max= b)Estrazione random runif(n, min= a, max= b)

Oggetto Comando in RDensita dinvGauss(x, nu= θ, lambda= λ)Ripartizione pinvGauss(x, nu= θ, lambda= λ)Quantile al (100 α)% qinvGauss(α, nu= θ, lambda= λ)Estrazione random rinvGauss(n, nu= θ, lambda= λ)

3.13.22 Mann - Whitney

0 ≤ x ≤ nx ny, nx ∈ N / {0}, ny ∈ N / {0}

µX = nx ny / 2

σ2X = nx ny (nx + ny + 1) / 12

3.14 Funzioni ai valori mancanti

3.14.1 is.na()

• Parametri:

• Significato: rileva la presenza di valori NA oppure NaN

• Esempio:

> x[1] 1.3 1.0 2.0 3.4 3.4 5.7 NA 3.8> is.na(x)[1] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE

> x[1] 1.3 NaN 2.0 3.4 3.4 5.7 NA 3.8> is.na(x)[1] FALSE TRUE FALSE FALSE FALSE FALSE TRUE FALSE

> x[1] 1.0 2.0 NA 4.0 5.6 NaN 1.2 4.0 4.4> x[!is.na(x)][1] 1.0 2.0 4.0 5.6 1.2 4.0 4.4> # x privato dei valori NA e NaN

–185–

Oggetto Comando in RDensita dsignrank(x, n= n)Ripartizione psignrank(x, n= n)Quantile al (100 α)% qsignrank(α, n= n)Estrazione random rsignrank(nn, n= n)

Oggetto Comando in RDensita dwilcox(x, m= nx, n= ny)Ripartizione pwilcox(x, m= nx, n= ny)Quantile al (100 α)% qwilcox(α, m= nx, n= ny)Estrazione random rwilcox(nn, m= nx, n= ny)

3.14.2 is.nan()

• Parametri:

• Significato: rileva la presenza di valori NaN

• Esempio:

> x[1] 1.3 1.0 2.0 3.4 3.4 5.7 NA 3.8> is.nan(x)[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

> x[1] 1.3 NaN 2.0 3.4 3.4 5.7 NA 3.8> is.nan(x)[1] FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE

> x[1] 1.0 2.0 NA 4.0 5.6 NaN 1.2 4.0 4.4> x[!is.nan(x)][1] 1.0 2.0 NA 4.0 5.6 1.2 4.0 4.4> # x privato dei valori NaN

3.15 Miscellaneous

3.15.1 ic.var()

• Parametri:

conf.level livello di confidenza 1− α

• Significato: intervallo di confidenza Chi-Quadrato per la varianza incog-nita

–186–

3.15 Miscellaneous

• Formula:(n− 1) s2

χ21−α / 2, n−1

(n− 1) s2x

χ2α / 2, n−1

• Esempio:

> x[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1> n<-length(x)> n[1] 7> alpha<-0.05> lower<-(n-1)*var(x)/qchisq(1-alpha/2,df=n-1)> upper<-(n-1)*var(x)/qchisq(alpha/2,df=n-1)> c(lower,upper)[1] 20.12959 235.06797> ic.var(x,conf.level=0.95)[1] 20.12959 235.06797

> x[1] 1.0 2.0 3.0 4.0 5.6 7.4 1.2 4.0 4.4> n<-length(x)> n[1] 9> alpha<-0.05> lower<-(n-1)*var(x)/qchisq(1-alpha/2,df=n-1)> upper<-(n-1)*var(x)/qchisq(alpha/2,df=n-1)> c(lower,upper)[1] 1.986681 15.981587> ic.var(x,conf.level=0.95)[1] 1.986681 15.981587

3.15.2 sample()

• Parametri:

size ampiezza campionaria

replace = T / F estrazione con oppure senza ripetizione

size ampiezza campionaria

prob vettore di probabilita

• Significato: estrazione campionaria

• Esempio:

–187–

> x<-c("A","B")> n<-length(x)> n[1] 2> sample(x,size=10,replace=T,rep(1/length(x),length(x)))[1] "A" "A" "A" "B" "A" "B" "A" "A" "B" "B"

> x<-c(0,1)> n<-length(x)> n[1] 2> sample(x,size=5,replace=T,prob=rep(1/length(x),length(x)))[1] 0 1 0 0 0

> x<-c(1,2,3,4,5,6,7,8,9,10)> n<-length(x)> n[1] 10> sample(x,size=3,replace=F,prob=rep(1/length(x),length(x)))[1] 6 8 4

3.15.3 rank()

• Parametri:

• Significato: rango di x ossia viene associato ad ogni elemento del vettorex il posto occupato nello stesso vettore ordinato in modo crescente

• Esempio:

> x[1] 1 2 3 4 2 3 4> n<-length(x)> n[1] 7> rank(x)[1] 1.0 2.5 4.5 6.5 2.5 4.5 6.5

> x[1] 1 2 3 4 5 6 7 8 9 10> n<-length(x)> n[1] 10> rank(x)[1] 1 2 3 4 5 6 7 8 9 10

–188–

3.15 Miscellaneous

[1] 10 9 8 7 6 5 4 3 2 1> n<-length(x)> n[1] 10> rank(x)[1] 10 9 8 7 6 5 4 3 2 1

3.15.4 is.finite()

• Parametri:

x valore numerico

• Significato: valore numerico finito

• Esempio:

> x<-2.3> is.finite(x)[1] TRUE

> x<-1/0> is.finite(x)[1] FALSE

> x<-0/0> is.finite(x)[1] FALSE

3.15.5 is.infinite()

• Parametri:

x valore numerico

• Significato: valore numerico infinito

• Esempio:

> x<-2.3> is.infinite(x)[1] FALSE

> x<-1/0> is.infinite(x)[1] TRUE

> x<-0/0> is.infinite(x)[1] FALSE

–189–

3.15.6 diff()

• Parametri:

differences il valore k dell’ordine delle differenze

• Significato: differenze in una serie storica

• Formula: (1−Bd

)kxt ∀ t = d k + 1, d k + 2, . . . , n

dove Bh xt = xt−h ∀ t = h + 1, h + 2, . . . , n

• Esempio:

> x[1] 1 2 4 3 5 6 -9> n<-length(x)> n[1] 7> k<-1> d<-2> x[-(1:d)]-x[-((n-d+1):n)][1] 3 1 1 3 -14> diff(x,lag=d,differences=k)[1] 3 1 1 3 -14

3.15.7 scale()

• Parametri:

scale = T / F parametro di scala

• Significato: centratura o normalizzazione

• Formula:

scale = T scale = Fcenter = T (x− x ) / sx x− x

center = F x /(

1n−1

∑ni=1 x2

)1 / 2

–190–

3.15 Miscellaneous

• Esempio:

> x[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1> n<-length(x)> n[1] 7> (x-mean(x))/sd(x)[1] -1.264 -0.948 -0.833 0.345 0.488 1.048 1.163> as.numeric(scale(x,center=T,scale=T))[1] -1.264 -0.948 -0.833 0.345 0.488 1.048 1.163> x-mean(x)[1] -8.8 -6.6 -5.8 2.4 3.4 7.3 8.1> as.numeric(scale(x,center=T,scale=F))[1] -8.8 -6.6 -5.8 2.4 3.4 7.3 8.1> x/sqrt(sum(x**2)/(length(x)-1))[1] 0.0934 0.2646 0.3268 0.9649 1.0427 1.3462 1.4085> as.numeric(scale(x,center=F,scale=T))[1] 0.0934 0.2646 0.3268 0.9649 1.0427 1.3462 1.4085> x[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1> as.numeric(scale(x,center=F,scale=F))[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1

> x[1] 1.2 4.5 6.7 7.8 9.8> n<-length(x)> n[1] 5> (x-mean(x))/sd(x)[1] -1.4562179 -0.4550681 0.2123651 0.5460817 1.1528392> as.numeric(scale(x,center=T,scale=T))[1] -1.4562179 -0.4550681 0.2123651 0.5460817 1.1528392> x-mean(x)[1] -4.8 -1.5 0.7 1.8 3.8> as.numeric(scale(x,center=T,scale=F))[1] -4.8 -1.5 0.7 1.8 3.8> x/sqrt(sum(x**2)/(length(x)-1))[1] 0.1605504 0.6020639 0.8964063 1.0435775 1.3111615> as.numeric(scale(x,center=F,scale=T))[1] 0.1605504 0.6020639 0.8964063 1.0435775 1.3111615> x[1] 1.2 4.5 6.7 7.8 9.8> as.numeric(scale(x,center=F,scale=F))[1] 1.2 4.5 6.7 7.8 9.8

3.15.8 moment()

• Parametri:

–191–

absolute = T / F modulo

order il valore k dell’ordine

• Significato: momento centrato e non centrato di ordine k

• Formula:

absolute = T absolute = Fcenter = T

∑ni=1 |xi − x|k / n

∑ni=1 (xi − x)k / n

center = F∑n

i=1 |xi|k / n∑n

i=1 xki / n

• Esempio:

> x[1] -1.2 1.2 3.4 4.2 12.4 13.4 17.3 18.1> n<-length(x)> n[1] 8> k<-5> mean(abs(x-mean(x))**k)[1] 31074.24> moment(x,center=T,absolute=T,order=k)[1] 31074.24> mean((x-mean(x))**k)[1] 1565.904> moment(x,center=T,absolute=F,order=k)[1] 1565.904> mean(abs(x)**k)[1] 527406.3> moment(x,center=F,absolute=T,order=k)[1] 527406.3> mean(x**k)[1] 527405.6> moment(x,center=F,absolute=F,order=k)[1] 527405.6

> x[1] 1.2 4.5 6.7 7.8 9.8> n<-length(x)> n[1] 5> k<-3> mean(abs(x-mean(x))**k)[1] 35.0028> moment(x,center=T,absolute=T,order=k)[1] 35.0028> mean((x-mean(x))**k)

–192–

3.15 Miscellaneous

[1] -10.584> moment(x,center=T,absolute=F,order=k)[1] -10.584> mean(abs(x)**k)[1] 361.872> moment(x,center=F,absolute=T,order=k)[1] 361.872> mean(x**k)[1] 361.872> moment(x,center=F,absolute=F,order=k)[1] 361.872

• Osservazioni: E’ necessario installare la libreria e1071.

3.15.9 cum3()

• Parametri:

a vettore numerico x di dimensione n

b vettore numerico y di dimensione n

c vettore numerico z di dimensione n

unbiased = T / F distorsione

• Significato: momento terzo centrato

• Formula:

unbiased = T

(n− 1) (n− 2)

n∑i=1

(xi − x) (yi − y) (zi − z)

unbiased = F

n∑i=1

(xi − x) (yi − y) (zi − z)

• Esempio:

> x[1] -3 -2 -1 0 1 2> y[1] 1.20 2.30 2.00 3.10 3.55 6.70> z[1] 2.00 3.45 2.60 3.11 3.50 6.20> n<-length(x)> n[1] 6

–193–

> (n/((n-1)*(n-2)))*sum((x-mean(x))*(y-mean(y))*(z-mean(z)))[1] 4.96385> cum3(a=x,b=y,c=z,unbiased=T)[1] 4.96385

> x[1] -3 -2 -1 0 1 2> y[1] 1.20 2.30 2.00 3.10 3.55 6.70> z[1] 2.00 3.45 2.60 3.11 3.50 6.20> n<-length(x)> n[1] 6> (1/n)*sum((x-mean(x))*(y-mean(y))*(z-mean(z)))[1] 2.757694> cum3(a=x,b=y,c=z,unbiased=F)[1] 2.757694

3.15.10 sweep()

• Parametri:

x matrice di dimensione n× k

MARGIN = 1 / 2 righe oppure colonne

STATS statistica da sottrarre da ogni riga o colonna

• Significato: sottrae STATS da ogni riga o colonna della matrice x

• Esempio:

> xX1 X2 X3

[1,] 1.2 7.5 4.3[2,] 3.4 6.7 3.2[3,] 5.6 8.4 3.2> X1media<-mean(x[,"X1"])> X2media<-mean(x[,"X2"])> X3media<-mean(x[,"X3"])> mediecolonna<-c(X1media,X2media,X3media)> mediecolonna[1] 3.400000 7.533333 3.566667> prova<-sweep(x,MARGIN=2,STATS=mediecolonna)> prova

X1 X2 X3[1,] -2.2 -0.03333333 0.7333333[2,] 0.0 -0.83333333 -0.3666667

–194–

3.15 Miscellaneous

[3,] 2.2 0.86666667 -0.3666667> # verifica> apply(prova,MARGIN=2,FUN=mean)

X1 X2 X3-1.480297e-16 -5.921189e-16 2.960595e-16> # verifica OK

> xX1 X2 X3

[1,] 1.2 7.5 4.3[2,] 3.4 6.7 3.2[3,] 5.6 8.4 3.2> X1mediana<-median(x[,"X1"])> X2mediana<-median(x[,"X2"])> X3mediana<-median(x[,"X3"])> medianecolonna<-c(X1mediana,X2mediana,X3mediana)> medianecolonna[1] 3.4 7.5 3.2> prova<-sweep(x,MARGIN=2,STATS=medianecolonna)> prova

X1 X2 X3[1,] -2.2 0.0 1.1[2,] 0.0 -0.8 0.0[3,] 2.2 0.9 0.0> # verifica> apply(prova,MARGIN=2,FUN=median)X1 X2 X30 0 0> # verifica OK

3.15.11 nsize()

• Parametri:

b valore del margine di errore E

sigma valore dello scarto quadratico medio σx

p valore della proporzione campionaria p

type = mu / pi media della popolazione oppure proporzione cam-pionaria

• Significato: dimensione campionaria dato il margine di errore E

• Formula:

type = mu

–195–

n =⌈(z1−α / 2 σx) / E)2

⌉type = pi

n =⌈p (1− p) (z1−α / 2 / E)2

⌉• Esempio:

> # media della popolazionensize(b=0.15,sigma=0.31,conf.level=0.95,type="mu")

> # proporzione campionaria> nsize(b=0.03,p=0.77,conf.level=0.95,type="pi")

• Osservazioni: E’ necessario installare la libreria BSDA.

3.15.12 array()

• Parametri:

data vettore numericodim dimensionedimnames etichette di dimensione

• Significato: creazione di un array

• Esempio:

> etichette<-list(c("A","B"),c("a","b"),c("X","Y"))> prova<-array(data=1:8,dim=c(2,2,2),dimnames=etichette)> prova, , X

a bA 1 3B 2 4

a bA 5 7B 6 8

> etichette<-list(c("A","B"),c("a","b"))> x<-array(data=1:8,dim=c(2,2),dimnames=etichette)> xa b

A 1 3B 2 4

–196–

3.15 Miscellaneous

–197–

–198–

CAPITOLO 4

Analisi delle componenti principali (ACP)

4.1 ACP con matrice di correlazione

4.1.1 Simbologia

• matrice dei dati di dimensione n×k le cui colonne corrispondono ai vettorinumerici w1, w2, . . . , wk: W

• media di colonna della matrice dei dati: wj ∀j = 1, 2, . . . , k

• varianza campionaria di colonna della matrice dei dati:s2

wj= (n− 1)−1 (wj − wj)T (wj − wj) ∀j = 1, 2, . . . , k

• matrice standardizzata di dimensione n× k: Z

• elemento di riga i e colonna j della matrice standardizzata:Zi, j = (wij − wj) / swj ∀ i = 1, 2, . . . , n ∀ j = 1, 2, . . . , k

• matrice di correlazione di dimensione k × k: R = ZT Zn−1 = Γ D ΓT

• matrice ortogonale degli autovettori di dimensione k × k: Γ

• j-esima colonna della matrice Γ: Γj ∀ j = 1, 2, . . . , k

• matrice diagonale degli autovalori di dimensione k×k: D = diag(λ1, λ2, . . . , λk)

• componente principale j-esima: xj = Z Γj ∀ j = 1, 2, . . . , k

• deviazione standard della j-esima componente principale:sxj

λ(k−j+1) ∀ j = 1, 2, . . . , k

• problema di ottimo vincolato:xj = Z γj ∀ j = 1, 2, . . . , k

= xTj xj

n−1 = (Z γj)T (Z γj)

n−1 = γTj

ZT Zn−1 γj = γT

j R γj ∀ j = 1, 2, . . . , k

maxγTj γj = 1 s2

xj= maxγT

j γj = 1 γTj R γj = λ(k−j+1) ∀ j = 1, 2, . . . , k

–199–

4.1.2 prcomp()

• Parametri:

W matrice dei dati

• Output:

sdev deviazione standard delle componenti principali

rotation matrice ortogonale degli autovalori

center medie di colonna della matrice W

scale deviazione standard di colonna della matrice W

x componenti principali

• Formula:

sdevsxj

∀ j = 1, 2, . . . , k

rotationΓ

centerwj ∀ j = 1, 2, . . . , k

scaleswj

∀ j = 1, 2, . . . , k

xxj ∀ j = 1, 2, . . . , k

• Esempio:

> n<-dim(W)[1]> k<-dim(W)[2]> Z<-scale(W)> R<-1/(n-1)*t(Z)%*%Z> D<-diag(eigen(R)$values)> GAMMA<-eigen(R)$vectors> prcomp(W,scale=T)

4.1.3 summary()

• Parametri:

pr oggetto di tipo prcomp()

• Output:

importance analisi delle componenti principali

• Formula:

–200–

4.2 ACP con matrice di varianza

importance[1,]sxj

∀ j = 1, 2, . . . , k

importance[2,]

λ(k−j+1)

k∀ j = 1, 2, . . . , k

importance[3,]

l∑j=1

λ(k−j+1) ∀ l = 1, 2, . . . , k

• Esempio:

> pr<-prcomp(W,scale=T)> summary(pr)

4.2.1 Simbologia

• matrice dei dati di dimensione n×k le cui colonne corrispondono ai vettorinumerici w1, w2, . . . , wk: W

• media di colonna della matrice dei dati: wj ∀j = 1, 2, . . . , k

• matrice centrata di dimensione n× k: Z

• elemento di riga i e colonna j della matrice centrata:Zi, j = wij − wj ∀ i = 1, 2, . . . , n ∀ j = 1, 2, . . . , k

• matrice di covarianza di dimensione k × k: S = ZT Zn−1 = Γ D ΓT

• matrice ortogonale degli autovettori di dimensione k × k: Γ

• j-esima colonna della matrice Γ: Γj ∀ j = 1, 2, . . . , k

• matrice diagonale degli autovalori di dimensione k×k: D = diag(λ1, λ2, . . . , λk)

• componente principale j-esima: xj = Z Γj ∀ j = 1, 2, . . . , k

• deviazione standard della j-esima componente principale:sxj

λ(k−j+1) ∀ j = 1, 2, . . . , k

• problema di ottimo vincolato:xj = Z γj ∀ j = 1, 2, . . . , k

= xTj xj

n−1 = (Z γj)T (Z γj)

n−1 = γTj

ZT Zn−1 γj = γT

j S γj ∀ j = 1, 2, . . . , k

maxγTj γj = 1 s2

xj= maxγT

j γj = 1 γTj S γj = λ(k−j+1) ∀ j = 1, 2, . . . , k

–201–

4.2.2 prcomp()

• Parametri:

W matrice dei dati

• Output:

sdev deviazione standard delle componenti principali

rotation matrice ortogonale degli autovettori

center medie di colonna della matrice W

x componenti principali

• Formula:

sdevsxj ∀ j = 1, 2, . . . , k

rotationΓ

centerwj ∀ j = 1, 2, . . . , k

xxj ∀ j = 1, 2, . . . , k

• Esempio:

> n<-dim(W)[1]> k<-dim(W)[2]> Z<-scale(W,scale=F)> S<-1/(n-1)*t(Z)%*%Z> D<-diag(eigen(S)$values)> GAMMA<-eigen(S)$vectors> prcomp(W,scale=F)

4.2.3 summary()

• Parametri:

pr oggetto di tipo prcomp()

• Output:

importance analisi delle componenti principali

• Formula:

importance[1,]sxj

∀ j = 1, 2, . . . , k

–202–

importance[2,]

λ(k−j+1)∑ki=1 λi

∀ j = 1, 2, . . . , k

importance[3,]∑lj=1 λ(k−j+1)∑k

i=1 λi

∀ l = 1, 2, . . . , k

• Esempio:

> pr<-prcomp(W,scale=F)> summary(pr)

–203–

–204–

Parte III

Statistica Inferenziale

–205–

CAPITOLO 5

Test di ipotesi parametrici

5.1 Test di ipotesi sulla media con uno o duecampioni

5.1.1 Test Z con un campione

• Sintassi: z.test()

• Parametri:

sigma.x valore di σx

mu valore di µ0

alt puo essere cambiata in less, greater, two.sided a secondadella coda che interessa

• Output:

statistic valore empirico della statistica Z

p.value p-value

conf.int intervallo di confidenza per la media incognita a livello1− α

estimate media campionaria

null.value valore di µ0

• Formula:

statistic

z =x− µ0

σx /√

p.value

–207–

alt less greater two.sided

p.value Φ(z) 1− Φ(z) 2 Φ(− | z |)

conf.intx∓ z1−α / 2 σx /

estimatex

null.valueµ0

• Esempio:

> x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1 6.7 7.6 6.8> xmedio<-mean(x)> xmedio[1] 7.018182> sigmax<-1.2> n<-length(x)> n[1] 11> mu0<-6.5> z<-(xmedio-mu0)/(sigmax/sqrt(n))> z[1] 1.432179> res<-z.test(x,sigma.x=1.2,mu=6.5,alt="two.sided",conf.level=0.95)> res$statistic

z1.432179> p.value<-2*pnorm(-abs(z))> p.value[1] 0.1520926> res$p.value[1] 0.1520926> alpha<-0.05> lower<-xmedio-qnorm(1-0.05/2)*sigmax/sqrt(n)> upper<-xmedio+qnorm(1-0.05/2)*sigmax/sqrt(n)> c(lower,upper)[1] 6.309040 7.727323> res$conf.int[1] 6.309040 7.727323attr(,"conf.level")[1] 0.95> xmedio[1] 7.018182> res$estimatemean of x7.018182

–208–

5.1 Test di ipotesi sulla media con uno o due campioni

> mu0[1] 6.5> res$null.valuemean6.5

> x[1] 1.0 2.3 4.5 6.7 8.9> xmedio<-mean(x)> xmedio[1] 4.68> sigmax<-1.45> n<-length(x)> n[1] 5> mu0<-5.2> z<-(xmedio-mu0)/(sigmax/sqrt(n))> z[1] -0.8019002> res<-z.test(x,sigma.x=1.45,mu=5.2,alt="two.sided",conf.level=0.95)> res$statistic

z-0.8019002> p.value<-2*pnorm(-abs(z))> p.value[1] 0.4226107> res$p.value[1] 0.4226107> alpha<-0.05> lower<-xmedio-qnorm(1-0.05/2)*sigmax/sqrt(n)> upper<-xmedio+qnorm(1-0.05/2)*sigmax/sqrt(n)> c(lower,upper)[1] 3.409042 5.950958> res$conf.int[1] 3.409042 5.950958attr(,"conf.level")[1] 0.95> xmedio[1] 4.68> res$estimatemean of x

4.68> mu0[1] 5.2> res$null.valuemean5.2

–209–

5.1.2 Test di Student con un campione

• Sintassi: t.test()

• Parametri:

mu valore di µ0

• Output:

statistic valore empirico della statistica t

parameter gradi di liberta

p.value p-value

• Formula:

statistic

t =x− µ0

sx /√

parameter

df = n− 1

p.value

p.value P (tdf ≤ t) P (tdf ≥ t) 2 P (tdf ≤ − | t |)

conf.int

x∓ t1−α / 2, df sx /√

estimate

null.value

• Esempio:

–210–

> x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1 6.7 7.6 6.8> xmedio<-mean(x)> xmedio[1] 7.018182> sx<-sd(x)> sx[1] 0.4643666> n<-length(x)> n[1] 11> mu0<-6.5> t<-(xmedio-mu0)/(sx/sqrt(n))> t[1] 3.700987> res<-t.test(x,mu=6.5,alt="two.sided",conf.level=0.95)> res$statistic

t3.700987> parameter<-n-1> parameter[1] 10> res$parameter[1] 10> p.value<-2*pt(-abs(t),df=n-1)> p.value[1] 0.004101817> res$p.value[1] 0.004101817> alpha<-0.05> lower<-xmedio-qt(1-0.05/2,df=n-1)*sx/sqrt(n)> upper<-xmedio+qt(1-0.05/2,df=n-1)*sx/sqrt(n)> c(lower,upper)[1] 6.706216 7.330148> res$conf.int[1] 6.706216 7.330148attr(,"conf.level")[1] 0.95> xmedio[1] 7.018182> res$estimatemean of x7.018182> mu0[1] 6.5> res$null.valuemean6.5

–211–

[1] 1.0 2.3 4.5 6.7 8.9> xmedio<-mean(x)> xmedio[1] 4.68> sx<-sd(x)> sx[1] 3.206556> n<-length(x)> n[1] 5> mu0<-5.2> t<-(xmedio-mu0)/(sx/sqrt(n))> t[1] -0.3626182> res<-t.test(x,mu=5.2,alt="two.sided",conf.level=0.95)> res$statistic

t-0.3626182> parameter<-n-1> parameter[1] 4> res$parameter[1] 4> p.value<-2*pt(-abs(t),df=n-1)> p.value[1] 0.7352382> res$p.value[1] 0.7352382> alpha<-0.05> lower<-xmedio-qt(1-0.05/2,df=n-1)*sx/sqrt(n)> upper<-xmedio+qt(1-0.05/2,df=n-1)*sx/sqrt(n)> c(lower,upper)[1] 0.6985351 8.6614649> res$conf.int[1] 0.6985351 8.6614649attr(,"conf.level")[1] 0.95> mean(x)[1] 4.68> res$estimatemean of x

–212–

5.1.3 Test Z con due campioni indipendenti

• Sintassi: z.test()

• Parametri:

x vettore numerico di dimensione nx

y vettore numerico di dimensione ny

sigma.y valore di σy

mu valore di (µx − µy )|H0

• Output:

p.value p-value

conf.int intervallo di confidenza per la differenza tra le medie in-cognite a livello 1− α

estimate medie campionarie

null.value valore di (µx − µy )|H0

• Formula:

statistic

z =(x− y)− ( µx − µy )|H0√

σ2x / nx + σ2

y / ny

p.value

p.value Φ(z) 1− Φ(z) 2 Φ(− | z |)

conf.int

x− y ∓ z1−α / 2

√σ2

x / nx + σ2y / ny

estimate

null.value

( µx − µy )|H0

• Esempio:

–213–

> x[1] 154 109 137 115 140> xmedio<-mean(x)> xmedio[1] 131> sigmax<-15.5> nx<-length(x)> nx[1] 5> y[1] 108 115 126 92 146> ymedio<-mean(y)> ymedio[1] 117.4> sigmay<-13.5> ny<-length(y)> ny[1] 5> mu0<-10> z<-(xmedio-ymedio-mu0)/sqrt(sigmax**2/nx+sigmay**2/ny)> z[1] 0.3916284> res<-z.test(x,y,sigma.x=15.5,sigma.y=13.5,mu=10,+ alt="two.sided",conf.level=0.95)> res$statistic

z0.3916284> p.value<-2*pnorm(-abs(z))> p.value[1] 0.6953328> res$p.value[1] 0.6953328> alpha<-0.05> lower<-(xmedio-ymedio)-qnorm(1-0.05/2)*sqrt(sigmax**2/nx+sigmay**2/ny)> upper<-(xmedio-ymedio)+qnorm(1-0.05/2)*sqrt(sigmax**2/nx+sigmay**2/ny)> c(lower,upper)[1] -4.41675 31.61675> res$conf.int[1] -4.41675 31.61675attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 131.0 117.4> res$estimatemean of x mean of y

131.0 117.4> mu0[1] 10> res$null.valuedifference in means

–214–

> x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1 6.7 7.6 6.8> xmedio<-mean(x)> xmedio[1] 7.018182> sigmax<-0.5> nx<-length(x)> nx[1] 11> y[1] 4.5 5.4 6.1 6.1 5.4 5.0 4.1 5.5> ymedio<-mean(y)> ymedio[1] 5.2625> sigmay<-0.8> ny<-length(y)> ny[1] 8> mu0<-1.2> z<-(xmedio-ymedio-mu0)/sqrt(sigmax**2/nx+sigmay**2/ny)> z[1] 1.733737> res<-z.test(x,y,sigma.x=0.5,sigma.y=0.8,mu=1.2,+ alt="two.sided",conf.level=0.95)> res$statistic

z1.733737> p.value<-2*pnorm(-abs(z))> p.value[1] 0.0829647> res$p.value[1] 0.0829647> alpha<-0.05> lower<-(xmedio-ymedio)-qnorm(1-0.05/2)*sqrt(sigmax**2/nx+sigmay**2/ny)> upper<-(xmedio-ymedio)+qnorm(1-0.05/2)*sqrt(sigmax**2/nx+sigmay**2/ny)> c(lower,upper)[1] 1.127492 2.383872> res$conf.int[1] 1.127492 2.383872attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 7.018182 5.262500> res$estimatemean of x mean of y7.018182 5.262500> mu0[1] 1.2

–215–

> res$null.valuedifference in means

5.1.4 Test di Student con due campioni indipendenticon varianze non note ma supposte uguali

• Parametri:

mu valore di ( µx − µy )|H0

• Output:

p.value p-value

conf.int intervallo di confidenza per la differenza tra le medie incog-nite a livello 1− α

• Formula:

statistic

t =(x− y)− ( µx − µy )|H0

√1 / nx + 1 / ny

dove s2P =

(nx − 1) s2x + (ny − 1) s2

nx + ny − 2

parameterdf = nx + ny − 2

p.value

–216–

conf.int

x− y ∓ t1−α / 2, df sP

√1 / nx + 1 / ny

estimatex y

null.value( µx − µy )|H0

• Esempio:

> x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1 6.7 7.6 6.8> xmedio<-mean(x)> xmedio[1] 7.018182> sx<-sd(x)> sx[1] 0.4643666> nx<-length(x)> nx[1] 11> y[1] 4.5 5.4 6.1 6.1 5.4 5.0 4.1 5.5> ymedio<-mean(y)> ymedio[1] 5.2625> sy<-sd(y)> sy[1] 0.7069805> ny<-length(y)> ny[1] 8> mu0<-1.2> Sp<-sqrt(((nx-1)*sx**2+(ny-1)*sy**2)/(nx+ny-2))> Sp[1] 0.5767614> t<-(xmedio-ymedio-mu0)/(Sp*sqrt(1/nx+1/ny))> t[1] 2.073455> res<-t.test(x,y,mu=1.2,alt="two.sided",conf.level=0.95,var.equal=T)> res$statistic

t2.073455> parameter<-nx+ny-2> parameter[1] 17> res$parameter[1] 17> p.value<-2*pt(-abs(t),df=nx+ny-2)> p.value

–217–

[1] 0.05364043> res$p.value[1] 0.05364043> alpha<-0.05> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=nx+ny-2)*Sp*sqrt(1/nx+1/ny)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=nx+ny-2)*Sp*sqrt(1/nx+1/ny)> c(lower,upper)[1] 1.190255 2.321108> res$conf.int[1] 1.190255 2.321108attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 7.018182 5.262500> res$estimatemean of x mean of y7.018182 5.262500

> mu0[1] 1.2> res$null.valuedifference in means

> x[1] 154 109 137 115 140> xmedio<-mean(x)> xmedio[1] 131> sx<-sd(x)> sx[1] 18.61451> nx<-length(x)> nx[1] 5> y[1] 108 115 126 92 146> ymedio<-mean(y)> ymedio[1] 117.4> sy<-sd(y)> sy[1] 20.19406> ny<-length(y)> ny[1] 5> mu0<-10> Sp<-sqrt(((nx-1)*sx**2+(ny-1)*sy**2)/(nx+ny-2))> Sp[1] 19.42035> t<-(xmedio-ymedio-mu0)/(Sp*sqrt(1/nx+1/ny))

–218–

> t[1] 0.2930998> res<-t.test(x,y,mu=10,alt="two.sided",conf.level=0.95,var.equal=T)> res$statistic

t0.2930998> parameter<-nx+ny-2> parameter[1] 8> res$parameter[1] 8> p.value<-2*pt(-abs(t),df=nx+ny-2)> p.value[1] 0.7769049> res$p.value[1] 0.7769049> alpha<-0.05> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=nx+ny-2)*Sp*sqrt(1/nx+1/ny)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=nx+ny-2)*Sp*sqrt(1/nx+1/ny)> c(lower,upper)[1] -14.72351 41.92351> res$conf.int[1] -14.72351 41.92351attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 131.0 117.4> res$estimatemean of x mean of y

5.1.5 Test di Student con due campioni indipendenticon varianze non note e diverse

• Parametri:

–219–

• Output:

p.value p-value

• Formula:

statistic

t =(x− y)− ( µx − µy )|H0√

s2x / nx + s2

y / ny

parameter

x / nx + s2y / ny

x / (n2x (nx − 1)) + s4

y / (n2y (ny − 1))

p.value

conf.int

x− y ∓ t1−α / 2, df

x / nx + s2y / ny

estimatex y

• Esempio:

> x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1 6.7 7.6 6.8> xmedio<-mean(x)> xmedio[1] 7.018182> sx<-sd(x)> sx[1] 0.4643666> nx<-length(x)> nx[1] 11

–220–

> y[1] 4.5 5.4 6.1 6.1 5.4 5.0 4.1 5.5> ymedio<-mean(y)> ymedio[1] 5.2625> sy<-sd(y)> sy[1] 0.7069805> ny<-length(y)> ny[1] 8> mu0<-1.2> t<-(xmedio-ymedio-mu0)/sqrt(sx**2/nx+sy**2/ny)> t[1] 1.939568> res<-t.test(x,y,mu=1.2,alt="two.sided",conf.level=0.95,var.equal=F)> res$statistic

t1.939568> gl<-(sx**2/nx+sy**2/ny)**2/(sx**4/(nx**2*(nx-1))+sy**4/(ny**2*(ny-1)))> gl[1] 11.30292> res$parameter[1] 11.30292> p.value<-2*pt(-abs(t),df=gl)> p.value[1] 0.07779219> res$p.value[1] 0.07779219> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=gl)*sqrt(sx**2/nx+sy**2/ny)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=gl)*sqrt(sx**2/nx+sy**2/ny)> c(lower,upper)[1] 1.127160 2.384203> res$conf.int[1] 1.127160 2.384203attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 7.018182 5.262500> res$estimatemean of x mean of y7.018182 5.262500> mu0[1] 1.2> res$null.valuedifference in means

> x[1] 154 109 137 115 140

–221–

> xmedio<-mean(x)> xmedio[1] 131> sx<-sd(x)> sx[1] 18.61451> nx<-length(x)> nx[1] 5> y[1] 108 115 126 92 146> ymedio<-mean(y)> ymedio[1] 117.4> sy<-sd(y)> sy[1] 20.19406> ny<-length(y)> ny[1] 5> mu0<-10> t<-(xmedio-ymedio-mu0)/sqrt(sx**2/nx+sy**2/ny)> t[1] 0.2930998> res<-t.test(x,y,mu=10,alt="two.sided",conf.level=0.95,var.equal=F)> res$statistic

t0.2930998> gl<-(sx**2/nx+sy**2/ny)**2/(sx**4/(nx**2*(nx-1))+sy**4/(ny**2*(ny-1)))> gl[1] 7.947512> res$parameter[1] 7.947512> p.value<-2*pt(-abs(t),df=gl)> p.value[1] 0.7769531> res$p.value[1] 0.7769531> alpha<-0.05> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=gl)*sqrt(sx**2/nx+sy**2/ny)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=gl)*sqrt(sx**2/nx+sy**2/ny)> c(lower,upper)[1] -14.75611 41.95611> res$conf.int[1] -14.75611 41.95611attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 131.0 117.4> res$estimate

–222–

mean of x mean of y131.0 117.4

> mu0[1] 10> res$null.valuedifference in means

5.1.6 Test di Student per dati appaiati

• Parametri:

• Output:

p.value p-value

estimate differenza tra le medie campionarie

• Formula:

statistic

t =(x− y)− (µx − µy )|H0

sx−y /√

dove s2x−y =

1n− 1

n∑i=1

(xi − yi − (x− y)

)2parameter

df = n− 1

p.value

conf.intx− y ∓ t1−α / 2, df sx−y /

–223–

estimatex− y

• Esempio:

> x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1> xmedio<-mean(x)> xmedio[1] 7.0125> y[1] 4.5 5.4 6.1 6.1 5.4 5.0 4.1 5.5> ymedio<-mean(y)> ymedio[1] 5.2625> n<-length(x)> n[1] 8> mu0<-1.2> t<-(xmedio-ymedio-mu0)/(sd(x-y)/sqrt(n))> t[1] 1.815412> res<-t.test(x,y,mu=1.2,alt="two.sided",conf.level=0.95,paired=T)> res$statistic

t1.815412> parameter<-n-1> parameter[1] 7> res$parameter[1] 7> p.value<-2*pt(-abs(t),df=n-1)> p.value[1] 0.1123210> res$p.value[1] 0.1123210> alpha<-0.05> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=n-1)*sd(x-y)/sqrt(n)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=n-1)*sd(x-y)/sqrt(n)> c(lower,upper)[1] 1.033610 2.466390> res$conf.int[1] 1.033610 2.466390attr(,"conf.level")

–224–

[1] 0.95> xmedio-ymedio[1] 1.75> res$estimatemean of the differences

1.75> mu0[1] 1.2> res$null.valuedifference in means

> x[1] 154 109 137 115 140> xmedio<-mean(x)> xmedio[1] 131> y[1] 108 115 126 92 146> ymedio<-mean(y)> ymedio[1] 117.4> n<-length(x)> n[1] 5> mu0<-10> t<-(xmedio-ymedio-mu0)/(sd(x-y)/sqrt(n))> t[1] 0.3680758> res<-t.test(x,y,mu=10,alt="two.sided",conf.level=0.95,paired=T)> res$statistic

t0.3680758> parameter<-n-1> parameter[1] 4> res$parameter[1] 4> p.value<-2*pt(-abs(t),df=n-1)> p.value[1] 0.7314674> res$p.value[1] 0.7314674> alpha<-0.05> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=n-1)*sd(x-y)/sqrt(n)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=n-1)*sd(x-y)/sqrt(n)> c(lower,upper)[1] -13.55528 40.75528> res$conf.int[1] -13.55528 40.75528

–225–

attr(,"conf.level")[1] 0.95> xmedio-ymedio[1] 13.6> res$estimatemean of the differences

13.6> mu0[1] 10> res$null.valuedifference in means

5.2 Test di ipotesi sulla media con uno o duecampioni (summarized data)

5.2.1 Test Z con un campione

• Sintassi: zsum.test()

• Parametri:

mean.x valore di x

n.x valore di n

mu valore di µ0

• Output:

p.value p-value

• Formula:

statistic

z =x− µ0

σx /√

p.value

–226–

5.2 Test di ipotesi sulla media con uno o due campioni (summarizeddata)

p.value Φ(z) 1− Φ(z) 2 Φ(− | z |))

conf.intx∓ z1−α / 2 σx /

estimatex

null.valueµ0

• Esempio:

> xmedio<-7.018182> sigmax<-1.2> n<-11> mu0<-6.5> z<-(xmedio-mu0)/(sigmax/sqrt(n))> z[1] 1.432179> res<-zsum.test(mean.x=7.018182,sigma.x=1.2,n.x=11,mu=6.5,+ alt="two.sided",conf.level=0.95)> res$statistic

z1.432179> p.value<-2*pnorm(-abs(z))> p.value[1] 0.1520926> res$p.value[1] 0.1520926> alpha<-0.05> lower<-xmedio-qnorm(1-0.05/2)*sigmax/sqrt(n)> upper<-xmedio+qnorm(1-0.05/2)*sigmax/sqrt(n)> c(lower,upper)[1] 6.309040 7.727323> res$conf.int[1] 6.309040 7.727323attr(,"conf.level")[1] 0.95> xmedio[1] 7.018182> res$estimatemean of x7.018182> mu0[1] 6.5> res$null.valuemean6.5

–227–

> xmedio<-4.68> sigmax<-1.45> n<-5> mu0<-5.2> z<-(xmedio-mu0)/(sigmax/sqrt(n))> z[1] -0.8019002> res<-zsum.test(mean.x=4.68,sigma.x=1.45,n.x=5,mu=5.2,+ alt="two.sided",conf.level=0.95)> res$statistic

z-0.8019002> p.value<-2*pnorm(-abs(z))> p.value[1] 0.4226107> res$p.value[1] 0.4226107> alpha<-0.05> lower<-xmedio-qnorm(1-0.05/2)*sigmax/sqrt(n)> upper<-xmedio+qnorm(1-0.05/2)*sigmax/sqrt(n)> c(lower,upper)[1] 3.409042 5.950958> res$conf.int[1] 3.409042 5.950958attr(,"conf.level")[1] 0.95> xmedio[1] 4.68> res$estimatemean of x

5.2.2 Test di Student con un campione

• Sintassi: tsum.test()

• Parametri:

mean.x valore di x

s.x valore di sx

–228–

n.x valore di n

mu valore di µ0

• Output:

p.value p-value

• Formula:

statistic

t =x− µ0

sx /√

parameterdf = n− 1

p.value

conf.intx∓ t1−α / 2, df sx /

estimatex

null.valueµ0

• Esempio:

> xmedio<-7.018182> sx<-1.2> n<-11> mu0<-6.5> t<-(xmedio-mu0)/(sx/sqrt(n))> t[1] 1.432179> res<-tsum.test(mean.x=7.018182,s.x=1.2,n.x=11,+ mu=6.5,alt="two.sided",conf.level=.95)> res$statistic

–229–

t1.432179> parameter<-n-1> parameter[1] 10> res$parameter[1] 10> p.value<-2*pt(-abs(t),df=n-1)> p.value[1] 0.1826001> res$p.value[1] 0.1826001> alpha<-0.05> lower<-xmedio-qt(1-0.05/2,df=n-1)*sx/sqrt(n)> upper<-xmedio+qt(1-0.05/2,df=n-1)*sx/sqrt(n)> c(lower,upper)[1] 6.212011 7.824353> res$conf.int[1] 6.212011 7.824353attr(,"conf.level")[1] 0.95> xmedio[1] 7.018182> res$estimatemean of x7.018182

> mu0[1] 6.5> res$null.valuemean6.5

> xmedio<-4.68> sx<-1.45> n<-5> mu0<-5.2> t<-(xmedio-mu0)/(sx/sqrt(n))> t[1] -0.8019002> res<-tsum.test(mean.x=4.68,s.x=1.45,n.x=5,+ mu=5.2,alt="two.sided",conf.level=.95)> res$statistic

t-0.8019002> parameter<-n-1> parameter[1] 4> res$parameter[1] 4> p.value<-2*pt(-abs(t),df=n-1)

–230–

> p.value[1] 0.4675446> res$p.value[1] 0.4675446> alpha<-0.05> lower<-xmedio-qt(1-0.05/2,df=n-1)*sx/sqrt(n)> upper<-xmedio+qt(1-0.05/2,df=n-1)*sx/sqrt(n)> c(lower,upper)[1] 2.879587 6.480413> res$conf.int[1] 2.879587 6.480413attr(,"conf.level")[1] 0.95> xmedio[1] 4.68> res$estimatemean of x

5.2.3 Test Z con due campioni indipendenti

• Sintassi: zsum.test()

• Parametri:

mean.x valore di x

n.x valore di nx

mean.y valore di y

sigma.y valore di σy

n.y valore di ny

• Output:

p.value p-value

–231–

• Formula:

statistic

z =(x− y)− ( µx − µy )|H0√

σ2x / nx + σ2

y / ny

p.value

p.value Φ(z) 1− Φ(z) 2 Φ(− | z |)

conf.int

x− y ∓ z1−α / 2

√σ2

x / nx + σ2y / ny

estimatex y

• Esempio:

> xmedio<-131> sigmax<-15.5> nx<-5> ymedio<-117.4> sigmay<-13.5> ny<-5> mu0<-10> z<-(xmedio-ymedio-mu0)/sqrt(sigmax**2/nx+sigmay**2/ny)> z[1] 0.3916284> res<-zsum.test(mean.x=131,sigma.x=15.5,n.x=5,mean.y=117.4,sigma.y=13.5,n.y=5,+ mu=10,alt="two.sided",conf.level=0.95)> res$statistic

z0.3916284> p.value<-2*pnorm(-abs(z))> p.value[1] 0.6953328> res$p.value[1] 0.6953328> alpha<-0.05> lower<-xmedio-ymedio-qnorm(1-0.05/2)*sqrt(sigmax**2/nx+sigmay**2/ny)> upper<-xmedio-ymedio+qnorm(1-0.05/2)*sqrt(sigmax**2/nx+sigmay**2/ny)> c(lower,upper)[1] -4.41675 31.61675

–232–

> res$conf.int[1] -4.41675 31.61675attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 131.0 117.4> res$estimatemean of x mean of y

> xmedio<-7.018182> sigmax<-0.5> nx<-11> ymedio<-5.2625> sigmay<-0.8> ny<-8> mu0<-1.2> z<-(xmedio-ymedio-mu0)/sqrt(sigmax**2/nx+sigmay**2/ny)> z[1] 1.733738> res<-zsum.test(mean.x=7.018182,sigma.x=0.5,n.x=11,mean.y=5.2625,+ sigma.y=0.8,n.y=8,mu=1.2,alt="two.sided",conf.level=0.95)> res$statistic

z1.733738> p.value<-2*pnorm(-abs(z))> p.value[1] 0.0829646> res$p.value[1] 0.0829646> alpha<-0.05> lower<-xmedio-ymedio-qnorm(1-0.05/2)*sqrt(sigmax**2/nx+sigmay**2/ny)> upper<-xmedio-ymedio+qnorm(1-0.05/2)*sqrt(sigmax**2/nx+sigmay**2/ny)> c(lower,upper)[1] 1.127492 2.383872> res$conf.int[1] 1.127492 2.383872attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 7.018182 5.262500> res$estimatemean of x mean of y7.018182 5.262500> mu0

–233–

[1] 1.2> res$null.valuedifference in means

5.2.4 Test di Student con due campioni indipendenticon varianze non note ma supposte uguali

• Parametri:

mean.x valore di x

s.x valore di sx

n.x valore di nx

mean.y valore di y

s.y valore di sy

n.y valore di ny

mu valore di ( µx − µy )|H0

• Output:

p.value p-value

• Formula:

statistic

t =(x− y)− ( µx − µy )|H0

√1 / nx + 1 / ny

dove s2P =

(nx − 1) s2x + (ny − 1) s2

nx + ny − 2

parameterdf = nx + ny − 2

–234–

p.value

conf.int

x− y ∓ t1−α / 2, df sP

√1 / nx + 1 / ny

estimatex y

• Esempio:

> xmedio<-7.018182> sx<-0.5> nx<-11> ymedio<-5.2625> sy<-0.8> ny<-8> mu0<-1.2> Sp<-sqrt(((nx-1)*sx**2+(ny-1)*sy**2)/(nx+ny-2))> Sp[1] 0.6407716> t<-(xmedio-ymedio-mu0)/(Sp*sqrt(1/nx+1/ny))> t[1] 1.866326> res<-tsum.test(mean.x=7.018182,s.x=0.5,n.x=11,mean.y=5.2625,s.y=0.8,n.y=8,+ mu0<-1.2,alt="two.sided",conf.level=0.95)> res$statistic

t1.866326> parameter<-nx+ny-2> parameter[1] 17> res$parameter[1] 17> p.value<-2*pt(-abs(t),df=nx+ny-2)> p.value[1] 0.07934364> res$p.value[1] 0.07934364> alpha<-0.05> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=nx+ny-2)*Sp*sqrt(1/nx+1/ny)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=nx+ny-2)*Sp*sqrt(1/nx+1/ny)> c(lower,upper)[1] 1.127503 2.383861> res$conf.int[1] 1.127503 2.383861

–235–

attr(,"conf.level") [1] 0.95> c(xmedio,ymedio)[1] 7.018182 5.262500> res$estimatemean of x mean of y7.018182 5.262500

> mu0[1] 1.2> res$null.valuedifference in means

> xmedio<-131> sx<-15.5> nx<-5> ymedio<-117.4> sy<-13.5> ny<-5> mu0<-10> Sp<-sqrt(((nx-1)*sx**2+(ny-1)*sy**2)/(nx+ny-2))> Sp[1] 14.53444> t<-(xmedio-ymedio-mu0)/(Sp*sqrt(1/nx+1/ny))> t[1] 0.3916284> res<-tsum.test(mean.x=131,s.x=15.5,n.x=5,mean.y=117.4,s.y=13.5,n.y=5,+ mu=10,alt="two.sided",conf.level=0.95,var.equal=T)> res$statistic

t0.3916284> parameter<-nx+ny-2> parameter[1] 8> res$parameter[1] 8> p.value<-2*pt(-abs(t),df=nx+ny-2)> p.value[1] 0.705558> res$p.value[1] 0.705558> alpha<-0.05> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=nx+ny-2)*Sp*sqrt(1/nx+1/ny)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=nx+ny-2)*Sp*sqrt(1/nx+1/ny)> c(lower,upper)[1] -7.597685 34.797685> res$conf.int[1] -7.597685 34.797685 attr(,"conf.level") [1] 0.95> c(xmedio,ymedio)[1] 131.0 117.4> res$estimate

–236–

mean of x mean of y131.0 117.4

> mu0[1] 10> res$null.valuedifference in means

5.2.5 Test di Student con due campioni indipendenticon varianze non note e diverse

• Parametri:

mean.x valore di x

s.x valore di sx

n.x valore di nx

mean.y valore di y

s.y valore di sy

n.y valore di ny

• Output:

p.value p-value

• Formula:

statistic

t =(x− y)− (µx − µy )|H0√

s2x / nx + s2

y / ny

parameter

x / nx + s2y / ny

x / (n2x (nx − 1)) + s4

y / (n2y (ny − 1))

–237–

p.value

conf.int

x− y ∓ t1−α / 2, df

x / nx + s2y / ny

estimatex y

• Esempio:

> xmedio<-7.018182> sx<-0.5> nx<-11> ymedio<-5.2625> sy<-0.8> ny<-8> mu0<-1.2> t<-(xmedio-ymedio-mu0)/sqrt(sx**2/nx+sy**2/ny)> t[1] 1.733738> res<-tsum.test(mean.x=7.018182,s.x=0.5,n.x=11,mean.y=5.2625,s.y=0.8,n.y=8,+ mu=1.2,alt="two.sided",conf.level=0.95,var.equal=F)> res$statistic

t1.733738> gl<-(sx**2/nx+sy**2/ny)**2/(sx**4/(nx**2*(nx-1))+sy**4/(ny**2*(ny-1)))> gl[1] 10.92501> res$parameter[1] 10.92501> p.value<-2*pt(-abs(t),df=gl)> p.value[1] 0.1110536> res$p.value[1] 0.1110536> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=gl)*sqrt(sx**2/nx+sy**2/ny)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=gl)*sqrt(sx**2/nx+sy**2/ny)> c(lower,upper)[1] 1.049651 2.461713> res$conf.int[1] 1.049651 2.461713attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)

–238–

[1] 7.018182 5.262500> res$estimatemean of x mean of y7.018182 5.262500> mu0[1] 1.2> res$null.valuedifference in means

> xmedio<-131> sx<-15.5> nx<-5> ymedio<-117.4> sy<-13.5> ny<-5> mu0<-10> t<-(xmedio-ymedio-mu0)/sqrt(sx**2/nx+sy**2/ny)> t[1] 0.3916284> res<-tsum.test(mean.x=131,s.x=15.5,n.x=5,mean.y=117.4,s.y=13.5,n.y=5,+ mu=10,alt="two.sided",conf.level=0.95,var.equal=F)> res$statistic

t0.3916284> gl<-(sx**2/nx+sy**2/ny)**2/(sx**4/(nx**2*(nx-1))+sy**4/(ny**2*(ny-1)))> gl[1] 7.852026> res$parameter[1] 7.852026> p.value<-2*pt(-abs(t),df=gl)> p.value[1] 0.7057463> res$p.value[1] 0.7057463> lower<-(xmedio-ymedio)-qt(1-0.05/2,df=gl)*sqrt(sx**2/nx+sy**2/ny)> upper<-(xmedio-ymedio)+qt(1-0.05/2,df=gl)*sqrt(sx**2/nx+sy**2/ny)> c(lower,upper)[1] -7.667421 34.867421> res$conf.int[1] -7.667421 34.867421attr(,"conf.level")[1] 0.95> c(xmedio,ymedio)[1] 131.0 117.4> res$estimatemean of x mean of y

131.0 117.4> mu0[1] 10

–239–

> res$null.valuedifference in means

5.3 Test di ipotesi sulla varianza con uno o duecampioni

5.3.1 Test Chi-Quadrato con un campione

• Sintassi: test.var()

• Parametri:

var0 valore di σ20

alt puo essere cambiata in less o greater a seconda della codache interessa

alpha livello di significativita α

• Output:

Varianza campionaria stima della varianza sulla base del campione

statistica test valore empirico della statistica χ2

p-value p-value

livello del test livello di significativita α

Quantile Chi-quadrato quantile al (100 (1− α))%

gdl gradi di liberta

• Formula:

Varianza campionarias2

statistica test

c =(n− 1) s2

p-value

alt less greater

p-value P (χ2n−1 ≤ c) P (χ2

n−1 ≥ c)

livello del testα

Quantile Chi-quadrato

–240–

5.3 Test di ipotesi sulla varianza con uno o due campioni

alt less greater

Quantile Chi-quadrato χ2α, n−1 χ2

1−α, n−1

n− 1

• Esempio:

> x[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0 1.2 3.4> n<-length(x)> n[1] 12> Varianza_campionaria<-var(x)> Varianza_campionaria[1] 43.48386> var0<-24.3> statistica_test<-(n-1)*var(x)/var0> statistica_test[1] 19.68405> p.value<-pchisq(statistica_test,df=n-1) # alt="less"> p.value[1] 0.9501335> p.value<-1-pchisq(statistica_test,df=n-1) # alt="greater"> p.value[1] 0.04986654> alpha<-0.05> livello_del_test<-alpha> livello_del_test[1] 0.05> Quantile_Chi_Quadrato<-qchisq(0.05,df=n-1) # alt="less"> Quantile_Chi_Quadrato[1] 4.574813> Quantile_Chi_Quadrato<-qchisq(0.95,df=n-1) # alt="greater"> Quantile_Chi_Quadrato[1] 19.67514> gdl<-n-1> gdl[1] 11

> x[1] 33.30 30.10 38.62 38.94 42.63 41.96 46.30 43.25> n<-length(x)> n[1] 8> Varianza_campionaria<-var(x)> Varianza_campionaria[1] 29.13396> var0<-34

–241–

> statistica_test<-(n-1)*var(x)/var0> statistica_test[1] 5.998169> p.value<-pchisq(statistica_test,df=n-1) # alt="less"> p.value[1] 0.4600368> p.value<-1-pchisq(statistica_test,df=n-1) # alt="greater"> p.value[1] 0.5399632> alpha<-0.05> livello_del_test<-alpha> livello_del_test[1] 0.05> Quantile_Chi_Quadrato<-qchisq(0.05,df=n-1) # alt="less"> Quantile_Chi_Quadrato[1] 2.16735> Quantile_Chi_Quadrato<-qchisq(0.95,df=n-1) # alt="greater"> Quantile_Chi_Quadrato[1] 14.06714> gdl<-n-1> gdl[1] 7

5.3.2 Test di Fisher con due campioni

• Sintassi: var.test()

• Parametri:

ratio il valore di σ2x

∣∣∣H0

• Output:

statistic valore empirico della statistica F

p.value p-value

conf.int intervallo di confidenza per il rapporto tra le varianzeincognite al livello 1− α

estimate rapporto tra le varianze campionarie

–242–

5.3 Test di ipotesi sulla varianza con uno o due campioni

null.value valore di σ2x

∣∣∣H0

• Formula:

statistic

Fvalue =s2

∣∣∣H0

parameter

num df nx − 1den df ny − 1

p.value

alt less greater

p.value P (Fnx−1,ny−1 ≤ Fvalue) P (Fnx−1,ny−1 ≥ Fvalue)alt two.sided

p.value 2 min(P (Fnx−1,ny−1 ≤ Fvalue), P (Fnx−1,ny−1 ≥ Fvalue)

)conf.int

1F1−α

2 ,nx−1, ny−1

estimates2

null.valueσ2

∣∣∣∣∣H0

• Esempio:

> x[1] 7 -4 18 17 -3 -5 1 10 11 -2 -3> nx<-length(x)> nx[1] 11> y[1] -1 12 -1 -3 3 -5 5 2 -11 -1 -3> ny<-length(y)> ny[1] 11> ratio<-1.3> F<-sd(x)**2/sd(y)**2*(1/ratio)> F[1] 1.648524> res<-var.test(x,y,ratio=1.3,alt="two.sided",conf.level=0.95)

–243–

> res$statisticF

1.648524> c(nx-1,ny-1)[1] 10 10> res$parameternum df denom df

10 10> p.value<-2*min(pf(F,df1=nx-1,df2=ny-1),1-pf(F,df1=nx-1,df2=ny-1))> p.value[1] 0.4430561> res$p.value[1] 0.4430561> alpha<-0.05> lower<-(1/qf(1-0.05/2,df1=nx-1,df2=ny-1))*sd(x)**2/sd(y)**2> upper<-(1/qf(0.05/2,df1=nx-1,df2=ny-1))*sd(x)**2/sd(y)**2> c(lower,upper)[1] 0.5765943 7.9653858> res$conf.int[1] 0.5765943 7.9653858attr(,"conf.level")[1] 0.95> sd(x)**2/sd(y)**2[1] 2.143081> res$estimateratio of variances

2.143081> ratio[1] 1.3> res$null.valueratio of variances

> x[1] 7.8 6.6 6.5 7.4 7.3 7.0 6.4 7.1 6.7 7.6 6.8

> nx<-length(x)> nx[1] 11> y[1] 4.5 5.4 6.1 6.1 5.4 5.0 4.1 5.5> ny<-length(y)> ny[1] 8> ratio<-1.1> F<-sd(x)**2/sd(y)**2*(1/ratio)> F[1] 0.3922062> res<-var.test(x,y,ratio=1.1,alt="two.sided",conf.level=0.95)> res$statistic

–244–

5.4 Test di ipotesi su proporzioni

0.3922062> c(nx-1,ny-1)[1] 10 7> res$parameternum df denom df

10 7> p.value<-2*min(pf(F,df1=nx-1,df2=ny-1),1-pf(F,df1=nx-1,df2=ny-1))> p.value[1] 0.1744655> res$p.value[1] 0.1744655> alpha<-0.05> lower<-(1/qf(1-0.05/2,df1=nx-1,df2=ny-1))*sd(x)**2/sd(y)**2> upper<-(1/qf(0.05/2,df1=nx-1,df2=ny-1))*sd(x)**2/sd(y)**2> c(lower,upper)[1] 0.09061463 1.70405999> res$conf.int[1] 0.09061463 1.70405999attr(,"conf.level")[1] 0.95> sd(x)**2/sd(y)**2[1] 0.4314268> res$estimateratio of variances

0.4314268> ratio[1] 1.1> res$null.valueratio of variances

5.4.1 Test con un campione

• Sintassi: prop.test()

• Parametri:

x numero di successi

n dimensione campionaria

p il valore di p0

• Output:

statistic valore empirico della statistica χ2

–245–

p.value p-value

conf.int intervallo di confidenza per la proporzione incognita allivello 1− α

estimate proporzione calcolata sulla base del campione

null.value il valore di p0

• Formula:

statistic

xn − p0√p0 (1−p0)

parameter1

p.value

p.value Φ(z) 1− Φ(z) P (χ21 ≥ z2)

conf.int

z21−α / 2

2 n + xn ∓ z1−α / 2

√z21−α / 2

4 n2 +xn

(1− x

1 +z21−α / 2

estimatex

null.valuep0

• Esempio:

> x<-10> n<-23> p0<-0.45> z<-(x/n-p0)/sqrt(p0*(1-p0)/n)> z[1] -0.1466954> z**2[1] 0.02151954> res<-prop.test(x=10,n=23,p=0.45,alt="two.sided",conf.level=0.95,correct=F)> res$statisticX-squared

0.02151954> res$parameterdf

–246–

1> p.value<-1-pchisq(z**2,df=1)> p.value[1] 0.8833724> res$p.value[1] 0.8833724> alpha<-0.05> zc<-qnorm(1-0.05/2)> lower<-(zc**2/(2*n)+x/n-zc*sqrt(zc**2/(4*n**2)+x/n*(1-x/n)/n))/(1+zc**2/n)> upper<-(zc**2/(2*n)+x/n+zc*sqrt(zc**2/(4*n**2)+x/n*(1-x/n)/n))/(1+zc**2/n)> c(lower,upper)[1] 0.2563464 0.6318862> res$conf.int[1] 0.2563464 0.6318862attr(,"conf.level")[1] 0.95> x/n[1] 0.4347826> res$estimate

p0.4347826> p0[1] 0.45> res$null.value

> x<-18> n<-30> p0<-0.55> z<-(x/n-p0)/sqrt(p0*(1-p0)/n)> z[1] 0.5504819> z**2[1] 0.3030303> res<-prop.test(x=18,n=30,p=0.55,alt="two.sided",conf.level=0.95,correct=F)> res$statisticX-squared0.3030303> res$parameterdf1> p.value<-1-pchisq(z**2,df=1)> p.value[1] 0.5819889> res$p.value[1] 0.5819889> alpha<-0.05> zc<-qnorm(1-0.05/2)> lower<-(zc**2/(2*n)+x/n-zc*sqrt(zc**2/(4*n**2)+x/n*(1-x/n)/n))/(1+zc**2/n)

–247–

> upper<-(zc**2/(2*n)+x/n+zc*sqrt(zc**2/(4*n**2)+x/n*(1-x/n)/n))/(1+zc**2/n)> c(lower,upper)[1] 0.4232036 0.7540937> res$conf.int[1] 0.4232036 0.7540937attr(,"conf.level")[1] 0.95> x/n[1] 0.6> res$estimatep

0.6> p0[1] 0.55> res$null.value

• Osservazioni: I limiti di confidenza non possono scendere sotto 0 oppuresalire sopra 1.

5.4.2 Potenza nel Test con un campione

• Sintassi: power.prop.test()

• Parametri:

n il valore n della dimensione di ciascun campionep1 valore p1 della proporzione sotto ipotesi nullap2 il valore p2 della proporzione sotto l’ipotesi alternativasig.level livello di significativita α

power potenza 1− β

alt puo essere cambiata in one.s, two.s a seconda del numero dicode che interessano

• Output:

p1 il valore p1 della proporzione sotto l’ipotesi nullap2 il valore p2 della proporzione sotto l’ipotesi alternativan il valore n della dimensione di ciascun campionesig.level livello di significativita α

power potenza 1− β

• Formula:ξ =

√p1 (1− p1) + p2 (1− p2)

δ =√

(p1 + p2) (1− (p1 + p2) / 2)

γ = |p1 − p2|

–248–

alt = one.s

[(ξ / γ) Φ−1(1− β) + (δ / γ) Φ−1(1− α)

]2sig.level

α = 1− Φ((γ / δ)

√n− (ξ / δ)Φ−1(1− β)

)power

1− β = Φ((γ / ξ)

√n− (δ / ξ)Φ−1(1− α)

)alt = two.s

[(ξ / γ)Φ−1(1− β) + (δ / γ) Φ−1(1− α / 2)

]2sig.level

α = 2[1− Φ

((γ / δ)

√n− (ξ / δ)Φ−1(1− β)

)]power

1− β = Φ((γ / ξ)

√n− (δ / ξ) Φ−1(1− α / 2)

)• Esempio:

> n<-23> p1<-0.23> p2<-0.31> power.prop.test(n,p1,p2,sig.level=NULL,power=0.9,alt="one.s")> # risolve rispetto ad alpha

> p1<-0.23> p2<-0.31> power.prop.test(n=NULL,p1,p2,sig.level=0.05,power=0.9,alt="one.s")> # risolve rispetto ad n

> n<-23> p1<-0.23> p2<-0.31> power.prop.test(n,p1,p2,sig.level=0.05,power=NULL,alt="one.s")> # risolve rispetto a power

–249–

5.4.3 Test con due campioni indipendenti

• Parametri:

x rappresenta il numero di successi nel primo campione

y rappresenta il numero di successi nel secondo campione

nx dimensione del primo campione

ny dimensione del secondo campione

• Output:

p.value p-value

conf.int intervallo di confidenza per la differenza tra le proporzioniincognite al livello 1− α

estimate proporzioni calcolate sulla base dei campioni

• Formula:

statistic

− yny√

x+ynx+ny

(1− x+y

parameter1

p.value

p.value Φ(z) 1− Φ(z) P (χ21 ≥ z2)

conf.int

nx− y

ny∓ z1−α / 2

(1− x

(1− y

estimatex

• Esempio:

–250–

> x<-9> nx<-23> y<-11> ny<-32> z<-(x/nx-y/ny)/sqrt((x+y)/(nx+ny)*(1-(x+y)/(nx+ny))*(1/nx+1/ny))> z**2[1] 0.1307745> res<-prop.test(c(x,y),c(nx,ny),alt="two.sided",conf.level=0.95,correct=F)> res$statisticX-squared 0.1307745> res$parameterdf1> p.value<-1-pchisq(z**2,df=1)> p.value[1] 0.7176304> res$p.value[1] 0.7176304> lower<-(x/nx-y/ny)-qnorm(1-0.05/2)*sqrt(x/nx*(1-x/nx)/nx+y/ny*(1-y/ny)/ny)> upper<-(x/nx-y/ny)+qnorm(1-0.05/2)*sqrt(x/nx*(1-x/nx)/nx+y/ny*(1-y/ny)/ny)> c(lower,upper)[1] -0.2110231 0.3061318> res$conf.int[1] -0.2110231 0.3061318attr(,"conf.level")[1] 0.95> c(x/nx,y/ny)[1] 0.3913043 0.3437500> res$estimate

prop 1 prop 20.3913043 0.3437500

> x<-4> nx<-20> y<-11> ny<-24> z<-(x/nx-y/ny)/sqrt((x+y)/(nx+ny)*(1-(x+y)/(nx+ny))*(1/nx+1/ny))> z**2[1] 3.240153> res<-prop.test(c(x,y),c(nx,ny),alt="two.sided",conf.level=0.95,correct=F)> res$statisticX-squared3.240153> res$parameterdf1> p.value<-1-pchisq(z**2,df=1)> p.value[1] 0.07185392> res$p.value

–251–

[1] 0.07185392> lower<-(x/nx-y/ny)-qnorm(1-0.05/2)*sqrt(x/nx*(1-x/nx)/nx+y/ny*(1-y/ny)/ny)> upper<-(x/nx-y/ny)+qnorm(1-0.05/2)*sqrt(x/nx*(1-x/nx)/nx+y/ny*(1-y/ny)/ny)> c(lower,upper)[1] -0.523793280 0.007126613> res$conf.int[1] -0.523793280 0.007126613attr(,"conf.level")[1] 0.95> c(x/nx,y/ny)[1] 0.2000000 0.4583333> res$estimate

prop 1 prop 20.2000000 0.4583333

• Osservazioni: I limiti di confidenza non possono scendere sotto -1 oppuresalire sopra 1.

5.4.4 Test con k campioni indipendenti

• Parametri:

x numero di successi nei k campioni

n dimensione dei k campioni

• Output:

p.value p-value

estimate proporzioni calcolate sulla base dei k campioni

• Formula:

statistic

c =k∑

ni− p√

p (1− p) / ni

dove p =

∑kj=1 xj∑kj=1 nj

parameterk − 1

p.valueP (χ2

k−1 ≥ c)

–252–

5.5 Test di ipotesi sull’omogeneita delle varianze

estimatexi

ni∀ i = 1, 2, . . . , k

• Esempio:

> k<-3> x<-c(1,2,3)> n<-c(3,5,8)> prop.test(x,n,correct=F)

5.5 Test di ipotesi sull’omogeneita delle varian-ze

5.5.1 Test di Bartlett

• Sintassi: bartlett.test()

• Parametri:

• Output:

p.value p-value

• Formula:

statistic

c =(n− k) log (s2

P )−∑k

j=1 (nj − 1) log (s2j )

1 + 13 (k−1)

(∑kj=1

1nj−1 −

1n−k

dove s2P =

∑kj=1 (nj − 1) s2

n− k

parameter

k − 1

p.value

P (χ2k−1 ≥ c)

• Esempio:

–253–

> x[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0 1.2 3.4> f[1] 1 1 1 2 2 2 3 3 3 4 4 4Levels: 1 2 3 4> n<-length(f)> n[1] 12> k<-nlevels(f)> k[1] 4> s2<-tapply(x,f,var)> s2

a b c d21.000000 3.103333 16.470000 130.573333

> enne<-tapply(x,f,length)> ennea b c d3 3 3 3> Sp2<-sum((enne-1)*s2/(n-k))> Sp2[1] 42.78667> c<-((n-k)*log(Sp2)-sum((enne-1)*log(s2)))/(1+1/(3*(k-1))*(sum(1/(enne-1))-1/(n-k)))> c[1] 5.254231> res<-bartlett.test(x,f)> res$statisticBartlett’s K-squared

5.254231> parameter<-k-1> parameter[1] 3> res$parameterdf3

> p.value<-1-pchisq(c,df=k-1)> p.value[1] 0.1541> res$p.value[1] 0.1541

> x[1] 0.7 -1.6 -0.2 -1.2 -0.1 3.4 3.7 0.8 0.0 2.0 1.9 0.8> f[1] 1 1 1 1 1 1 1 1 2 2 2 2Levels: 1 2> n<-length(f)> n[1] 12> k<-nlevels(f)

–254–

5.5 Test di ipotesi sull’omogeneita delle varianze

> k[1] 2> s2<-tapply(x,f,var)> s2

1 23.8069643 0.9091667> enne<-tapply(x,f,length)> enne1 28 4> Sp2<-sum((enne-1)*s2/(n-k))> Sp2[1] 2.937625> c<-((n-k)*log(Sp2)-sum((enne-1)*log(s2)))/(1+1/(3*(k-1))*(sum(1/(enne-1))-1/(n-k)))> c[1] 1.514017> res<-bartlett.test(y,f)> res$statisticBartlett’s K-squared

1.514017> parameter<-k-1> parameter[1] 1> res$parameterdf1> p.value<-1-pchisq(c,df=k-1)> p.value[1] 0.2185271> res$p.value[1] 0.2185271

–255–

–256–

CAPITOLO 6

Analisi della varianza (Anova)

6.1 Simbologia

• numero di livelli dei fattori di colonna e di riga:

Anova f (colonna) g (riga)ad una fattore k /

a due fattori senza interazione k ha due fattori con interazione k h

• dimensione campionaria di colonna, di riga e di cella:

Anova j-esima colonna i-esima riga ij-esima cellaad un fattore nj / /

a due fattori senza interazione hl kl la due fattiori con interazione hl kl l

• medie campionarie di colonna, di riga e di cella:

Anova j-esima colonna i-esima riga ij-esima cellaad un fattore yj / /

a due fattori senza interazione y·j· yi·· yij·a due vie con interazione y·j· yi·· yij·

• media campionaria generale: y

6.2 Comandi utili in analisi della varianza

6.2.1 factor()

• Parametri:

–257–

f vettore numerico o alfanumerico

levels etichette di livello

• Significato: crea un fattore

• Esempio:

> sesso<-c(rep("U",4),rep("D",4))> sesso[1] "U" "U" "U" "U" "D" "D" "D" "D"> sesso<-factor(sesso,levels=c("U","D"))> sesso[1] U U U U D D D DLevels: U D> sesso<-factor(sesso,levels=c("D","U"))> sesso[1] U U U U D D D DLevels: D U> sesso<-c(rep(1,4),rep(2,4))> sesso[1] 1 1 1 1 2 2 2 2> sesso<-factor(sesso)> sesso[1] 1 1 1 1 2 2 2 2Levels: 1 2> levels(sesso)<-c("U","D")> sesso[1] U U U U D D D DLevels: U D> levels(sesso)<-c("D","U")> sesso[1] D D D D U U U ULevels: D U> fattore<-factor(scan(what="character"))1: A2: B3: C4: B5: A6: C7: C8: A9:Read 8 items> fattore[1] A B C B A C C ALevels: A B C

–258–

6.2.2 as.factor()

• Parametri:

• Significato: creazione di un fattore

• Esempio:

> x<-c("a","b","b","c","a","c","b","b","c","a","c","a")> x[1] "a" "b" "b" "c" "a" "c" "b" "b" "c" "a" "c" "a"> x<-as.factor(x)> x[1] a b b c a c b b c a c aLevels: a b c> x<-c(1,2,3,2,3,1,3,2)> x[1] 1 2 3 2 3 1 3 2> x<-as.factor(x)> x[1] 1 2 3 2 3 1 3 2Levels: 1 2 3

6.2.3 relevel()

• Parametri:

ref livello di riferimento

• Significato: ricodificazione dei livelli di un fattore

• Esempio:

> f[1] a b c a b b c c a bLevels: a b c> cbind(f)

f[1,] 1[2,] 2[3,] 3[4,] 1[5,] 2[6,] 2[7,] 3[8,] 3[9,] 1

–259–

[10,] 2> f<-relevel(f,ref="b")> f[1] a b c a b b c c a bLevels: b a c> cbind(f)

f[1,] 2[2,] 1[3,] 3[4,] 2[5,] 1[6,] 1[7,] 3[8,] 3[9,] 2

[10,] 1> f<-relevel(f,ref="c")> f[1] a b c a b b c c a bLevels: c b a> cbind(f)

f[1,] 3[2,] 2[3,] 1[4,] 3[5,] 2[6,] 2[7,] 1[8,] 1[9,] 3[10,] 2

6.2.4 by()

• Parametri:

FUN funzione

• Significato: applica FUN ad ogni vettore numerico per livello del fattore

• Esempio:

> y[1] 1.2 2.3 5.6 3.5 2.5 3.8 6.8 5.7 3.7 6.4

–260–

> f[1] a b c a b b c c a bLevels: a b c> g[1] alto medio basso alto medio basso medio alto alto bassoLevels: alto basso medio> by(y,f,FUN=mean)> by(y,list(f,g),FUN=mean)

6.2.5 tapply()

• Parametri:

FUN funzione

• Significato: applica la funzione FUN ad ogni gruppo di elementi di ydefinito dai livelli di f

• Esempio:

> y[1] 1.2 2.3 5.6 3.5 2.5 3.8 6.8 5.7 3.7 6.4> f[1] a b c a b b c c a bLevels: a b c> g[1] alto medio basso alto medio basso medio alto alto bassoLevels: alto basso medio> tapply(y,f,FUN=mean)> tapply(y,list(f,g),FUN=mean)

6.2.6 gl()

• Parametri:

n numero dei livelli

k numero delle replicazioni

length lunghezza del fattore

labels nomi dei livelli

• Significato: crea un fattore

–261–

• Esempio:

> n<-2> k<-5> gl(n,k,labels=c("M","F"))[1] M M M M M F F F F FLevels: M F> n<-2> k<-1> l<-10> gl(n,k,length=l,labels=c("A","B"))[1] A B A B A B A B A BLevels: A B

6.2.7 levels()

• Parametri:

• Significato: nome dei livelli

• Esempio:

> f<-factor(c(rep(1,5),rep(2,5)))> f[1] 1 1 1 1 1 2 2 2 2 2Levels: 1 2> levels(f)[1] "1" "2"

6.2.8 nlevels()

• Parametri:

• Significato: numero di livelli

• Esempio:

> f<-factor(c(rep(1,5),rep(2,5)))> f[1] 1 1 1 1 1 2 2 2 2 2Levels: 1 2> nlevels(f)[1] 2

–262–

6.2.9 ordered()

• Parametri:

• Significato: fattore con livelli su scala ordinale

• Esempio:

> f<-factor(c(rep(1,5),rep(2,5)))> f[1] 1 1 1 1 1 2 2 2 2 2Levels: 1 2> levels(f)<-c("U","D")> f[1] U U U U U D D D D DLevels: U D> f<-ordered(f,levels=c("U","D"))> f[1] U U U U U D D D D DLevels: U < D

6.2.10 letters[ ]

• Parametri:

x vettore di valori naturali compresi tra 1 e 26

• Significato: lettere minuscole

• Esempio:

> x<-1:6> letters[x][1] "a" "b" "c" "d" "e" "f"> x<-c(3,5,6,26)> letters[x][1] "c" "e" "f" "z"

6.2.11 LETTERS[ ]

• Parametri:

x vettore di valori naturali compresi tra 1 e 26

• Significato: lettere maiuscole

• Esempio:

–263–

> x<-1:6> LETTERS[x][1] "A" "B" "C" "D" "E" "F"> x<-c(3,5,6,26)> LETTERS[x][1] "C" "E" "F" "Z"

6.3 Modelli di analisi della varianza

6.3.1 Anova ad un fattore

• Sintassi: anova()

• Parametri:

–264–

• Output:

Df gradi di liberta

Sum Sq somma dei quadrati

Mean Sq media dei quadrati

F value valore empirico della statistica F

Pr(>F) p-value

• Formula:

f k − 1Residuals n− k

Sum Sq

j=1 nj (yj − y)2

Residuals∑k

i=1 (yij − yj)2

Mean Sq

f[∑k

j=1 nj (yj − y)2]/ (k − 1)

Residuals[∑k

i=1 (yij − yj)2]/(n− k

)F value

Fvalue =

[∑kj=1 nj (yj − y)2

]/ (k − 1)[∑k

i=1 (yij − yj)2]/(n− k

)Pr(>F)

P (Fk−1, n−k ≥ Fvalue)

• Esempio:

> y[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0 1.2 3.4> f[1] a a a b b b c c c d d dLevels: a b c d> anova(lm(y~f))

–265–

6.3.2 Anova a due fattori senza interazione

• Parametri:

y vettore numerico di dimensione khl

f fattore a k livelli di dimensione khl

g fattore a h livelli di dimensione khl

• Output:

Df gradi di liberta

Pr(>F) p-value

• Formula:

f k − 1g h− 1

Residuals k h l − (k + h− 1)

Sum Sq

f hl∑k

j=1 (y·j· − y)2

g kl∑h

i=1 (yi·· − y)2

Residuals l∑k

∑hi=1 (yij· − yi·· − y·j· + y)2 +

∑kj=1

∑hi=1

∑lm=1 (yijm − yij·)2

–266–

Mean Sq

f[hl∑k

j=1 (y·j· − y)2]/ (k − 1)

g[kl∑h

i=1 (yi·· − y)2]/ (h− 1)

Residuals [l Pkj=1Ph

i=1 (yij·−yi··−y·j·+y)2+Pk

m=1 (yijm−yij·)2]

[k h l−(k+h−1)]

F value

Ffvalue

[h lPk

j=1 (y·j·−y)2]

/ (k−1)

[l Pkj=1

Phi=1 (yij·−yi··−y·j·+y)2+

Plm=1 (yijm−yij·)2]

[k h l−(k+h−1)]

Fgvalue

i=1 (yi··−y)2]

/ (h−1)

[l Pkj=1

Phi=1 (yij·−yi··−y·j·+y)2+

Plm=1 (yijm−yij·)2]

[k h l−(k+h−1)]

Pr(>F)

f P (Fk−1, k h l−(k+h−1) ≥ Ffvalue)g P (Fh−1, k h l−(k+h−1)) ≥ Fgvalue)

• Esempio:

> y[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 6.5 2.0 1.2 3.4> f[1] a a a a a a b b b b b bLevels: a b> g[1] B A B A B A B A B A B ALevels: A B> table(f,g)

gf A B

a 3 3b 3 3

> n<-length(y)> n[1] 12> k<-nlevels(f)> k[1] 2> h<-nlevels(g)> h[1] 2> l<-3> l[1] 3> anova(lm(y~f+g))

–267–

• Osservazioni: Il numero di replicazioni per cella l deve essere maggioreod uguale ad uno.

6.3.3 Anova a due fattori con interazione

• Parametri:

f fattore a k livelli di dimensione khl

g fattore a h livelli di dimensione khl

• Output:

Df gradi di liberta

Pr(>F) p-value

• Formula:

f k − 1g h− 1

f : g (k − 1) (h− 1)Residuals k h (l − 1)

Sum Sq

f hl∑k

j=1 (y·j· − y)2

g kl∑h

i=1 (yi·· − y)2

f : g l∑k

∑hi=1 (yij· − yi·· − y·j· + y)2

Residuals∑k

∑hi=1

–268–

Mean Sq

f[hl∑k

j=1 (y·j· − y)2]/ (k − 1)

g[kl∑h

i=1 (yi·· − y)2]/ (h− 1)

f : g[l∑k

∑hi=1 (yij· − yi·· − y·j· + y)2

]/ [(k − 1) (h− 1)]

Residuals[∑k

∑hi=1

]/ [k h (l − 1)]

F value

Ffvalue

[h lPk

j=1 (y·j·−y)2]

/ (k−1)[Pkj=1Ph

/ [k h (l−1)]

Fgvalue

i=1 (yi··−y)2]

/ (h−1)[Pkj=1Ph

/ [k h (l−1)]

Ff :gvalue

i=1 (yij·−yi··−y·j·+y)2]

/ [(k−1) (h−1)][Pkj=1Ph

/ [kh (l−1)]

Pr(>F)

f P (Fk−1, k h (l−1) ≥ Ffvalue)g P (Fh−1, k h (l−1) ≥ Fgvalue)

f : g P (F(k−1) (h−1), k h (l−1)) ≥ Ff :gvalue)

• Esempio:

> y[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 6.5 2.0 1.2 3.4> f[1] a a a a a a b b b b b bLevels: a b> g[1] B A B A B A B A B A B ALevels: A B> table(f,g)

gf A B

a 3 3b 3 3

> n<-length(y)> n[1] 12> k<-nlevels(f)> k[1] 2> h<-nlevels(g)> h[1] 2> l<-3

–269–

> l[1] 3> anova(lm(y~f+g+f:g))

• Osservazioni: Il numero di replicazioni per cella l deve essere maggioredi uno.

–270–

CAPITOLO 7

Confronti multipli

7.1 Simbologia

• numero di livelli dei fattori di colonna e di riga:

Anova f (colonna) g (riga)ad un fattore k /

a due fattori senza interazione k ha due fattori con interazione k h

• dimensione campionaria di colonna, di riga e di cella:

Anova j-esima colonna i-esima riga ij-esima cellaad un fattore nj / /

a due fattori senza interazione h k /a due fattori con interazione hl kl l

• medie campionarie di colonna, di riga e di cella:

Anova j-esima colonna i-esima riga ij-esima cellaad un fattore yj / /

a due fattori senza interazione y·j· yi·· yij·a due fattori con interazione y·j· yi·· yij·

• media campionaria generale: y

7.2 Metodo di Tukey

7.2.1 Applicazione in Anova ad un fattore

• Sintassi: TukeyHSD()

–271–

• Parametri:

f fattore con livelli 1, 2, . . . , k

• Output:

f intervallo di confidenza a livello 1− α per il fattore f

• Formula:

f[,1]yi − yj ∀ i > j = 1, 2, . . . , k

f[,c(2,3)]

yi−yj ∓ q1−α, k, n−k sP

√1 / (2 ni) + 1 / (2 nj) ∀ i > j = 1, 2, . . . , k

dove s2P =

k∑j=1

nj∑i=1

(yij − yj)2 / (n− k)

• Esempio:

> y[1] 19 24 24 27 20 24 22 21 22 29 18 17> f[1] 1 2 3 1 2 3 1 2 3 1 2 3Levels: 1 2 3> n<-length(y)> n[1] 12> k<-nlevels(f)> k[1] 3> alpha<-0.05> qCRITf<-qtukey(1-alpha,k,n-k)> qCRITf[1] 3.948492> TukeyHSD(aov(y~f),conf.level=1-alpha)

7.2.2 Applicazione in Anova a fattori senza interazione

• Parametri:

–272–

7.2 Metodo di Tukey

g fattore con livelli 1, 2, . . . , h

• Output:

g intervallo di confidenza a livello 1− α per il fattore g

f:g intervallo di confidenza a livello 1− α per l’interazione f:g

• Formula:

f[,1]y·i· − y·j· ∀ i > j = 1, 2, . . . , k

f[,c(2,3)]

y·i· − y·j· ∓ q1−α, k, k h l−(k+h−1) sP /√

h l ∀ i > j = 1, 2, . . . , k

dove s2P =

[l∑k

∑hi=1 (yij· − yi·· − y·j· + y)2 +

∑kj=1

∑hi=1

][k h l − (k + h− 1)]

g[,1]yi·· − yj·· ∀ i > j = 1, 2, . . . , h

g[,c(2,3)]

yi·· − yj·· ∓ q1−α, h, k h l−(k+h−1) sP /√

k l ∀ i > j = 1, 2, . . . , h

dove s2P =

[l∑k

∑hi=1 (yij· − yi·· − y·j· + y)2 +

∑kj=1

∑hi=1

][k h l − (k + h− 1)]

• Esempio:

> y[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0 1.2[12] 3.4> f[1] a a a a a a b b b b b bLevels: a b> g[1] A B A B A B A B A B A BLevels: B A> table(f,g)

gf B A

a 3 3b 3 3

–273–

> n<-length(y)> n[1] 12> k<-nlevels(f)> k[1] 2> h<-nlevels(g)> h[1] 2> l<-3> l[1] 3> alpha<-0.05> qCRITf<-qtukey(1-alpha,k,k*h*l-(k+h-1))> qCRITf[1] 3.199173> qCRITg<-qtukey(1-alpha,h,k*h*l-(k+h-1))> qCRITg[1] 3.199173> TukeyHSD(aov(y~f+g),conf.level=0.95)

• Osservazioni: Il numero di replicazioni per cella l deve essere maggioreod uguale ad uno.

7.2.3 Applicazione in Anova a due fattori con interazione

• Parametri:

g fattore con livelli 1, 2, . . . , h

• Output:

g intervallo di confidenza a livello 1− α per il fattore g

f:g intervallo di confidenza a livello 1− α per l’interazione f:g

• Formula:

y·i· − y·j· ∀ i > j = 1, 2, . . . , k

f[,c(2,3)]

y·i· − y·j· ∓ q1−α, k, k h (l−1) sP /√

h l ∀ i > j = 1, 2, . . . , k

–274–

7.2 Metodo di Tukey

dove s2P =

k∑j=1

h∑i=1

l∑m=1

(yijm − yij·)2 / [k h (l − 1)]

g[,1]yi·· − yj·· ∀ i > j = 1, 2, . . . , h

g[,c(2,3)]

yi·· − yj·· ∓ q1−α, h, k h (l−1) sP /√

k l ∀ i > j = 1, 2, . . . , h

dove s2P =

k∑j=1

h∑i=1

l∑m=1

(yijm − yij·)2 / [k h (l − 1)]

f:g[,1]

yij· − yuw· ∀ i, u = 1, 2, . . . , h ∀ j, w = 1, 2, . . . , k

f:g[,c(2,3)]

yij·−yuw·∓ q1−α, k h, k h (l−1) sP /√

l ∀ i, u = 1, 2, . . . , h ∀ j, w = 1, 2, . . . , k

dove s2P =

k∑j=1

h∑i=1

l∑m=1

(yijm − yij·)2 / [k h (l − 1)]

• Esempio:

> y[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0 1.2[12] 3.4> f[1] a a a a a a b b b b b bLevels: a b> g[1] A B A B A B A B A B A BLevels: B A> table(f,g)

gf B A

a 3 3b 3 3

> n<-length(y)> n[1] 12> k<-nlevels(f)> k

–275–

[1] 2> h<-nlevels(g)> h[1] 2> l<-3> l[1] 3> alpha<-0.05> qCRITf<-qtukey(1-alpha,k,k*h*(l-1))> qCRITf[1] 3.261182> qCRITg<-qtukey(1-alpha,h,k*h*(l-1))> qCRITg[1] 3.261182> qCRITfg<-qtukey(1-alpha,k*h,k*h*(l-1))> qCRITfg[1] 4.52881> TukeyHSD(aov(y~f+g+f:g),conf.level=0.95)

• Osservazioni: Il numero di replicazioni per cella l deve essere maggioredi uno.

7.3 Metodo di Bonferroni

• Sintassi: pairwise.t.test()

• Parametri:

f fattore con livelli 1, 2, . . . , k livelli

• Output:

p.value p-value

• Formula:

p.value

)P (tn−k ≤ −| t |) = k (k − 1) P (tn−k ≤ −| t |)

dove t =yi − yj

√1 / ni + 1 / nj

∀ i > j = 1, 2, . . . , k

ed s2P =

k∑j=1

nj∑i=1

(yij − yj)2 / (n− k)

–276–

7.4 Metodo di Student

• Esempio:

> y[1] 19 24 24 27 20 24 22 21 22 29 18 17> f[1] 1 2 3 1 2 3 1 2 3 1 2 3Levels: 1 2 3> n<-length(y)> n[1] 12> k<-nlevels(f)> k[1] 3> pairwise.t.test(y,f,p.adjust.method="bonferroni")

7.4 Metodo di Student

• Sintassi: pairwise.t.test()

• Parametri:

• Output:

p.value p-value

• Formula:

p.value2 P (tn−k ≤ −| t |)

dove t =yi − yj

√1 / ni + 1 / nj

∀ i > j = 1, 2, . . . , k

ed s2P =

k∑j=1

nj∑i=1

(yij − yj)2 / (n− k)

• Esempio:

> y[1] 19 24 24 27 20 24 22 21 22 29 18 17> f[1] 1 2 3 1 2 3 1 2 3 1 2 3

–277–

Levels: 1 2 3> n<-length(y)> n[1] 12> k<-nlevels(f)> k[1] 3> pairwise.t.test(y,f,p.adjust.method="none")

–278–

CAPITOLO 8

Test di ipotesi su correlazione edautocorrelazione

8.1 Test di ipotesi sulla correlazione lineare

8.1.1 Test di Pearson

• Sintassi: cor.test()

• Parametri:

alt puo essere cambiata in less, greater, two.sided a secondadella coda che interessaconf.level livello di confidenza 1− α

• Output:

parameter gradi di libertap.value p-valueconf.int intervallo di confidenza a livello 1 − α ottenuto con latrasformazione Z di Fisherestimate coefficiente di correlazione campionario

• Formula:

statistic

t = rxy

√n− 2

1− r2xy

dove rxy =∑n

i=1 xi yi − n x y

i=1 (xi − x)2)1 / 2 (∑n

i=1 (yi − y)2)1 / 2

–279–

parameterdf = n− 2

p.value

p.value P (tdf ≤ t) P (tdf ≥ t) 2 P (tdf ≥ | t |)

conf.int

1 + rxy

1− rxy

z1−α / 2√n− 3

1 + rxy

1− rxy

z1−α / 2√n− 3

)estimate

• Esempio:

> x[1] 1 2 2 4 3 3> y[1] 6 6 7 7 7 9> n<-length(x)> n[1] 6> r<-cov(x,y)/(sd(x)*sd(y))> r[1] 0.522233> t<-r*sqrt((n-2)/(1-r**2))> t[1] 1.224745> res<-cor.test(x,y,alt="two.sided",conf.level=0.95,method="pearson")> res$statistic

t1.224745> parameter<-n-2> parameter[1] 4> res$parameterdf4

> p.value<-2*pt(-abs(t),df=n-2)> p.value[1] 0.2878641> res$p.value[1] 0.2878641> lower<-tanh(0.5*log((1+r)/(1-r))-qnorm(1-0.05/2)/sqrt(n-3))> upper<-tanh(0.5*log((1+r)/(1-r))+qnorm(1-0.05/2)/sqrt(n-3))> c(lower,upper)[1] -0.5021527 0.9367690> res$conf.int

–280–

[1] -0.5021527 0.9367690attr(,"conf.level")[1] 0.95> r[1] 0.522233> res$estimate

cor0.522233

> x[1] 1.2 1.2 3.4 3.4 4.5 5.5 5.5 5.0 6.6 6.6 6.6> y[1] 1.3 1.3 1.3 4.5 5.6 6.7 6.7 6.7 8.8 8.8 9.0> n<-length(x)> n[1] 11> r<-cov(x,y)/(sd(x)*sd(y))> r[1] 0.9527265> t<-r*sqrt((n-2)/(1-r**2))> t[1] 9.40719> res<-cor.test(x,y,alt="two.sided",conf.level=0.95,method="pearson")> res$statistic

t9.40719> parameter<-n-2> parameter[1] 9> res$parameterdf9> p.value<-2*pt(-abs(t),df=n-2)> p.value[1] 5.936572e-06> res$p.value[1] 5.936572e-06> lower<-tanh(0.5*log((1+r)/(1-r))-qnorm(1-0.05/2)/sqrt(n-3))> upper<-tanh(0.5*log((1+r)/(1-r))+qnorm(1-0.05/2)/sqrt(n-3))> c(lower,upper)[1] 0.8234897 0.9879637> res$conf.int[1] 0.8234897 0.9879637attr(,"conf.level")[1] 0.95> r[1] 0.9527265> res$estimate

cor0.9527265

–281–

8.1.2 Test di Kendall

• Sintassi: cor.test()

• Parametri:

• Output:

p.value p-value

estimate coefficiente di correlazione campionario

• Formula:

statistic

∑n−1i=1

∑nj=i+1 sign((xj − xi) (yj − yi))

σ2K =

n (n− 1) (2 n + 5)18

−∑g

i=1 ti (ti − 1) (2 ti + 5) +∑h

j=1 uj (uj − 1) (2 uj + 5)18

[∑gi=1 ti (ti − 1) (ti − 2)

] [∑hj=1 uj (uj − 1) (uj − 2)

]9 n (n− 1) (n− 2)

[∑gi=1 ti (ti − 1)

] [∑hj=1 uj (uj − 1)

]2 n (n− 1)

e t, u sono i ties di x ed y rispettivamente.

p.value

p.value Φ(z) 1− Φ(z) 2 Φ(− |z|))

estimate

rKxy =

2∑n−1

∑nj=i+1 sign((xj − xi) (yj − yi))(

n (n− 1)−∑g

i=1 ti (ti − 1))1 / 2 (

n (n− 1)−∑h

j=1 uj (uj − 1))1 / 2

–282–

• Esempio:

> x[1] 1 2 2 4 3 3> y[1] 6 6 7 7 7 9> n<-length(x)> n[1] 6> matrice<-matrix(0,nrow=n-1,ncol=n,byrow=F)> for(i in 1:(n-1))+ for(j in (i+1):n)+ matrice[i,j]<-sign((x[j]-x[i])*(y[j]-y[i]))> num<-sum(matrice)> num[1] 7> table(x)x1 2 3 41 2 2 1> g<-2> t1<-2> t2<-2> t<-c(t1,t2)> t[1] 2 2> table(y)y6 7 92 3 1> h<-2> u1<-2> u2<-3> u<-c(u1,u2)> u[1] 2 3> sigmaK<-sqrt(n*(n-1)*(2*n+5)/18-+(sum(t*(t-1)*(2*t+5))+sum(u*(u-1)*(2*u+5)))/18++(sum(t*(t-1)*(t-2))*sum(u*(u-1)*(u-2)))/(9*n*(n-1)*(n-2))++(sum(t*(t-1))*sum(u*(u-1)))/(2*n*(n-1)))> sigmaK[1] 4.711688> z<-num/sigmaK> z[1] 1.485667> res<-cor.test(x,y,alt="two.sided",method="kendall",exact=F)> res$statistic

z1.485667> res<-cor.test(x,y,alt="two.sided",method="kendall",exact=F)

–283–

> res$statisticz

1.485667> p.value<-2*pnorm(-abs(z))> p.value[1] 0.1373672> res$p.value[1] 0.1373672> cor(x,y,method="kendall")[1] 0.5853694> res$estimate

tau0.5853694

> x[1] 1.2 1.2 3.4 3.4 4.5 5.5 5.5 5.0 6.6 6.6 6.6

> y[1] 1.3 1.3 1.3 4.5 5.6 6.7 6.7 6.7 8.8 8.8 9.0

> n<-length(x)> n[1] 11> matrice<-matrix(0,nrow=n-1,ncol=n,byrow=F)> for(i in 1:(n-1))+ for(j in (i+1):n)+ matrice[i,j]<-sign((x[j]-x[i])*(y[j]-y[i]))> num<-sum(matrice)> num[1] 45> table(x)x 1.2 3.4 4.5 5 5.5 6.62 2 1 1 2 3

> g<-4> t1<-2> t2<-2> t3<-2> t4<-3> t<-c(t1,t2,t3,t4)> t[1] 2 2 2 3> table(y)y 1.3 4.5 5.6 6.7 8.8 93 1 1 3 2 1

> h<-3> u1<-3> u2<-3> u3<-2> u<-c(u1,u2,u3)> u[1] 3 3 2> sigmaK<-sqrt(n*(n-1)*(2*n+5)/18-

–284–

8.2 Test di ipotesi sulla autocorrelazione

+(sum(t*(t-1)*(2*t+5))+sum(u*(u-1)*(2*u+5)))/18++(sum(t*(t-1)*(t-2))*sum(u*(u-1)*(u-2)))/(9*n*(n-1)*(n-2))++(sum(t*(t-1))*sum(u*(u-1)))/(2*n*(n-1)))> sigmaK[1] 12.27891> z<-num/sigmaK> z[1] 3.664819> res<-cor.test(x,y,alt="two.sided",method="kendall",exact=F)> res$statistic

z3.664819> p.value<-2*pnorm(-abs(z))> p.value[1] 0.0002475132> res$p.value[1] 0.0002475132> cor(x,y,method="kendall")[1] 0.9278844> res$estimate

tau0.9278844

8.2.1 Test di Box - Pierce

• Sintassi: Box.test()

• Parametri:

• Output:

parameter gradi di libertap.value p-value

• Formula:

statistic

c = nd∑

ρ 2(k)

dove ρ(k) =∑n−k

t=1 (xt − x) (xt+k − x)∑nt=1 (xt − x)2

∀ k = 1, 2, . . . , d

–285–

parameter

p.value

P (χ2d ≥ c)

• Esempio:

> x[1] 1 2 7 3 5 2 0 1 4 5

> x<-length(x)> n[1] 10> d<-4> Box.test(x,lag=d,type="Box-Pierce")

8.2.2 Test di Ljung - Box

• Sintassi: Box.test()

• Parametri:

• Output:

p.value p-value

• Formula:

statistic

c = n (n + 2)d∑

1n− k

ρ 2(k)

dove ρ(k) =∑n−k

t=1 (xt − x) (xt+k − x)∑nt=1 (xt − x)2

∀ k = 1, 2, . . . , d

parameter

p.value

P (χ2d ≥ c)

• Esempio:

–286–

> x[1] 1 2 7 3 5 2 0 1 4 5> x<-length(x)> n[1] 10> d<-4> Box.test(x,lag=d,type="Ljung-Box")

–287–

–288–

CAPITOLO 9

Test di ipotesi non parametrici

9.1 Simbologia

• dimensione del campione j-esimo: nj ∀ j = 1, 2, . . . , k

• media aritmetica del campione j-esimo:xj = 1

i=1 xij ∀ j = 1, 2, . . . , k

• varianza nel campione j-esimo:s2

j = 1nj−1

i=1 (xij − xj)2 ∀ j = 1, 2, . . . , k

• varianza pooled: s2P =

∑kj=1

(nj−1) s2j

• somma dei ranghi nel campione j-esimo:Rj ∀ j = 1, 2, . . . , k

• ties nel campione:tj ∀ j = 1, 2, . . . , g

9.2 Test di ipotesi sull’omogeneita delle varian-ze

9.2.1 Test di Levene

• Sintassi: levene.test()

• Parametri:

• Output:

Df gradi di liberta

–289–

Pr(>F) p-value

• Formula:

f k − 1Residuals n− k

F value

Fvalue =

[∑kj=1

i=1 (yij − yj)2]/ (k − 1)[∑k

j=1 (nj − 1) s2j

]/(n− k

)dove yij = |xij−Q0.5

({x1j , . . . , xnjj

})| ∀ j = 1, . . . , k ∀ i = 1, . . . , nj

Pr(>F)P (Fk−1, n−k ≥ Fvalue)

• Esempio:

> x[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0 1.2 3.4> f[1] a a a b b b c c c d d dLevels: a b c d> n<-length(f)> n[1] 12> k<-nlevels(f)> k[1] 4> c(k-1,n-k)[1] 3 8> levene.test(x,f)$Df[1] 3 8> mediane<-tapply(x,f,median)> mediane

a b c d4.0 3.5 12.0 3.4

> y<-abs(x-mediane[f])> Fvalue<-anova(lm(y~f))$F> Fvalue[1] 0.608269> levene.test(x,f)$"F value"[1] 0.608269> 1-pf(Fvalue,k-1,n-k)[1] 0.6281414> levene.test(x,f)$"Pr(>F)"[1] 0.6281414

–290–

9.3 Test di ipotesi sulla mediana con uno o due campioni

9.3 Test di ipotesi sulla mediana con uno o duecampioni

9.3.1 Test esatto Wilcoxon signed rank

• Sintassi: wilcox.test()

• Parametri:

mu il valore di Q0.5(x)|H0

alt puo essere cambiata in less, greater o two.sided a secondadella coda che interessa

• Output:

statistic valore empirico della statistica V

p.value p-value

null.value il valore di Q0.5(x)|H0

• Formula:

statisticv

p.value

p.value P (V ≤ v) P (V ≥ v) 2 min (P (V ≤ v), P (V ≥ v))

null.valueQ0.5(x)|H0

• Esempio:

> x[1] -0.1 -0.2 0.7 0.8 -1.2 -1.6 2.0 3.4 3.7> n<-length(x)> n[1] 9> mu<-3.3> x-mu[1] -3.4 -3.5 -2.6 -2.5 -4.5 -4.9 -1.3 0.1 0.4> # Il vettore x-mu non deve contenere valori duplicati o nulli> xx<-rank(abs(x-mu))*sign(x-mu)

–291–

> xx[1] -6 -7 -5 -4 -8 -9 -3 1 2> v<-sum(xx[xx>0])> v[1] 3> wilcox.test(x,mu=3.3,alt="less",exact=T)$statisticV3> p.value.less<-psignrank(v,n)> p.value.less[1] 0.009765625> wilcox.test(x,mu=3.3,alt="less",exact=T)$p.value[1] 0.009765625> p.value.greater<-1-psignrank(v-1,n)> p.value.greater[1] 0.9941406> wilcox.test(x,mu=3.3,alt="greater",exact=T)$p.value[1] 0.9941406> p.value.two.sided<-2*min(p.value.less,p.value.greater)> p.value.two.sided[1] 0.01953125> wilcox.test(x,mu=3.3,alt="two.sided",exact=T)$p.value[1] 0.01953125

> x[1] 3.8 5.6 1.8 5.0 2.4 4.2 7.3 8.6 9.1 5.2> n<-length(x)> n[1] 10> mu<-6.3> x-mu[1] -2.5 -0.7 -4.5 -1.3 -3.9 -2.1 1.0 2.3 2.8 -1.1> # Il vettore x-mu non deve contenere valori duplicati o nulli> xx<-rank(abs(x-mu))*sign(x-mu)> xx[1] -7 -1 -10 -4 -9 -5 2 6 8 -3> v<-sum(xx[xx>0])> v[1] 16> wilcox.test(x,mu=6.3,alt="less",exact=T)$statisticV

16> p.value.less<-psignrank(v,n)> p.value.less[1] 0.1376953> wilcox.test(x,mu=6.3,alt="less",exact=T)$p.value[1] 0.1376953> p.value.greater<-1-psignrank(v-1,n)> p.value.greater[1] 0.883789

–292–

> wilcox.test(x,mu=6.3,alt="greater",exact=T)$p.value[1] 0.883789> p.value.two.sided<-2*min(p.value.less,p.value.greater)> p.value.two.sided[1] 0.2753906> wilcox.test(x,mu=6.3,alt="two.sided",exact=T)$p.value[1] 0.2753906

• Osservazioni: Il vettore x-mu non deve contenere valori duplicati o nulli.

9.3.2 Test asintotico Wilcoxon signed rank

• Parametri:

mu il valore di Q0.5(x)|H0

alt puo essere cambiata in less, greater o two.sided a secondadella coda che interessacorrect = T / F a seconda che sia applicata o no la correzione dicontinuita di Yates

• Output:

p.value p-valuenull.value il valore di Q0.5(x)|H0

• Formula:

statisticv

p.value

correct = F

p.value Φ(z) 1− Φ(z) 2 (1− Φ(| z |))

z =v − m (m+1)

(m (m + 1) (2 m + 1)− 1

∑gj=1 tj (t2j − 1)

)]1 / 2

correct = T

z =v − m (m+1)

4 + 0.5[124

(m (m + 1) (2 m + 1)− 1

∑gj=1 tj (t2j − 1)

)]1 / 2

–293–

p.value Φ(z) 1− Φ(z) 2 (1− Φ(| z |))

null.value

Q0.5(x)|H0

• Esempio:

> x[1] 4 3 4 5 2 3 4 5 4 4 5 5 4 5 4 4 3 4 2 4 5 5 4 4> n<-length(x)> n[1] 24> mu<-4> xx<-(x-mu)[(x-mu)!=0]> xx[1] -1 1 -2 -1 1 1 1 1 -1 -2 1 1> m<-length(xx)> m[1] 12> xx<-rank(abs(xx))*sign(xx)> xx[1] -5.5 5.5 -11.5 -5.5 5.5 5.5 5.5 5.5 -5.5 -11.5[11] 5.5 5.5> v<-sum(xx[xx>0])> v[1] 38.5> wilcox.test(x,mu=4,alt="less",correct=F,exact=F)$statistic

V38.5> table(rank(abs(xx)))

5.5 11.510 2

> g<-2> t1<-10> t2<-2> t<-c(t1,t2)> num<-v-m*(m+1)/4> den<-sqrt((m*(m+1)*(2*m+1)-0.5*sum(t*(t**2-1)))/24)> z<-num/den> p.value<-pnorm(z)> p.value[1] 0.4832509> wilcox.test(x,mu=4,alt="less",correct=F,exact=F)$p.value[1] 0.4832509

> x[1] 4 3 4 5 2 3 4 5 4 4 5 5 4 5 4 4 3 4 2 4 5 5 4 4

–294–

> n<-length(x)> n[1] 24> mu<-3> xx<-(x-mu)[(x-mu)!=0]> xx[1] 1 1 2 -1 1 2 1 1 2 2 1 2 1 1 1 -1 1 2 2 1 1> m<-length(xx)> m[1] 21> xx<-rank(abs(xx))*sign(xx)> xx[1] 7.5 7.5 18.0 -7.5 7.5 18.0 7.5 7.5 18.0 18.0 7.5 18.0 7.5[14] 7.5 7.5 -7.5 7.5 18.0 18.0 7.5 7.5> v<-sum(xx[xx>0])> v[1] 216> wilcox.test(x,mu=3,alt="less",correct=T,exact=F)$statistic

V216> table(rank(abs(xx)))

7.5 1814 7> g<-2> t1<-14> t2<-7> t<-c(t1,t2)> num<-v-m*(m+1)/4+0.5> den<-sqrt((m*(m+1)*(2*m+1)-0.5*sum(t*(t**2-1)))/24)> z<-num/den> p.value<-pnorm(z)> p.value[1] 0.999871> wilcox.test(x,mu=3,alt="less",correct=T,exact=F)$p.value[1] 0.999871

9.3.3 Test esatto di Mann - Whitney

• Parametri:

mu il valore di (Q0.5(x)−Q0.5(y) )|H0

–295–

• Output:

statistic valore empirico della statistica W

p.value p-value

null.value il valore di (Q0.5(x)−Q0.5(y) )|H0

• Formula:

statisticw

p.value

p.value P (W ≤ w) P (W ≥ w) 2 min (P (W ≤ w), P (W ≥ w))

null.value( Q0.5(x)−Q0.5(y) )|H0

• Esempio:

> x[1] 1.2 3.4 5.4 -5.6 7.3 2.1> nx<-length(x)> nx[1] 6> y[1] -1.1 -0.1 0.9 1.9 2.9 3.9 4.9> ny<-length(y)> ny[1] 7> mu<--2.1> c(x,y+mu)[1] 1.2 3.4 5.4 -5.6 7.3 2.1 -3.2 -2.2 -1.2 -0.2 0.8 1.8 2.8> # Il vettore c(x,y+mu) non deve contenere valori duplicati> Rx<-sum(rank(c(x,y+mu))[1:nx])> Rx[1] 53> w<-Rx-nx*(nx+1)/2> w[1] 32> wilcox.test(x,y,mu=-2.1,alt="less",exact=T)$statisticW

32> p.value.less<-pwilcox(w,nx,ny)> p.value.less[1] 0.9493007> wilcox.test(x,y,mu=-2.1,alt="less",exact=T)$p.value[1] 0.9493007> p.value.greater<-1-pwilcox(w-1,nx,ny)

–296–

> p.value.greater[1] 0.06876457> wilcox.test(x,y,mu=-2.1,alt="greater",exact=T)$p.value[1] 0.06876457> p.value.two.sided<-2*min(p.value.less,p.value.greater)> p.value.two.sided[1] 0.1375291> wilcox.test(x,y,mu=-2.1,alt="two.sided",exact=T)$p.value[1] 0.1375291

> x[1] 33.30 30.10 38.62 38.94 42.63 41.96 46.30 43.25> nx<-length(x)> nx[1] 8> y[1] 31.62 46.33 31.82 40.21 45.72 39.80 45.60 41.25> ny<-length(y)> ny[1] 8> mu<-1.1> c(x,y+mu)[1] 33.30 30.10 38.62 38.94 42.63 41.96 46.30 43.25 32.72 47.43[11] 32.92 41.31 46.82 40.90 46.70 42.35> # Il vettore c(x,y+mu) non deve contenere valori duplicati> Rx<-sum(rank(c(x,y+mu))[1:nx])> Rx[1] 61> w<-Rx-nx*(nx+1)/2> w[1] 25> wilcox.test(x,y,mu=1.1,alt="less",exact=T)$statisticW25> p.value.less<-pwilcox(w,nx,ny)> p.value.less[1] 0.2526807> wilcox.test(x,y,mu=1.1,alt="less",exact=T)$p.value[1] 0.2526807> p.value.greater<-1-pwilcox(w-1,nx,ny)> p.value.greater[1] 0.7790987> wilcox.test(x,y,mu=1.1,alt="greater",exact=T)$p.value[1] 0.7790987> p.value.two.sided<-2*min(p.value.less,p.value.greater)> p.value.two.sided[1] 0.5053613> wilcox.test(x,y,mu=1.1,alt="two.sided",exact=T)$p.value[1] 0.5053613

–297–

• Osservazioni: Il vettore c(x, y+mu) non deve contenere valori duplicati.

9.3.4 Test asintotico di Mann - Whitney

• Parametri:

correct = T / F a seconda che sia applicata o no la correzione dicontinuita di Yates

• Output:

statistic valore empirico della statistica W

p.value p-value

• Formula:

statisticw

p.value

correct = F

p.value Φ(z) 1− Φ(z) 2 (1− Φ(| z |))

z =w − nx ny

2[nx ny

(nx + ny + 1−

Pgj=1 tj (t2j−1)

(nx+ny) (nx+ny−1)

)]1 / 2

correct = T

p.value Φ(z) 1− Φ(z) 2 (1− Φ(| z |))

z =w − nx ny

2 + 0.5[nx ny

(nx + ny + 1−

Pgj=1 tj (t2j−1)

(nx+ny) (nx+ny−1)

)]1 / 2

–298–

null.value

(Q0.5(x)−Q0.5(y) )|H0

• Esempio:

> x[1] -1 1 -2 -1 1 1 1 1 -1 -2 1 1> nx<-length(x)> nx[1] 12> y[1] 1 1 2 3 4 5 3 2 1> ny<-length(y)> ny[1] 9> mu<--4> Rx<-sum(rank(c(x,y+mu))[1:nx])> Rx[1] 163.5> w<-Rx-nx*(nx+1)/2> w[1] 85.5> wilcox.test(x,y,mu=-4,alt="less",correct=T,exact=F)$statistic

W85.5> table(rank(c(x,y+mu)))

2 5.5 10 13 17.53 4 5 1 8

> g<-4> t1<-3> t2<-4> t3<-5> t4<-8> t<-c(t1,t2,t3,t4)> num<-w-nx*ny/2+0.5> den<-sqrt(nx*ny/12*(nx+ny+1-sum(t*(t**2-1))/((nx+ny)*(nx+ny-1))))> z<-num/den> p.value<-pnorm(z)> p.value[1] 0.9910242> wilcox.test(x,y,mu=-4,alt="less",correct=T,exact=F)$p.value[1] 0.9910242

> x[1] 33.30 30.10 38.62 38.94 42.63 41.96 46.30 43.25> nx<-length(x)> nx[1] 8> y

–299–

[1] 31.62 46.33 31.82 40.21 45.72 39.80 45.60 41.25> ny<-length(y)> ny[1] 8> mu<-4> Rx<-sum(rank(c(x,y+mu))[1:nx])> Rx[1] 51> w<-Rx-nx*(nx+1)/2> w[1] 15> wilcox.test(x,y,mu=4,alt="less",correct=F,exact=F)$statisticW

15> table(rank(x,y+mu))

1 2 3 4 5 6 7 81 1 1 1 1 1 1 1> g<-8> t1<-1> t2<-1> t3<-1> t4<-1> t5<-1> t6<-1> t7<-1> t8<-1> t<-c(t1,t2,t3,t4,t5,t6,t7,t8)> num<-w-nx*ny/2> den<-sqrt(nx*ny/12*(nx+ny+1-sum(t*(t**2-1))/((nx+ny)*(nx+ny-1))))> z<-num/den> p.value<-pnorm(z)> p.value[1] 0.03710171> wilcox.test(x,y,mu=4,alt="less",correct=F,exact=F)$p.value[1] 0.03710171

9.3.5 Test esatto Wilcoxon signed rank per dati appaiati

• Parametri:

–300–

• Output:

p.value p-value

• Formula:

statisticv

p.value

p.value P (V ≤ v) P (V ≥ v) 2 min (P (V ≤ v), P (V ≥ v))

null.value(Q0.5(x)−Q0.5(y) )|H0

• Esempio:

> x[1] -0.1 -0.2 0.7 0.8 -1.2 -1.6 2.0 3.4 3.7> n<-length(x)> n[1] 9> y[1] 1 2 3 4 5 6 7 8 9> mu<--4> x-y-mu[1] 2.9 1.8 1.7 0.8 -2.2 -3.6 -1.0 -0.6 -1.3> # Il vettore x-y-mu non deve contenere valori duplicati o nulli> xy<-rank(abs(x-y-mu))*sign(x-y-mu)> xy[1] 8 6 5 2 -7 -9 -3 -1 -4> v<-sum(xy[xy>0])> v[1] 21> wilcox.test(x,y,mu=-4,alt="less",paired=T,exact=T)$statisticV21> p.value.less<-psignrank(v,n)> p.value.less[1] 0.4550781> wilcox.test(x,y,mu=-4,alt="less",paired=T,exact=T)$p.value[1] 0.4550781> p.value.greater<-1-psignrank(v-1,n)> p.value.greater[1] 0.5898438

–301–

> wilcox.test(x,y,mu=-4,alt="greater",paired=T,exact=T)$p.value[1] 0.5898438> p.value.two.sided<-2*min(p.value.less,p.value.greater)> p.value.two.sided[1] 0.9101563> wilcox.test(x,y,mu=-4,alt="two.sided",paired=T,exact=T)$p.value[1] 0.9101563

> x[1] 33.30 30.10 38.62 38.94 42.63 41.96 46.30 43.25> n<-length(x)> n[1] 8> y[1] 31.62 46.33 31.82 40.21 45.72 39.80 45.60 41.25> mu<-1.1> x-y-mu[1] 0.58 -17.33 5.70 -2.37 -4.19 1.06 -0.40 0.90> # Il vettore x-y-mu non deve contenere valori duplicati o nulli> xy<-rank(abs(x-y-mu))*sign(x-y-mu)> xy[1] 2 -8 7 -5 -6 4 -1 3> v<-sum(xy[xy>0])> v[1] 16> wilcox.test(x,y,mu=1.1,alt="less",paired=T,exact=T)$statisticV

16> p.value.less<-psignrank(v,n)> p.value.less[1] 0.421875> wilcox.test(x,y,mu=1.1,alt="less",paired=T,exact=T)$p.value[1] 0.421875> p.value.greater<-1-psignrank(v-1,n)> p.value.greater[1] 0.6289063> wilcox.test(x,y,mu=1.1,alt="greater",paired=T,exact=T)$p.value[1] 0.6289062> p.value.two.sided<-2*min(p.value.less,p.value.greater)> p.value.two.sided[1] 0.84375> wilcox.test(x,y,mu=1.1,alt="two.sided",paired=T,exact=T)$p.value[1] 0.84375

• Osservazioni: Il vettore x-y-mu non deve contenere valori duplicati onulli.

–302–

9.3.6 Test asintotico Wilcoxon signed rank per dati appa-iati

• Parametri:

correct = T / F a seconda che sia applicata o no la correzione dicontinuita di Yates

• Output:

p.value p-value

• Formula:

statisticv

p.value

correct = F

p.value Φ(z) 1− Φ(z) 2 (1− Φ(| z |))

z =v − m (m+1)

(m (m + 1) (2 m + 1)− 1

∑gj=1 tj (t2j − 1)

)]1 / 2

correct = T

p.value Φ(z) 1− Φ(z) 2 (1− Φ(| z |))

z =v − m (m+1)

4 + 0.5[124

(m (m + 1) (2 m + 1)− 1

∑gj=1 tj (t2j − 1)

)]1 / 2

null.value(Q0.5(x)−Q0.5(y) )|H0

–303–

• Esempio:

> x[1] 4.0 4.0 3.0 4.0 2.0 4.0 5.0 5.0 4.0 3.3> n<-length(x)> n[1] 10> y[1] 1 2 3 4 5 6 7 8 9 10> mu<--2> xy<-(x-y-mu)[(x-y-mu)!=0]> xy[1] 5.0 4.0 2.0 2.0 -1.0 -1.0 -3.0 -4.7> m<-length(xy)> m[1] 8> xy<-rank(abs(xy))*sign(xy)> xy[1] 8.0 6.0 3.5 3.5 -1.5 -1.5 -5.0 -7.0> v<-sum(xy[xy>0])> v[1] 21> wilcox.test(x,y,mu=-2,alt="less",paired=T,exact=F,correct=T)$statisticV

21> table(rank(abs(xy)))

1.5 3.5 5 6 7 82 2 1 1 1 1

> g<-2> t1<-2> t2<-2> t<-c(t1,t2)> num<-v-m*(m+1)/4+0.5> den<-sqrt(1/24*(m*(m+1)*(2*m+1)-0.5*sum(t*(t**2-1))))> z<-num/den> p.value<-pnorm(z)> p.value[1] 0.6883942> wilcox.test(x,y,mu=-2,alt="less",paired=T,exact=F,correct=T)$p.value[1] 0.6883942

> x[1] 33.30 30.10 38.62 38.94 42.63 41.96 46.30 43.25> n<-length(x)> n[1] 8> y[1] 31.62 46.33 31.82 40.21 45.72 39.80 45.60 41.25> mu<-2

–304–

9.4 Test di ipotesi sulla mediana con piucampioni

> xy<-(x-y-mu)[(x-y-mu)!=0]> xy[1] -0.32 -18.23 4.80 -3.27 -5.09 0.16 -1.30> m<-length(xy)> m[1] 7> xy<-rank(abs(xy))*sign(xy)> xy[1] -2 -7 5 -4 -6 1 -3> v<-sum(xy[xy>0])> v[1] 6> wilcox.test(x,y,mu=2,alt="less",paired=T,exact=F,correct=F)$statisticV 6> table(rank(abs(xy)))

1 2 3 4 5 6 71 1 1 1 1 1 1> g<-7> t1<-1> t2<-1> t3<-1> t4<-1> t5<-1> t6<-1> t7<-1> t<-c(t1,t2,t3,t4,t5,t6,t7)> num<-v-m*(m+1)/4> den<-sqrt(1/24*(m*(m+1)*(2*m+1)-0.5*sum(t*(t**2-1))))> z<-num/den> p.value<-pnorm(z)> p.value[1] 0.08814819> wilcox.test(x,y,mu=2,alt="less",paired=T,exact=F,correct=F)$p.value[1] 0.08814819

9.4 Test di ipotesi sulla mediana con piucampioni

9.4.1 Test di Kruskal - Wallis

• Sintassi: kruskal.test()

• Parametri:

• Output:

–305–

p.value p-value

• Formula:

statistic

n (n+1)

∑ki=1

ni− 3 (n + 1)

1−Pg

i=1 ti (t2i−1)

n (n2−1)

parameterk − 1

p.valueP (χ2

k−1 ≥ c)

• Esempio:

> y[1] 2.1 3.0 2.1 5.3 5.3 2.1 5.6 7.5 2.1 5.3 2.1 7.5> f[1] a a a b b b c c c d d dLevels: a b c d> n<-length(y)> n[1] 12> k<-nlevels(f)> k[1] 4> R1<-sum(rank(y)[f=="a"])> R2<-sum(rank(y)[f=="b"])> R3<-sum(rank(y)[f=="c"])> R4<-sum(rank(y)[f=="d"])> R<-c(R1,R2,R3,R4)> R[1] 12.0 19.0 24.5 22.5> table(rank(y))

3 6 8 10 11.55 1 3 1 2

> g<-3> t1<-5> t2<-3> t3<-2> t<-c(t1,t2,t3)> t[1] 5 3 2> tapply(y,f,length)a b c d 3 3 3 3> n1<-3

–306–

9.5 Anova non parametrica a due fattori senza interazione

> n2<-3> n3<-3> n4<-3> enne<-c(n1,n2,n3,n4)> enne[1] 3 3 3 3> num<-12/(n*(n+1))*sum(R**2/enne)-3*(n+1)> den<-1-sum(t*(t**2-1))/(n*(n**2-1))> statistic<-num/den> statistic[1] 2.542784> kruskal.test(y~f)$statisticKruskal-Wallis chi-squared

2.542784> parameter<-k-1> parameter[1] 3> kruskal.test(y~f)$parameterdf3> p.value<-1-pchisq(statistic,parameter)> p.value[1] 0.4676086> kruskal.test(y~f)$p.value[1] 0.4676086

9.5 Anova non parametrica a due fattori senzainterazione

9.5.1 Test di Friedman

• Sintassi: friedman.test()

• Parametri:

x matrice di dimensione n× k

• Output:

p.value p-value

• Formula:

statistic

n k (k + 1)

k∑j=1

R2j − 3 n (k + 1)

–307–

parameterk − 1

p.valueP (χ2

k−1 ≥ c)

• Esempio:

> xX1 X2 X3

1 6 26 602 15 29 523 8 56 20> n<-3> n[1] 3> k<-3> k[1] 3> matrice<-t(apply(x,1,rank))> matriceX1 X2 X3

1 1 2 32 1 2 33 1 3 2> colSums(matrice)X1 X2 X33 7 8

> R1<-3> R2<-7> R3<-8> R<-c(R1,R2,R3)> R[1] 3 7 8> statistic<-12/(n*k*(k+1))*sum(R**2)-3*n*(k+1)> statistic[1] 4.666667> friedman.test(x)$statisticFriedman chi-squared

4.666667> parameter<-k-1> parameter[1] 2> friedman.test(x)$parameterdf2

> p.value<-1-pchisq(statistic,parameter)[1] 0.09697197> p.value[1] 0.09697197> friedman.test(x)$p.value

–308–

9.6 Test di ipotesi su una proporzione

[1] 0.09697197

9.6 Test di ipotesi su una proporzione

9.6.1 Test di Bernoulli

• Sintassi: binom.test()

• Parametri:

x numero di successi

n dimensione campionaria

p valore di p0

• Output:

statistic numero di successi

parameter dimensione campionaria

p.value p-value

conf.int intervallo di confidenza per la proporzione incognita alivello 1− α

estimate proporzione campionaria

null.value valore di p0

• Formula:

statisticx

parametern

p.value

alt = less

p.value =x∑

)pi0 (1− p0)n−i

alt = greater

p.value = 1−x−1∑i=0

)pi0 (1− p0)n−i

–309–

Caso p.valuex = n p0 1x < n p0 FX(x)− FX(n− y) + 1 y = #

(pX(k) ≤ pX(x) ∀ k = dn p0e, . . . , n

)x > n p0 FX(y − 1)− FX(x− 1) + 1 y = #

(pX(k) ≤ pX(x) ∀ k = 0, . . . , bn p0c

)alt = two.sided

X ∼ Binomiale(n, p0)

pX(x) =(

)px0 (1− p0)n−x ∀x = 0, 1, . . . , n

FX(x) =x∑

)pi0 (1− p0)n−i ∀x = 0, 1, . . . , n

conf.intF−1

U (α / 2) F−1H (1− α / 2)

dove U ∼ Beta(x, n− x + 1) e H ∼ Beta(x + 1, n− x)

estimate :x

null.valuep0

• Esempio:

> x<-682> n<-682+243> p<-0.75> binom.test(x,n,p,alt="two.sided",conf.level=0.95)

9.7 Test sul ciclo di casualita

9.7.1 Test dei Runs

• Sintassi: runs.test()

• Parametri:

f fattore di dimensione n a 2 livelli

• Output:

–310–

9.7 Test sul ciclo di casualita

p.value p-value

• Formula:

statistic

z =V − n1+2 n1 n2+n2

n1+n2(2 n1 n2 (2 n1 n2−n1−n2)

(n1+n2)2 (n1+n2−1)

)1 / 2

p.value

p.value Φ(z) 1− Φ(z) 2 (1− Φ(|z|))

• Esempio:

> f[1] H T T H T H H H T H H T T H T H T H H T H T T H T H H T H TLevels: H T> n<-length(f)> V<-1+sum(as.numeric(f[-1]!=f[-n]))> V[1] 22> n1<-length(f[f=="H"])> n1[1] 16> n2<-length(f[f=="T"])> n2[1] 14> media<-(n1+2*n1*n2+n2)/(n1+n2)> media[1] 15.93333> varianza<-(2*n1*n2*(2*n1*n2-n1-n2))/((n1+n2)**2*(n1+n2-1))> varianza[1] 7.174866> z<-(V-media)/sqrt(varianza)> z[1] 2.26487> runs.test(f,alt="less")$statisticStandard Normal

2.26487> p.value<-pnorm(z)> p.value[1] 0.9882397> runs.test(f,alt="less")$p.value[1] 0.9882397

• Osservazioni: E’ necessario installare la libreria tseries.

–311–

9.8 Test sulla differenza tra parametri di scala

9.8.1 Test di Mood

• Sintassi: mood.test()

• Parametri:

• Output:

p.value p-value

• Formula:

statistic

z =T − nx (nx+ny+1) (nx+ny−1)

12(nx ny (nx+ny+1) (nx+ny+2) (nx+ny−2)

)1 / 2

p.value

p.value Φ(z) 1− Φ(z) 2 (1− Φ(|z|))

• Esempio:

> x[1] -1 1 -2 -1 1 1 1 1 -1 -2 1 1> y[1] 1 2 3 4 5 6 7 8 9> nx<-length(x)> ny<-length(y)> Rx<-rank(c(x,y))[1:nx]> T<-sum((Rx-(nx+ny+1)/2)**2)> muT<-nx*(nx+ny+1)*(nx+ny-1)/12> sigmaT<-sqrt(nx*ny*(nx+ny+1)*(nx+ny+2)*(nx+ny-2)/180)> z<-(T-muT)/sigmaT> z[1] -1.273865> mood.test(x,y,alt="less")$statistic

Z-1.273865> p.value<-pnorm(z)> p.value

–312–

9.8 Test sulla differenza tra parametri di scala

[1] 0.1013557> mood.test(x,y,alt="less")$p.value[1] 0.1013557

–313–

–314–

CAPITOLO 10

Tabelle di contingenza

10.1 Simbologia

• frequenze osservate: nij ∀ i = 1, 2, . . . , h ∀ j = 1, 2, . . . , k

• frequenze osservate nella m-esima tabella di contingenza 2× 2:nijm ∀ i, j = 1, 2 ∀m = 1, 2, . . . , l

• frequenze marginali di riga: ni· =∑k

j=1 nij ∀ i = 1, 2, . . . , h

• frequenze marginali di riga nella m-esima tabella di contingenza 2× 2:ni·m =

∑2j=1 nijm ∀ i = 1, 2 ∀m = 1, 2, . . . , l

• frequenze marginali di colonna: n·j =∑h

i=1 nij ∀ j = 1, 2, . . . , k

• frequenze marginali di colonna nella m-esima tabella di contingenza 2× 2:n·jm =

∑2i=1 nijm ∀ j = 1, 2 ∀m = 1, 2, . . . , l

• frequenze attese: nij = ni· n·jn··

∀ i = 1, 2, . . . , h ∀ j = 1, 2, . . . , k

• frequenze attese nella m-esima tabella di contingenza 2× 2:nijm = ni·m n·jm

n··m∀ i, j = 1, 2 ∀m = 1, 2, . . . , l

• totale frequenze assolute: n·· =∑h

∑kj=1 nij =

∑hi=1

∑kj=1 nij

• totale frequenze assolute nella m-esima tabella di contingenza 2× 2:n··m =

∑2i=1

∑2j=1 nijm =

∑2i=1

∑2j=1 nijm ∀m = 1, 2, . . . , l

10.2 Test di ipotesi

10.2.1 Test Chi - Quadrato di indipendenza

• Sintassi: chisq.test()

• Parametri:

–315–

x matrice di dimensione 2× 2 contenente frequenze assolutecorrect = T / F a seconda che sia applicata o meno la correzionedi Yates

• Output:

parameter gradi di libertap.value p-valueobserved frequenze osservateexpected frequenze atteseresiduals residui di Pearson

• Formula:

statistic

correct = F

c =2∑

2∑j=1

(nij − nij)2

n·· (n11 n22 − n12 n21)2

n1· n2· n·1 n·2

correct = T

c =2∑

2∑j=1

(|nij − nij | − 1 / 2)2

n·· (|n11 n22 − n12 n21 | − n·· / 2)2

n1· n2· n·1 n·2

parameter1

p.valueP (χ2

1 ≥ c)

observednij ∀ i, j = 1, 2

expectednij ∀ i, j = 1, 2

residualsnij − nij√

∀ i, j = 1, 2

• Esempio:

> x<-matrix(c(2,10,23,21),nrow=2,ncol=2,byrow=F)> riga<-c("A","B")> colonna<-c("A","B")> dimnames(x)<-list(riga,colonna)> x

A BA 2 23B 10 21> chisq.test(x,correct=F)

–316–

10.2.2 Test di McNemar

• Sintassi: mcnemar.test()

• Parametri:

x matrice di dimensione 2× 2 contenente frequenze assolute

correct = T / F a seconda che sia applicata o no la correzione diYates

• Output:

p.value p-value

• Formula:

statistic

correct = F

c =(n12 − n21)2

n12 + n21

correct = T

c =(|n12 − n21| − 1)2

n12 + n21

parameter

p.value

P (χ21 ≥ c)

• Esempio:

> x<-matrix(c(2,10,23,21),nrow=2,ncol=2,byrow=F)> riga<-c("A","B")> colonna<-c("A","B")> dimnames(x)<-list(riga,colonna)> x

A BA 2 23B 10 21> mcnemar.test(x,correct=F)

–317–

10.2.3 Test esatto di Fisher

• Sintassi: fisher.test()

• Parametri:

x matrice di dimensione 2× 2 contenente frequenze assolute

• Output:

p.value p-value

• Formula:

p.value

alt p.value

less∑n11

i=0 p(i)greater 1−

∑n11−1i=0 p(i)

two.sided∑n11

i=0 p(i) +∑

p(i)≤p(n11)p(i) ∀ i = n11 + 1, . . . , min(n1·, n·1)

p(i) =

(max (n1·, n·1)

) (n··−max (n1·, n·1)min (n1·, n·1)−i

min (n1·, n·1)

) ∀ i = 0, 1, . . . , min(n1·, n·1)

• Esempio:

> x<-matrix(c(2,9,5,4),nrow=2,ncol=2,byrow=F)> riga<-c("A","B")> colonna<-c("A","B")> dimnames(x)<-list(riga,colonna)> xA B

A 2 5B 9 4> n11<-2> n1.<-2+5> n.1<-2+9> n..<-2+5+9+4> n..[1] 20> minimo<-min(n1.,n.1)> minimo[1] 7> massimo<-max(n1.,n.1)> massimo[1] 11> p<-function(i) dhyper(i,massimo,n..-massimo,minimo)> p.value.less<-0

–318–

> for(i in 0:n11){+ p.value.less<-p.value.less+p(i)}> p.value.less[1] 0.1017802> fisher.test(x,alt="less")$p.value[1] 0.1017802> p.value.greater<-0> for(i in 0:(n11-1)){+ p.value.greater<-p.value.greater+p(i)}> p.value.greater<-1-p.value.greater> p.value.greater[1] 0.9876161> fisher.test(x,alt="greater")$p.value[1] 0.9876161> p.value1<-0> for(i in 0:n11){+ p.value1<-p.value1+p(i)}> p.value1[1] 0.1017802> p.value2<-0> for(i in (n11+1):minimo){+ if(p(i)<=p(n11))+ p.value2<-p.value2+p(i)}> p.value2[1] 0.05789474> p.value.two.sided<-p.value1+p.value2> p.value.two.sided[1] 0.1596749> fisher.test(x,alt="two.sided")$p.value[1] 0.1596749

10.2.4 Test di Mantel - Haenszel

• Sintassi: mantelhaen.test()

• Parametri:

x array di dimensione 2×2×l contenente l tabelle di contingenza 2× 2

• Output:

p.value p-value

estimate stima campionaria del comune OR

conf.int intervallo di confidenza a livello 1− α

–319–

• Formula:

statistic

[∑lm=1 (n11m − n11m)

]2∑l

m=1 σ2n11m

dove σ2n11m

=n1·m n2·m n·1m n·2m

n2··m (n··m − 1)

∀m = 1, 2, . . . , l

parameter1

p.valueP (χ2

1 ≥ c)

estimate

θMH =∑l

m=1 n11m n22m / n··m∑lm=1 n12m n21m / n··m

m=1 Rm∑lm=1 Sm

conf.int

θMH e−z1−α / 2 σlog(θMH) θMH e

z1−α / 2 σlog(θMH)

σ2log(θMH) =

l∑m=1

(n11m + n22m)Rm

n··m+

l∑m=1

(n12m + n21m) Sm

n··m+

l∑m=1

(n11m + n22m) Sm + (n12m + n21m) Rm

n··m

• Esempio:

> x<-array(c(11,10,25,27,16,22,4,10,14,7,5,12,2,1,14,+ 16,6,0,11,12,1,0,10, 10,1,1,4,8,4,6,2,1),dim=c(2,2,8), +dimnames=list(Treatment=c("Drug","Control"), +Response=c("Success","Failure"), +Center=c("1","2","3","4","5","6","7","8")))> x, , Center = 1

ResponseTreatment Success FailureDrug 11 25Control 10 27

, , Center = 2

Response

–320–

Treatment Success FailureDrug 16 4Control 22 10

, , Center = 3

, , Center = 4

, , Center = 5

, , Center = 6

, , Center = 7

, , Center = 8

> mantelhaen.test(prova,conf.level=0.95,correct=F,exact=F)

–321–

10.3 Test di ipotesi generalizzati

10.3.1 Test Chi - Quadrato di indipendenza

• Parametri:

x matrice di dimensione h× k contenente frequenze assolute

• Output:

p.value p-value

observed frequenze osservate

expected frequenze attese

residuals residui di Pearson

• Formula:

statistic

c =h∑

k∑j=1

(nij − nij)2

nij= n··

h∑i=1

k∑j=1

ni· n·j− 1

parameter

df = (h− 1) (k − 1)

p.valueP (χ2

df ≥ c)

observed

nij ∀ i = 1, 2, . . . , h ∀ j = 1, 2, . . . , k

expected

nij ∀ i = 1, 2, . . . , h ∀ j = 1, 2, . . . , k

residuals

nij − nij√nij

∀ i = 1, 2, . . . , h ∀ j = 1, 2, . . . , k

• Esempio:

> x<-matrix(c(2,10,23,21,11,12,43,32,30),nrow=3,ncol=3,byrow=F)> riga<-c("A","B","C")> colonna<-c("A","B","C")> dimnames(x)<-list(riga,colonna)> h<-nrow(x)

–322–

10.3 Test di ipotesi generalizzati

> h[1] 3> k<-ncol(x)> k[1] 3> x

A B CA 2 21 43B 10 11 32C 23 12 30> chisq.test(x)

10.3.2 Test di McNemar

• Sintassi: mcnemar.test()

• Parametri:

x matrice di dimensione n× n contenente frequenze assolute

• Output:

p.value p-value

• Formula:

statistic

c =n∑

n∑j=i+1

(nij − nji)2

nij + nji

parameterdf = n (n− 1) / 2

p.valueP (χ2

df ≥ c)

• Esempio:

> x<-matrix(c(2,10,23,21,11,12,43,32,30),nrow=3,ncol=3,byrow=F)> riga<-c("A","B","C")> colonna<-c("A","B","C")> dimnames(x)<-list(riga,colonna)> n<-nrow(x)> n[1] 3> x

A B CA 2 21 43

–323–

B 10 11 32C 23 12 30> mcnemar.test(x)

10.4 Comandi utili per le tabelle di contingenza

10.4.1 margin.table()

• Significato: distribuzione marginale

• Parametri:

x matrice di dimensione h× k contenente frequenze assolutemargin = 1 / 2 carattere di riga o di colonna

• Formula:

margin = 1

ni· ∀ i = 1, 2, . . . , h

margin = 2

n·j ∀ j = 1, 2, . . . , k

• Esempio:

> x<-matrix(c(1,3,0,1,3,2,2,1,2),nrow=3,ncol=3,byrow=T)> riga<-c("a","b","c")> colonna<-c("A","B","C")> dimnames(x)<-list(riga,colonna)> h<-nrow(x)> h[1] 3> k<-ncol(x)> k[1] 3> xA B C

a 1 3 0b 1 3 2c 2 1 2> margin.table(x,margin=1)a b c4 6 5> # distribuzione marginale di riga> margin.table(x,margin=2)A B C4 7 4> # distribuzione marginale di colonna

–324–

10.4.2 prop.table()

• Significato: distribuzione marginale relativa

• Parametri:

x matrice di dimensione h× k contenente frequenze assolute

margin = 1 / 2 carattere di riga o di colonna

• Formula:

margin = 1

nij / ni· ∀ i = 1, 2, . . . , h ∀ j = 1, 2, . . . , k

margin = 2

nij / n·j ∀ i = 1, 2, . . . , h ∀ j = 1, 2, . . . , k

• Esempio:

> x<-matrix(c(1,3,0,1,3,2,2,1,2),nrow=3,ncol=3,byrow=T)> riga<-c("a","b","c")> colonna<-c("A","B","C")> dimnames(x)<-list(riga,colonna)> h<-nrow(x)> h[1] 3> k<-ncol(x)> k[1] 3> xA B C

a 1 3 0b 1 3 2c 2 1 2> prop.table(x,margin=1)

A B Ca 0.2500000 0.75 0.0000000b 0.1666667 0.50 0.3333333c 0.4000000 0.20 0.4000000> # distribuzione marginale relativa di riga> prop.table(x,margin=2)

A B Ca 0.25 0.4285714 0.0b 0.25 0.4285714 0.5c 0.50 0.1428571 0.5> # distribuzione marginale relativa di colonna

–325–

10.4.3 xtabs()

• Significato: costruisce una tabella di contingenza a partire da un dataframe

• Parametri:

g fattore a h livelli

• Esempio:

> y[1] 1.2 2.1 1.1 2.3 5.4 4.3 3.1 2.3 4.3 5.4 5.5 5.7> f[1] a a a a a a b b b b b bLevels: a b> g[1] B A B A B A B A B A B ALevels: A B> prova<-data.frame(f,g,y)> prova

f g y1 a B 1.22 a A 2.13 a B 1.14 a A 2.35 a B 5.46 a A 4.37 b B 3.18 b A 2.39 b B 4.310 b A 5.411 b B 5.512 b A 5.7> xtabs(y~f+g)

gf A Ba 8.7 7.7b 13.4 12.9

10.4.4 summary

• Parametri:

x oggetto di tipo table() di dimensione h× k contenente frequenzeassolute

• Significato: test χ2 di indipendenza

–326–

• Output:

n.cases totale frequenze

p.value p-value

• Formula:

n.casesn··

statistic

c =h∑

k∑j=1

(nij − nij)2

nij= n··

h∑i=1

k∑j=1

ni· n·j− 1

parameter

df = (h− 1) (k − 1)

p.valueP (χ2

df ≥ c)

• Esempio:

> f[1] a b c b a c a b b c aLevels: a b c> g[1] A S A S S S A S S A ALevels: A S> x<-table(f,g)> x

gf A S

a 3 1b 0 4c 2 1

> h<-nrow(x)> h[1] 3> k<-ncol(x)> k[1] 2> summary(x)

–327–

–328–

CAPITOLO 11

Test di adattamento

11.1 Adattamento alla distribuzione normale

11.1.1 Test di Kolmogorov - Smirnov

• Sintassi: ks.test()

• Parametri:

x vettore numerico di n valori distinti

• Significato: test di ipotesi per H0 : F0(x) = Φ(

x−µσ

)contro H1 : F0(x) 6= Φ

(x−µ

)• Output:

statistic valore empirico della statistica D

• Formula:

statistic

d = max1≤i≤n

n− F0

)− i− 1

dove F0

(x(i) − µ

)∀ i = 1, 2, . . . , n

• Esempio:

> x[1] 0.10 2.30 4.30 4.20 5.60 7.21 8.20> n<-length(x)> n[1] 7> # sono 7 valori distinti

–329–

> x<-sort(x,decreasing=F)> x[1] 0.10 2.30 4.20 4.30 5.60 7.21 8.20> mu<-3.3> sigma<-1.2> Fo<-pnorm(x,mean=mu,sd=sigma)> vettore1<-(1:n)/n-Fo> vettore2<-Fo-((1:n)-1)/n> d<-max(pmax(vettore1,vettore2))> d[1] 0.4876584> ks.test(x,"pnorm",3.3,1.2)$statistic

D0.4876584

> x[1] 1.1 3.4 5.6 7.8 2.3 4.5 1.2 2.2> n<-length(x)> n[1] 8> # sono 8 valori distinti> x<-sort(x,decreasing=F)> x[1] 1.1 1.2 2.2 2.3 3.4 4.5 5.6 7.8> mu<-4.1> sigma<-2.3> Fo<-pnorm(x,mean=mu,sd=sigma)> vettore1<-(1:n)/n-Fo> vettore2<-Fo-((1:n)-1)/n> d<-max(pmax(vettore1,vettore2))> d[1] 0.2830715> ks.test(x,"pnorm",4.1,2.3)$statistic

D0.2830715

11.1.2 Test di Jarque - Bera

• Sintassi: jarque.bera.test()

• Parametri:

• Output:

p.value p-value

–330–

• Formula:

statistic

m3 / 22

− 3)2

dove mk =1n

n∑i=1

(xi − x)k ∀ k = 2, 3, 4

parameter2

p.valueP (χ2

2 ≥ c)

• Esempio:

> x[1] 0.10 2.30 4.30 4.20 5.60 7.21 8.20> n<-length(x)> n[1] 7> m2<-mean((x-mean(x))**2)> m2[1] 6.650012> m3<-mean((x-mean(x))**3)> m3[1] -4.594487> m4<-mean((x-mean(x))**4)> m4[1] 92.51966> c<-(n/6)*(m3/m2**(3/2))**2+(n/24)*(m4/m2**2-3)**2> c[1] 0.3241426> jarque.bera.test(x)$statisticX-squared0.3241426> jarque.bera.test(x)$parameterdf2> p.value<-1-pchisq(c,df=2)> p.value[1] 0.8503806> jarque.bera.test(x)$p.valueX-squared0.8503806

> x[1] 1.1 3.4 5.6 7.8 2.3 4.5 1.2 2.2 1.1> n<-length(x)

–331–

> n[1] 9> m2<-mean((x-mean(x))**2)> m2[1] 4.806914> m3<-mean((x-mean(x))**3)> m3[1] 8.816102> m4<-mean((x-mean(x))**4)> m4[1] 58.41274> c<-(n/6)*(m3/m2**(3/2))**2+(n/24)*(m4/m2**2-3)**2> c[1] 1.133201> jarque.bera.test(x)$statisticX-squared1.133201

> jarque.bera.test(x)$parameterdf2

> p.value<-1-pchisq(c,df=2)> p.value[1] 0.5674513> jarque.bera.test(x)$p.valueX-squared0.5674513

• Osservazioni: E’ necessario installare la libreria tseries.

11.1.3 Test di Cramer - von Mises

• Sintassi: cvm.test()

• Parametri:

x vettore numerico di dimensione n ≥ 7

• Output:

p.value p-value

• Formula:

statistic

n∑i=1

[Φ(x(i) − x

)− 2 i − 1

–332–

WW < 0.0275 ≥ 0.0275 AND < 0.051

p.value 1− e−13.953+775.5 WW−12542.61 WW 21− e−5.903+179.546 WW−1515.29 WW 2

WW ≥ 0.051 AND < 0.092 ≥ 0.092

p.value e0.886−31.62 WW+10.897 WW 2e1.111−34.242 WW+12.832 WW 2

p.value

WW = (1 + 0.5 / n) W

• Esempio:

> x[1] 1.1 1.2 2.2 2.3 3.4 4.5 5.6 7.8> n<-length(x)> n[1] 8> # n>=7> x<-sort(x,decreasing=F)> W<-1/(12*n)+sum((pnorm((x-mean(x))/sd(x))-(2*(1:n)-1)/(2*n))**2)> W[1] 0.04611184> cvm.test(x)$statistic

W0.04611184> WW<-(1+0.5/n)*W> WW[1] 0.04899383> # 0.0275 <= WW < 0.051> p.value<-1-exp(-5.903+179.546*WW-1515.29*WW**2)> p.value[1] 0.5246239> cvm.test(x)$p.value[1] 0.5246239

> x[1] 80.00 96.19 98.07 99.70 99.79 99.81 101.14 101.60 103.44 103.53> n<-length(x)> n[1] 10> # n>=7> x<-sort(x,decreasing=F)> W<-(1/(12*n))+sum((pnorm((x-mean(x))/sd(x))-(2*(1:n)-1)/(2*n))**2)> W[1] 0.2296694> cvm.test(x)$statistic

W0.2296694

–333–

> WW<-(1+0.5/n)*W> WW[1] 0.2411529> # WW >= 0.092> p.value<-exp(1.111-34.242*WW+12.832*WW**2)> p.value[1] 0.001661032> cvm.test(x)$p.value[1] 0.001661032

• Osservazioni: E’ necessario installare la libreria nortest.

11.1.4 Test di Anderson - Darlin

• Sintassi: ad.test()

• Parametri:

• Output:

p.value p-value

• Formula:

statistic

A = −n− 1n

n∑i=1

(2 i−1)[log(Φ(x(i) − x

))+ log

(1− Φ

(x(n−i+1) − x

))]p.value

AA = (1 + 0.75 / n + 2.25 / n2) A

AA < 0.2 ≥ 0.2 AND < 0.34

p.value 1− e−13.436+101.14 AA−223.73 AA21− e−8.318+42.796 AA−59.938 AA2

AA ≥ 0.34 AND < 0.6 ≥ 0.6

p.value e0.9177−4.279 AA−1.38 AA2e1.2937−5.709 AA+0.0186 AA2

• Esempio:

> x[1] 99.70 99.79 101.14 99.32 99.27 101.29 100.30 102.40 105.20> n<-length(x)> n

–334–

[1] 9> # n>=7> x<-sort(x,decreasing=F)> A<--n-mean((2*(1:n)-1)*(log(pnorm((x-mean(x))/sd(x))) ++ log(1-pnorm((rev(x)-mean(x))/sd(x)))))> A[1] 0.5914851> ad.test(x)$statistic

A0.5914851> AA<-(1+0.75/n+2.25/n**2)*A> AA[1] 0.6572057> # AA >= 0.6> p.value<-exp(1.2937-5.709*AA+0.0186*AA**2)> p.value[1] 0.08627171> ad.test(x)$p.value[1] 0.08627171

> x[1] 1.1 1.2 2.2 2.3 3.4 4.5 5.6 7.8> n<-length(x)> n[1] 8> # n>=7> x<-sort(x,decreasing=F)> A<--n-mean((2*(1:n)-1)*(log(pnorm((x-mean(x))/sd(x))) ++ log(1-pnorm((rev(x)-mean(x))/sd(x)))))> A[1] 0.3073346> ad.test(x)$statistic

A0.3073346> AA<-(1+0.75/n+2.25/n**2)*A> AA[1] 0.346952> # 0.34 <= AA < 0.6> p.value<-exp(0.9177-4.279*AA-1.38*AA**2)> p.value[1] 0.480453> ad.test(x)$p.value[1] 0.480453

11.1.5 Test di Shapiro - Francia

• Sintassi: sf.test()

• Parametri:

–335–

x vettore numerico di dimensione 5 ≤ n ≤ 5000

• Output:

p.value p-value

• Formula:

statistic

(∑ni=1 x(i) yi − n x y

)2∑ni=1 ( xi − x )2

∑ni=1 ( yi − y )2

dove yi = Φ−1

(i− 3 / 8n + 1 / 4

)∀ i = 1, 2, . . . , n

p.value1− Φ(z)

dove z =log( 1−W )− [−1.2725 + 1.0521 [log(log(n))− log(n)]]

1.0308− 0.26758 [log(log(n)) + 2 / log(n)]

• Esempio:

> x[1] 7.7 5.6 4.3 3.2 3.1 2.2 1.2 1.0> n<-length(x)> n[1] 8> # 5<=n<=5000> x<-sort(x,decreasing=F)> y<-qnorm(((1:n)-3/8)/(n+1/4))> W<-cor(x,y)**2> W[1] 0.9420059> sf.test(x)$statistic

W0.9420059> z<-(log(1-W)-(-1.2725+1.0521*(log(log(n))-log(n))))/+ (1.0308-0.26758*(log(log(n))+2/log(n)))> z[1] -0.2724882> p.value<-1-pnorm(z)> p.value[1] 0.6073767> sf.test(x)$p.value[1] 0.6073767

–336–

[1] 1.20 3.20 4.20 2.10 0.34 3.40 9.30 9.20 9.90 10.20 11.20> n<-length(x)> n[1] 11> # 5<=n<=5000> x<-sort(x,decreasing=F)> y<-qnorm(((1:n)-3/8)/(n+1/4))> W<-cor(x,y)**2> W[1] 0.8921455> sf.test(x)$statistic

W0.8921455> z<-(log(1-W)-(-1.2725+1.0521*(log(log(n))-log(n))))/+ (1.0308-0.26758*(log(log(n))+2/log(n)))> z[1] 1.130053> p.value<-1-pnorm(z)> p.value[1] 0.1292269> sf.test(x)$p.value[1] 0.1292269

11.1.6 Test di Lilliefors

• Sintassi: lillie.test()

• Parametri:

• Output:

p.value p-value

• Formula:

statisticD = max(a, b)

dove a = max{

in − Φ

(x(i)−x

)}i = 1, ..., n

b = max{

x(i)−x

)− i−1

}i = 1, ..., n

p.value

–337–

n n ≤ 100 n > 100Kd D (n / 100)0.49 Dnd n 100

pvalue = e−7.01256 Kd2 (nd+2.78019) +2.99587 Kd

√nd+2.78019−0.122119+ 0.974598√

nd+ 1.67997

pvalue ≤ 0.1

p.value = pvalue

pvalue > 0.1

kk p.value≤ 0.302 1≤ 0.5 2.76773− 19.828315 kk + 80.709644 kk2 − 138.55152 kk3 + 81.218052 kk4

≤ 0.9 −4.901232 + 40.662806 kk − 97.490286 kk2 + 94.029866 kk3 − 32.355711 kk4

≤ 1.31 6.198765− 19.558097 kk + 23.186922 kk2 − 12.234627 kk3 + 2.423045 kk4

> 1.31 0

kk = (√

n− 0.01 + 0.85 /√

• Esempio:

> x[1] 1.1 1.2 2.2 2.3 3.4 4.5 5.6 7.8> n<-length(x)> n[1] 8> # n>=5> x<-sort(x,decreasing=F)> a<-max((1:n)/n-pnorm((x-mean(x))/sd(x)))> a[1] 0.1983969> b<-max(pnorm((x-mean(x))/sd(x))-((1:n)-1)/n)> b[1] 0.1505139> D<-max(a,b)> D[1] 0.1983969> lillie.test(x)$statistic

D0.1983969> # n <= 100> Kd<-D> nd<-n> pvalue<-exp(-7.01256*Kd**2*(nd+2.78019) ++ 2.99587*Kd*sqrt(nd+2.78019)-0.122119+0.974598/sqrt(nd)+1.67997/nd)> pvalue[1] 0.5534262> # pvalue > 0.1

–338–

> kk<-(sqrt(n)-0.01+0.85/sqrt(n))*D> kk[1] 0.6187895> # kk <= 0.9> p.value<--4.901232+40.662806*kk-97.490286*kk**2 ++ 94.029866*kk**3-32.355711*kk**4> p.value[1] 0.4665968> lillie.test(x)$p.value[1] 0.4665968

> x[1] 42.3 31.4 11.2 9.0 8.5 7.5 5.6 2.3> n<-length(x)> n[1] 8> # n>=5> x<-sort(x,decreasing=F)> a<-max((1:n)/n-pnorm((x-mean(x))/sd(x)))> a[1] 0.3479997> b<-max(pnorm((x-mean(x))/sd(x))-((1:n)-1)/n)> b[1] 0.1908506> D<-max(a,b)> D[1] 0.3479997> lillie.test(x)$statistic

D0.3479997> # n <= 100> Kd<-D> nd<-n> pvalue<-exp(-7.01256*Kd**2*(nd+2.78019) ++ 2.99587*Kd*sqrt(nd+2.78019)-0.122119+0.974598/sqrt(nd)+1.67997/nd)> pvalue[1] 0.004993897> # pvalue <= 0.1> p.value<-pvalue> p.value[1] 0.004993897> lillie.test(x)$p.value[1] 0.004993897

–339–

11.2 Adattamento ad una distribuzione non nor-male

11.2.1 Test Chi - Quadrato GOF

• Parametri:

x vettore di frequenze assolute di dimensione k

p vettore p di probabilita a somma unitaria di dimensione k

• Output:

p.value p-value

observed valori osservati

expected valori attesi

residuals residui di Pearson

• Formula:

statistic

c =k∑

(ni − ni)2

dove ni = pi

k∑j=1

nj = n pi ∀ i = 1, 2, . . . , k

parameterk − 1

p.valueP (χ2

k−1 ≥ c)

observedni ∀ i = 1, 2, . . . , k

expected

ni = pi

k∑j=1

nj = n pi ∀ i = 1, 2, . . . , k

residualsni − ni√

∀ i = 1, 2, . . . , k

• Esempio:

–340–

11.2 Adattamento ad una distribuzione non normale

> x[1] 100 110 80 55 14> n<-sum(x)> n[1] 359> prob[1] 0.29 0.21 0.17 0.17 0.16> # le probabilita sommano ad 1> k<-length(x)> k[1] 5> osservati<-x> attesi<-n*prob> c<-sum((osservati-attesi)**2/attesi)> c[1] 55.3955> chisq.test(x,p=prob)$statisticX-squared55.3955

> parameter<-k-1> parameter[1] 4> chisq.test(x,p=prob)$parameterdf4> p.value<-1-pchisq(c,parameter)> p.value[1] 2.684530e-11> chisq.test(x,p=prob)$p.value[1] 2.684534e-11> osservati[1] 100 110 80 55 14> chisq.test(x,p=prob)$observed[1] 100 110 80 55 14> attesi[1] 104.11 75.39 61.03 61.03 57.44> chisq.test(x,p=prob)$expected[1] 104.11 75.39 61.03 61.03 57.44> residui<-(osservati-attesi)/sqrt(attesi)> residui[1] -0.4028057 3.9860682 2.4282626 -0.7718726 -5.7316888> chisq.test(x,p=prob)$residuals[1] -0.4028057 3.9860682 2.4282626 -0.7718726 -5.7316888

> x[1] 89 37 30 28 2> n<-sum(x)> n[1] 186> prob

–341–

[1] 0.40 0.20 0.20 0.15 0.05> # le probabilita sommano ad 1> k<-length(x)> k[1] 5> osservati<-x> attesi<-n*prob> c<-sum((osservati-attesi)**2/attesi)> c[1] 9.990143> chisq.test(x,p=prob)$statisticX-squared9.990143

> parameter<-k-1> parameter[1] 4> chisq.test(x,p=prob)$parameterdf4

> p.value<-1-pchisq(c,parameter)> p.value[1] 0.04059404> chisq.test(x,p=prob)$p.value[1] 0.04059404> osservati[1] 89 37 30 28 2> chisq.test(x,p=prob)$observed[1] 89 37 30 28 2> attesi[1] 74.4 37.2 37.2 27.9 9.3> chisq.test(x,p=prob)$expected[1] 74.4 37.2 37.2 27.9 9.3> residui<-(osservati-attesi)/sqrt(attesi)> residui[1] 1.69264697 -0.03279129 -1.18048650 0.01893206 -2.39376430> chisq.test(x,p=prob)$residuals[1] 1.69264697 -0.03279129 -1.18048650 0.01893206 -2.39376430

–342–

Parte IV

Statistica di Regressione

–343–

CAPITOLO 12

Regressione lineare

12.1 Simbologia

yi = β1+β2xi1+β3xi2+· · ·+βkxik−1+εi ∀ i = 1, 2, . . . , n ε ∼ N(0, σ2 In)

• variabile dipendente: y

• matrice del modello di dimensione n× k : X

• numero di parametri da stimare e rango della matrice del modello: k

• numero di unita: n

• i-esima riga della matrice del modello : Xi = (1, xi1, xi2, . . . , xik−1)

• matrice di proiezione di dimensione n× n : H = X (XT X)−1 XT

• matrice identita di dimensione n× n : In

• devianza residua: RSS =∑n

i=1 e2i = yT (In −H) y

• stima di σ2: s2 = RSS / (n− k)

• gradi di liberta della devianza residua: n− k

• stima di σ2 tolta la i-esima unita: s2−i = s2

(1 + 1−rstandard2

n−k−1

)∀ i = 1, 2, . . . , n

• stime OLS: β = (XT X)−1 XT y

• standard error delle stime OLS: sβ = s√

diag((XT X)−1)

• t-values delle stime OLS: tβ = β / sβ

• residui: e = (In −H) y

• residui standard: rstandardi = ei

1−hi∀ i = 1, 2, . . . , n

• residui studentizzati: rstudenti = ei

√1−hi

∀ i = 1, 2, . . . , n

–345–

• valori fittati: y = H y

• valori di leva: h = diag(H)

• stime OLS tolta la i-esima unita: β−i ∀ i = 1, 2, . . . , n

• correlazione tra le stime OLS: rβi βj=

s2 (XT X)−1(i, j)

sβisβj

∀ i, j = 1, 2, . . . , k

• devianza residua modello nullo: RSSnullo =∑n

i=1 (yi − y)2

• indice di determinazione: R2 = 1−RSS / RSSnullo

• indice di determinazione aggiustato: R2adj = 1− RSS / (n−k)

RSSnullo / (n−1)

• valore noto dei regressori per la previsione: xT0 = (1, x01, x02, . . . , x0k−1)

• log-verosimiglianza normale: ˆ(µ, σ2) = −n2

(log(2 π) + log

• distanza di Cook : cdi = hi rstandard2i

k (1−hi)∀ i = 1, 2, . . . , n

• covratio: cri = (1− hi)−1(1 + rstudent2i−1

)− k

∀i = 1, 2, . . . , n

12.2 Stima

12.2.1 lm()

• Parametri:

x = T / F matrice del modello

y = T / F variabile dipendente

• Significato: analisi di regressione lineare

• Output:

coefficients stime OLS

residuals residui

rank rango della matrice del modello

fitted.values valori fittati

df.residual gradi di liberta della devianza residua

x matrice del modello

y variabile dipendente

• Formula:

coefficientsβ

–346–

12.2 Stima

residualse

fitted.valuesy

df.residualn− k

• Esempio:

> modello<-lm(y~x1+x2+x3,x=T,y=T)

12.2.2 summary.lm()

• Parametri:

correlation = T / F correlazione tra le stime OLS

• Output:

residuals residui

coefficients stima puntuale, standard error, t-value, p-value

sigma stima di σ

r.squared indice di determinazione

adj.r.squared indice di determinazione aggiustato

fstatistic valore empirico della statistica F , df numeratore, df denominatore

cov.unscaled matrice di covarianza delle stime OLS non scalata perσ2

correlation matrice di correlazione tra le stime OLS

• Formula:

residualse

–347–

coefficients[,1]

βj ∀ j = 1, 2, . . . , k

coefficients[,2]

sβj∀ j = 1, 2, . . . , k

coefficients[,3]

tβj∀ j = 1, 2, . . . , k

coefficients[,4]

2 P (tn−k ≤ − | tβj|) ∀ j = 1, 2, . . . , k

r.squared

adj.r.squared

fstatistic[1]

Fvalue =

(RSSnullo −RSS

)/ (k − 1)

RSS / (n− k)

fstatistic[2]

k − 1

fstatistic[3]

n− k

cov.unscaled

(XT X)−1

correlation

rβi βj∀ i, j = 1, 2, . . . , k

• Esempio:

> modello<-lm(y~x1+x2+x3)> summary.lm(modello,correlation=T)

–348–

12.2 Stima

12.2.3 vcov()

• Parametri:

• Significato: matrice di covarianza delle stime OLS

• Formula:s2 (XT X)−1

• Esempio:

> modello<-lm(y~x1+x2+x3)> vcov(modello)

12.2.4 lm.fit()

• Parametri:

X matrice del modello

• Output:

coefficients stime OLS

residuals residui

• Formula:

coefficientsβ

residualse

fitted.valuesy

df.residualn− k

• Esempio:

–349–

> modello<-lm(y~x1+x2+x3)> X<-model.matrix(modello)> lm.fit(X,y)

12.2.5 lsfit()

• Parametri:

X matrice del modelloy variabile dipendente

• Output:

coefficients stime OLSresiduals residui

• Formula:

coefficientsβ

residualse

• Esempio:

> modello<-lm(y~x1+x2+x3)> X<-model.matrix(modello)> lsfit(X,y,intercept=F)

12.2.6 confint()

• Parametri:

modello modello di regressione lineare con k−1 variabili esplicativeed n unitaparm parametri del modello di cui vogliamo calcolare l’intervallo diconfidenzalevel livello di confidenza 1− α

• Significato: intervallo di confidenza per le stime OLS

• Formula:βj ∓ t1−α / 2, n−k sβj

∀j = 1, 2, . . . , k

• Esempio:

> modello<-lm(y~x1+x2+x3)> confint(modello,parm=c(1,2,3),level=0.95)

–350–

12.2 Stima

12.2.7 coef()

• Parametri:

• Significato: stime OLS

• Formula:β

• Esempio:

> modello<-lm(y~x1+x2+x3)> coef(modello)

12.2.8 coefficients()

• Parametri:

• Significato: stime OLS

• Formula:β

• Esempio:

> modello<-lm(y~x1+x2+x3)> coefficients(modello)

12.2.9 coeftest()

• Parametri:

modello modello di regressione lineare con k−1 variabili esplicativeed n unitadf = NULL / Inf significativita delle stime effettuata con la vari-abile casuale t oppure Z

• Significato: stime OLS e significativita

• Esempio:

> modello<-lm(y~x1+x2+x3)> coeftest(modello,df=NULL)

• Osservazioni: E’ necessario installare la libreria lmtest.

–351–

12.2.10 boxcox()

• Parametri:

modello modello di regressione lineare con k−1 variabili esplicativeed n unitalambda parametro di trasformazione λ

• Significato: modello trasformato secondo Box–Cox

• Output

x valore del parametro λ

y funzione di verosimiglianza L(λ) da minimizzare in λ

• Formula:

L(λ) = −n

2log(RSStλ(y)

)+ (λ− 1)

n∑i=1

log(yi)

dove tλ(y) =

yλ−1

λ se λ 6= 0

log(y) se λ = 0

RSStλ(y) rappresenta il valore di RSS per il modello che presentatλ(y) come variabile dipendente.

• Esempio:

> modello<-lm(Y~X1+X2+X3)> boxcox(modello,lambda=c(1.2),plotit=F)

12.2.11 box.cox()

• Parametri:

y vettore numerico positivo di dimensione n

p parametro di trasformazione λ

• Significato: variabile y trasformata secondo Box–Cox

• Formula:

tλ(y) =

yλ−1

λ se λ 6= 0

log(y) se λ = 0

–352–

12.2 Stima

• Esempio:

> box.cox(y,p=0.5)

12.2.12 box.cox.var()

• Parametri:

• Formula:(log (y / yG)− 1) y

• Esempio:

> box.cox.var(y)

12.2.13 bc()

• Parametri:

p parametro di trasformazione λ

• Formula:

tλ(y) =

yλ−1

λ se λ 6= 0

log(y) se λ = 0

• Esempio:

> bc(y,p=0.5)

–353–

12.2.14 fitted()

• Parametri:

• Significato: valori fittati

• Formula:y

• Esempio:

> modello<-lm(y~x1+x2+x3)> fitted(modello)

12.2.15 fitted.values()

• Parametri:

• Formula:y

• Esempio:

> modello<-lm(y~x1+x2+x3)> fitted.values(modello)

12.2.16 predict()

• Parametri:

nd il valore di x0

interval = co / pr intervallo di confidenza o previsione

level livello di confidenza 1− α

• Significato: intervallo di confidenza o di previsione utilizzando la variabilecasuale Z

• Output:

fit valori previsti dal modello

–354–

12.2 Stima

se.fit standard error delle stime

residual.scale stima di σ

• Formula:

fit[,1]xT

fit[,c(2,3)]

interval = co

xT0 β ∓ z1−α / 2 s

0 (XT X)−1 x0

interval = pr

xT0 β ∓ z1−α / 2 s

√1 + xT

0 (XT X)−1 x0

se.fit

xT0 (XT X)−1 x0

residual.scales

• Esempio:

> modello<-lm(y~x1+x2+x3)> m<-modello> s<-summary(m)$sigma> k<-4> x0<-numeric(k)> x0<-c(1,1.3,2.1,2.3)> yhat<-as.numeric(t(x0)%*%coef(m))> yhat[1] -67.63043> nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)> ok<-predict.lm(m,nd,interval="pr",level=0.95,se.fit=T,scale=s,df=Inf)> ok$fit[,1][1] -67.63043> alpha<-0.05> X<-model.matrix(m)> yhat+c(-1,1)*qnorm(1-alpha/2)*s*sqrt(1+t(x0)%*%solve(t(X)%*%X)%*%x0)[1] -103.39959 -31.86126> ok$fit[,c(2,3)]

lwr upr-103.39959 -31.86126> se.fit<-as.numeric(s*sqrt(t(x0)%*%solve(t(X)%*%X)%*%x0))> se.fit[1] 18.15023> ok$se.fit[1] 18.15023

–355–

> s[1] 1.904851> ok$residual.scale[1] 1.904851

12.2.17 predict.lm()

• Parametri:

nd il valore di x0

• Significato: intervallo di confidenza o di previsione

• Output:

df gradi di liberta della devianza residua

• Formula:

fit[,1]xT

fit[,c(2,3)]

interval = co

xT0 β ∓ t1−α / 2, n−k s

0 (XT X)−1 x0

interval = pr

xT0 β ∓ t1−α / 2, n−k s

√1 + xT

0 (XT X)−1 x0

se.fit

xT0 (XT X)−1 x0

dfn− k

residual.scales

• Esempio:

–356–

12.2 Stima

> modello<-lm(y~x1+x2+x3)> m<-modello> s<-summary(m)$sigma> k<-4> x0<-numeric(k)> x0<-c(1,1.3,2.1,2.3)> yhat<-as.numeric(t(x0)%*%coef(m))> yhat[1] -67.63043> nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)> ok<-predict.lm(m,nd,interval="pr",level=0.95,se.fit=T)> ok$fit[,1][1] -67.63043> alpha<-0.05> X<-model.matrix(m)> yhat+c(-1,1)*qt(1-alpha/2,n-k)*s*sqrt(1+t(x0)%*%solve(t(X)%*%X)%*%x0)[1] -108.91459 -26.34627> ok$fit[,c(2,3)]

lwr upr-108.91459 -26.34627> se.fit<-as.numeric(s*sqrt(t(x0)%*%solve(t(X)%*%X)%*%x0))> se.fit[1] 18.15023> ok$se.fit[1] 18.15023> s[1] 1.904851> ok$residual.scale[1] 1.904851

12.2.18 linear.hypothesis.lm()

• Parametri:

hypothesis.matrix matrice C di dimensione q × k e rango pari aq = min(q, k)

rhs vettore b della previsione lineare di dimensione q

• Significato: test di ipotesi per H0 : C β = b contro H1 : C β 6= b doveC e b sono cosı definiti:

c1, 1 c1, 2 . . . c1, k

c2, 1 c2, 2 . . . c2, k

......

cq, 1 cq, 2 . . . cq, k

–357–

• Output:

Res.Df gradi di liberta della devianza residua

RSS devianza residua

Df gradi di liberta della devianza relativa all’ipotesi nulla H0

Sum of Sq devianza relativa all’ipotesi nulla H0

F valore empirico della statistica F

Pr(>F) p-value

• Formula:

Res.Dfn− k n− k + q

RSS RSS +(b− C β

)T [C(XT X

)−1CT]−1 (

b− C β)

Df−q

Sum of Sq

−(b− C β

)T [C(XT X

)−1CT]−1 (

b− C β)

Fvalue =

[(b− C β

)T [C(XT X

)−1CT]−1 (

b− C β)]

RSS / (n− k)

Pr(>F)P (Fq, n−k ≥ Fvalue)

• Esempio:

> modello<-lm(y~x1+x2+x3)> k<-4> q<-2> C

[,1] [,2] [,3] [,4][1,] 1 3 5.0 2.3[2,] 2 4 1.1 4.3> b

[,1][1,] 1.1[2,] 2.3> linear.hypothesis.lm(modello,hypothesis.matrix=C,rhs=b)

–358–

12.2 Stima

12.2.19 lm.ridge()

• Parametri:

lambda valore del parametro λ

• Significato: Ridge–Regression

• Output:

coef stime

scales scarto quadratico medio delle k − 1 variabili esplicative

lambda λ

ym media della variabile dipendente

xm media delle k − 1 variabili esplicative

GCV i valori di λ e GCV

kHKB kHKB

kLW kLW

• Formula:

coefV ( D2 + λ Ik−1 )−1 D UT (y − y)

scalesσxj

∀ j = 1, 2, . . . , k − 1

lambdaλ

xmxj ∀ j = 1, 2, . . . , k − 1

λ(y − y)T ( In − U D (D2 + λ Ik−1 )−1 D UT )2 (y − y)(

n−∑k−1

D2i, i

λ+D2i, i

kHKBk − 3n− k

(y − y)T ( In − U UT ) (y − y)(y − y)T U D−2 UT (y − y)

kLWn (k − 3)

n− k

(y − y)T ( In − U UT ) (y − y)(y − y)T U UT (y − y)

• Esempio:

–359–

> modello<-lm(y~x1+x2+x3)> lm.ridge(modello,lambda=1.2)

• Osservazioni1: E’ necessario installare la libreria MASS.

• Osservazioni2: La matrice del modello X viene privata della prima colon-na (intercetta) e poi trasformata nella matrice standardizzata Z. Successi-vamente viene applicata la fattorizzazione ai valori singolari Z = U D V T

mediante il comando svd().

• Osservazioni3: I parametri stimati sono k − 1 e non k (modello senzaintercetta).

12.3 Adattamento

12.3.1 logLik()

• Parametri:

• Significato: log-verosimiglianza normale

• Formula:ˆ(µ, σ2) df = k + 1

• Esempio:

> modello<-lm(y~x1+x2+x3)> logLik(modello)

12.3.2 dwtest()

• Parametri:

Significato: test di Durbin–Watson

• Output:

statistic valore empirico della statistica D–W

• Formula:

statistic

dw =∑n

i=2 (ei − ei−1)2

–360–

12.3 Adattamento

• Esempio:

> modello<-lm(y~x1+x2+x3)> dwtest(modello)

12.3.3 AIC()

• Parametri:

• Significato: indice AIC

• Formula:−2 ˆ(µ, σ2) + 2 (k + 1)

• Esempio:

> modello<-lm(y~x1+x2+x3)> AIC(modello)

12.3.4 BIC()

• Parametri:

• Significato: indice BIC

• Formula:−2 ˆ(µ, σ2) + (k + 1) log(n)

• Esempio:

> modello<-lm(y~x1+x2+x3)> BIC(modello)

• Osservazioni: E’ necessario installare la libreria nlme.

–361–

12.3.5 extractAIC()

• Parametri:

• Significato: numero di parametri del modello ed indice AIC

• Formula:k n log(RSS / n) + 2 k

• Esempio:

> modello<-lm(y~x1+x2+x3)> extractAIC(modello)

12.3.6 deviance()

• Parametri:

• Significato: devianza residua

• Formula:RSS

• Esempio:

> modello<-lm(y~x1+x2+x3)> deviance(modello)

12.3.7 leaps()

• Parametri:

A matrice del modello priva della prima colonna (intercetta) di di-mensione n× (h− 1)

• Significato: Best Subsets

• Output:

which variabili selezionate

size numero di parametri

method = r2 / adjr2 / Cp indice R2, R2adj , Cp

–362–

12.3 Adattamento

• Formula:

sizekj ∀ j = 1, 2, . . . , h− 1

Numero di esplicative Numero di parametri Numero di Subsets

1 k1 = 2(h−1

)2 k2 = 3

(h−1

)· · ·· · ·j kj = j + 1

(h−1

)· · ·· · ·

h - 1 kh−1 = h(h−1h−1

method = r2

R2j ∀ j = 1, 2, . . . , h− 1

R2j rappresenta il massimo R2 tra i

(h−1

)modelli di regressione con

j variabili esplicative oppure kj parametri.adjr2

method = adjr2

R2adj j = 1− RSS / (n− kj)

RSSnullo / (n− 1)

=1− kj

n− kj+

n− 1n− kj

R2j ∀ j = 1, 2, . . . , h− 1

R2adj j rappresenta il massimo R2

adj tra i(h−1

)modelli di regressione

con j variabili esplicative oppure kj parametri.Cp

method = Cp

Cpj = (n− kh−1)1−R2

1−R2h−1

+ 2 kj − n

n− kh−1

1−R2h−1

+ 2 kj − n

)− n− kh−1

1−R2h−1

R2j ∀ j = 1, 2, . . . , h− 1

Cpj rappresenta il minimo Cp tra i(h−1

)modelli di regressione con

j variabili esplicative oppure kj parametri.

• Esempio:

> modello<-lm(y~x1+x2+x3+x4+x5)> X<-model.matrix(modello)> A<-X[,-1]> leaps(A,y,method="Cp",nbest=1)

–363–

• Osservazioni1: E’ necessario installare la libreria leaps.

• Osservazioni2: R2adj j e una trasformazione lineare crescente di R2

• Osservazioni3: Cpj e una trasformazione lineare decrescente di R2j

12.3.8 anova()

• Parametri:

mod modello di regressione lineare ridotto con 1 variabile esplicativaed n unita

modello modello di regressione lineare con 1 variabile esplicativa edn unita

• Significato: test di ipotesi per H0 : β2 = b contro H1 : β2 6= b

• Output:

Res.Df gradi di liberta

Df differenza dei gradi di liberta

Sum of Sq differenza tra le devianze residue

Pr(>F) p-value

• Formula:

Res.dfn− k + 1 n− k

RSSn∑

(yi − b xi1 − (y − b x1))2

Sum of Sqn∑

(yi − b xi1 − (y − b x1))2 −RSS

Fvalue =∑n

i=1 (yi − b xi1 − (y − b x1))2 −RSS

RSS / (n− k)

Pr(>F)P (F1, n−2 ≥ Fvalue)

• Esempio:

–364–

12.3 Adattamento

> b<-2> mod<-lm(y~offset(b*x))> modello<-lm(y~x)> anova(mod,modello)

12.3.9 drop1()

• Parametri:

scale = 0 / summary(modello)$sigma**2 indice AIC oppure Cp

• Significato: Submodels

• Output:

Df differenza tra gradi di liberta

Sum of Sq differenza tra devianze residue

AIC indice AIC

Cp indice Cp

Pr(F) p-value

• Formula:

Df1, 1, . . . , 1︸︷︷︸

k−1 volte

Sum of Sq

RSS−xj−RSS ∀ j = 1, 2, . . . , k − 1

RSS−xjrappresenta la devianza residua del modello eliminata la

variabile esplicativa xj .

RSSRSS, RSS−xj ∀ j = 1, 2, . . . , k − 1

scale = 0

n log (RSS / n)+2 k, log(RSS−xj / n

)+2 (k−1) ∀ j = 1, 2, . . . , k−1

scale = summary(modello)$sigma**2

–365–

k, (n− k)RSS−xj

RSS+ 2 (k − 1)− n ∀ j = 1, 2, . . . , k − 1

F value

F−xj=

RSS−xj−RSS

RSS / (n− k)∀ j = 1, 2, . . . , k − 1

P (F1, n−k ≥ F−xj) ∀ j = 1, 2, . . . , k − 1

• Esempio:

> #indice AIC> modello<-lm(y~x1+x2+x3)> drop1(modello,scale=0,test="F")

> #indice Cp> modello<-lm(y~x1+x2+x3)> drop1(modello,scale=summary(modello)$sigma**2,test="F")

12.3.10 add1()

• Parametri:

nullo modello nullo di regressione

scale = 0 / summary(modello)$sigma**2 indice AIC oppure Cp

• Significato: Submodels

• Output:

Df differenza tra gradi di liberta

Sum of Sq differenza tra devianze residue

AIC indice AIC

Cp indice Cp

Pr(F) p-value

• Formula:

–366–

12.3 Adattamento

Sum of Sq

RSSnullo −RSSxj ∀ j = 1, 2, . . . , k − 1

RSSxjrappresenta la devianza residua del modello con la sola vari-

abile esplicativa xj .

RSSRSSnullo, RSSxj ∀ j = 1, 2, . . . , k − 1

scale = 0

RSSnullo, n log(RSSxj / n

)+ 4 ∀ j = 1, 2, . . . , k − 1

scale = summary(nullo)$sigma**2

1, (n− 1)RSSxj

RSSnullo+ 4− n ∀ j = 1, 2, . . . , k − 1

F value

Fxj =RSSnullo −RSSxj

RSSxj / (n− 2)∀ j = 1, 2, . . . , k − 1

Pr(F)P (F1, n−2 ≥ Fxj

) ∀ j = 1, 2, . . . , k − 1

• Esempio:

> #indice AIC> nullo<-lm(y~1)> RSSnullo<-deviance(nullo)> modello<-lm(y~x1+x2+x3)> add1(nullo,modello,scale=0,test="F")

> #indice Cp> nullo<-lm(y~1)> RSSnullo<-deviance(nullo)> modello<-lm(y~x1+x2+x3)> add1(nullo,modello,scale=summary(nullo)$sigma**2,test="F")

12.3.11 bptest()

• Parametri:

studentize = T / F metodo di Koenker

• Significato: test di Breusch-Pagan per l’omoschedasticita dei residui

–367–

• Output:

p.value p-value

• Formula:

statistic

studentize = T

vi = e2i −RSS / n ∀ i = 1, 2, . . . , n

c = nvT H v

studentize = F

vi = n e2i / RSS − 1 ∀ i = 1, 2, . . . , n

vT H v

parameterk − 1

p.valueP (χ2

k−1 ≥ c)

• Esempio:

> modello<-lm(y~x1+x2+x3)> bptest(modello,studentize=T)

12.4 Diagnostica

12.4.1 ls.diag()

• Parametri:

• Output:

std.dev stima di σ

hat valori di leva

std.res residui standard

–368–

12.4 Diagnostica

stud.res residui studentizzati

cooks distanza di Cook

dfits dfits

correlation matrice di correlazione tra le stime OLS

std.err standard error delle stime OLS

cov.scaled matrice di covarianza delle stime OLS

cov.unscaled matrice di covarianza delle stime OLS non scalata perσ2

• Formula:

std.dev

std.res

rstandardi ∀i = 1, 2, . . . , n

stud.res

rstudenti ∀i = 1, 2, . . . , n

cdi ∀ i = 1, 2, . . . , n

rstudenti

1− hi∀ i = 1, 2, . . . , n

correlation

rβi, βj∀ i, j = 1, 2, . . . , k

std.err

sβj∀ j = 1, 2, . . . , k

cov.scaled

s2 (XT X)−1

cov.unscaled

(XT X)−1

• Esempio:

> modello<-lm(y~x1+x2+x3)> ls.diag(modello)

–369–

12.4.2 cooks.distance()

• Parametri:

• Significato: distanza di Cook

• Formula:cdi ∀ i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> cooks.distance(modello)

12.4.3 cookd()

• Parametri:

• Formula:cdi ∀ i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> cookd(modello)

12.4.4 rstandard()

• Parametri:

• Significato: residui standard

• Formula:rstandardi ∀i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> rstandard(modello)

–370–

12.4 Diagnostica

12.4.5 stdres()

• Parametri:

• Esempio:

> modello<-lm(y~x1+x2+x3)> stdres(modello)

12.4.6 rstudent()

• Parametri:

• Significato: residui studentizzati

• Formula:rstudenti ∀i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> rstudent(modello)

12.4.7 studres()

• Parametri:

• Esempio:

> modello<-lm(y~x1+x2+x3)> studres(modello)

–371–

12.4.8 lmwork()

• Parametri:

• Significato: diagnostica di regressione

• Output:

stdedv stima di σ

stdres residui standard

studres residui studentizzati

• Formula:

stdedvs

stdresrstandardi ∀i = 1, 2, . . . , n

studresrstudenti ∀i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> lmwork(modello)

12.4.9 dffits()

• Parametri:

• Significato: dffits

• Formula:

rstudenti

1− hi∀ i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> dffits(modello)

–372–

12.4 Diagnostica

12.4.10 covratio()

• Parametri:

• Significato: covratio

• Formula:cri ∀i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> covratio(modello)

12.4.11 lm.influence()

• Parametri:

• Output:

hat valori di leva

coefficients differenza tra le stime OLS eliminando una unita

sigma stima di σ eliminando una unita

wt.res residui

• Formula:

coefficients

β − β−i = Xi (XT X)−1( ei

1− hi

)∀i = 1, 2, . . . , n

sigmas−i

wt.rese

• Esempio:

> modello<-lm(y~x1+x2+x3)> lm.influence(modello)

–373–

12.4.12 residuals()

• Parametri:

• Significato: residui

• Formula:e

• Esempio:

> modello<-lm(y~x1+x2+x3)> residuals(modello)

12.4.13 residuals.default()

• Parametri:

• Formula:e

• Esempio:

> modello<-lm(y~x1+x2+x3)> residuals.default(modello)

12.4.14 resid()

• Parametri:

• Formula:e

• Esempio:

> modello<-lm(y~x1+x2+x3)> resid(modello)

–374–

12.4 Diagnostica

12.4.15 df.residual()

• Parametri:

• Significato: gradi di liberta della devianza residua

• Formula:n− k

• Esempio:

> modello<-lm(y~x1+x2+x3)> df.residual(modello)

12.4.16 hatvalues()

• Parametri:

• Significato: valori di leva

• Formula:h

• Esempio:

> modello<-lm(y~x1+x2+x3)> hatvalues(modello)

12.4.17 hat()

• Parametri:

• Formula:h

• Esempio:

> modello<-lm(y~x1+x2+x3)> X<-model.matrix(modello)> hat(X)

–375–

12.4.18 dfbeta()

• Parametri:

• Significato: dfbeta

• Formula:

β − β−i = Xi (XT X)−1

1− hi

)∀i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> dfbeta(modello)

12.4.19 dfbetas()

• Parametri:

• Significato: dfbetas

• Formula:

β − β−i

√diag((XT X)−1)

=Xi (XT X)−1

1−hi

)s−i

√diag((XT X)−1)

∀i = 1, 2, . . . , n

• Esempio:

> modello<-lm(y~x1+x2+x3)> dfbetas(modello)

12.4.20 vif.lm()

• Parametri:

• Significato: variance inflation factors

–376–

12.4 Diagnostica

• Formula: (1−R2

∀ j = 1, 2, . . . , k − 1

rappresenta il valore di R2 per il modello che presenta il regressorej-esimo come variabile dipendente.

• Esempio:

> modello<-lm(y~x1+x2+x3)> vif.lm(modello)

12.4.21 outlier.test.lm()

• Parametri:

• Significato: test sugli outliers

• Output:

test verifica di ipotesi

• Formula:

test[1]

t = max({∣∣∣ rstudenti

∣∣∣}i = 1, 2, ... ,n

)test[2]

n− k − 1

test[3]p = 2 P ( tn−k−1 ≥ | t |)

test[4]{n p se n p ≤ 1NA se n p > 1

• Esempio:

> modello<-lm(y~x1+x2+x3)> outlier.test.lm(modello)

–377–

–378–

CAPITOLO 13

Regressione lineare pesata

13.1 Simbologia

yi = β1+β2xi1+β3xi2+· · ·+βkxik−1+εi ∀ i = 1, 2, . . . , n ε ∼ N(0, σ2 W )

• variabile dipendente: y

• matrice del modello di dimensione n× k : X

• numero di parametri da stimare e rango della matrice del modello: k

• numero di unita: n

• i-esima riga della matrice del modello : Xi = (1, xi1, xi2, . . . , xik−1)

• matrice diagonale dei pesi di dimensione n×n : W = diag(w1, w2, . . . , wn)

• matrice di proiezione di dimensione n×n : H = X (XT W−1 X)−1 XT W−1

• matrice identita di dimensione n× n : In

• devianza residua: RSS =∑n

(ei√wi

= yT W−1 (In −H) y

• stima di σ2: s2 = RSS / (n− k)

• gradi di liberta della devianza residua: n− k

• stima di σ2 tolta la i-esima unita: s2−i = s2

(1 + 1−rstandard2

n−k−1

)∀ i = 1, 2, . . . , n

• stime WLS: β = (XT W−1 X)−1 XT W−1 y

• standard error delle stime WLS: sβ = s√

diag((XT W−1 X)−1)

• t-values delle stime WLS: tβ = β / sβ

• residui: e = (In −H) y

–379–

• residui standard: rstandardi = ei

wi (1−hi)∀ i = 1, 2, . . . , n

• residui studentizzati: rstudenti = ei

√wi (1−hi)

∀ i = 1, 2, . . . , n

• valori fittati: y = H y

• valori di leva: h = diag(H)

• stime WLS tolta la i-esima unita: β−i ∀ i = 1, 2, . . . , n

• correlazione tra le stime WLS: rβi βj=

s2 (XT W−1 X)−1(i, j)

sβisβj

∀ i, j = 1, 2, . . . , k

• devianza residua modello nullo: RSSnullo =∑n

i=1 w−1i

(yi −

∑nj=1 yj

w−1j

Pni=1 w−1

• indice di determinazione: R2 = 1−RSS / RSSnullo

• indice di determinazione aggiustato: R2adj = 1− RSS / (n−k)

RSSnullo / (n−1)

• valore noto dei regressori per la previsione: xT0 = (1, x01, x02, . . . , x0k−1)

• log-verosimiglianza: ˆ(µ, σ2) = −n2

(log(2 π) + log

)+ 1)− 1

∑ni=1 log(wi)

• distanza di Cook : cdi = hi rstandard2i

k (1−hi)∀ i = 1, 2, . . . , n

• covratio: cri = (1− hi)−1(1 + rstudent2i−1

)− k

∀i = 1, 2, . . . , n

13.2 Stima

13.2.1 lm()

• Parametri:

weights diagonale della matrice W−1

x = T / F matrice del modello

y = T / F variabile dipendente

• Significato: analisi di regressione lineare pesata

• Output:

coefficients stime WLS

residuals residui

x matrice del modello

–380–

13.2 Stima

• Formula:

coefficientsβ

residualse

fitted.valuesy

df.residualn− k

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1,x=T,y=T)

13.2.2 summary.lm()

• Parametri:

modello modello di regressione lineare pesata con k − 1 variabiliesplicative ed n unita

correlation = T / F matrice di correlazione delle stime WLS

• Output:

residuals residui

coefficients stima puntuale, standard error, t-value, p-value

sigma stima di σ

r.squared R2

adj.r.squared R2adj

fstatistic Fvalue, df numeratore, df denominatore

–381–

cov.unscaled matrice di varianza non scalata per σ2

correlation matrice di correlazione tra le stime WLS

• Formula:

residualse

coefficients[,1]

βj ∀ j = 1, 2, . . . , k

coefficients[,2]

seβj∀ j = 1, 2, . . . , k

coefficients[,3]

tβj∀ j = 1, 2, . . . , k

coefficients[,4]

2 P (tn−k ≤ − | tβj|) ∀ j = 1, 2, . . . , k

sigmas

r.squaredR2

adj.r.squaredR2

fstatistic[1]

Fvalue =(RSSnullo −RSS) / (k − 1)

RSS / (n− k)

fstatistic[2]k − 1

fstatistic[3]n− k

cov.unscaled(XT W−1 X)−1

correlationrβi βj

∀ i, j = 1, 2, . . . , k

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> summary.lm(modello,correlation=T)

–382–

13.2 Stima

13.2.3 vcov()

• Parametri:

• Significato: matrice di covarianze delle stime WLS

• Formula:s2 (XT W−1 X)−1

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> vcov(modello)

13.2.4 lm.wfit()

• Parametri:

w diagonale della matrice W−1

• Output:

coefficients stime WLS

residuals residui

weights diagonale della matrice W−1

• Formula:

coefficientsβ

residualse

fitted.valuesy

–383–

weightsdiag(W−1)

df.residualn− k

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> X<-model.matrix(modello)> lm.fit(X,y,w=diag(W)^-1)

13.2.5 lsfit()

• Parametri:

X matrice del modelloy variabile dipendentew diagonale della matrice W−1

• Output:

coefficients stime WLSresiduals residuiwt diagonale della matrice W−1

• Formula:

coefficientsβ

residualse

wtdiag(W−1)

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> X<-model.matrix(modello)> lsfit(X,y,w=diag(W)^-1,intercept=F)

–384–

13.2 Stima

13.2.6 confint()

• Parametri:

parm parametri del modello di cui vogliamo calcolare l’intervallo diconfidenza

• Significato: intervallo di confidenza per le stime WLS

• Formula:

βj ∓ t1−α / 2, n−k sβj∀j = 1, 2, . . . , k

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> confint(modello,parm=c(1,2,3),level=0.95)

13.2.7 coef()

• Parametri:

• Significato: stime WLS

• Formula:

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> coef(modello)

–385–

13.2.8 coefficients()

• Parametri:

• Significato: stime WLS

• Formula:β

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> coefficients(modello)

13.2.9 coeftest()

• Parametri:

df = NULL / Inf significativita delle stime effettuata con la vari-abile casuale t oppure Z

• Significato: stime WLS e significativita

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> coeftest(modello,df=NULL)

13.2.10 fitted()

• Parametri:

–386–

13.2 Stima

• Formula:y

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> fitted(modello)

13.2.11 fitted.values()

• Parametri:

• Formula:y

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> fitted.values(modello)

13.2.12 predict()

• Parametri:

nd il valore di x0

• Significato: intervallo di confidenza o di previsione utilizzando la variabilecasuale Z

• Output:

–387–

• Formula:

fit[,1]xT

fit[,c(2,3)]

interval = co

xT0 β ∓ z1−α / 2 s

0 (XT W−1 X)−1 x0

interval = pr

xT0 β ∓ z1−α / 2 s

√1 + xT

0 (XT W−1 X)−1 x0

se.fit

xT0 (XT W−1 X)−1 x0

residual.scales

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> m<-modello> s<-summary(m)$sigma> x0<-c(1,1.3,2.1,2.3)> nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)> predict.lm(m,nd,interval="pr",level=0.99,se.fit=T,scale=s,df=Inf)

13.2.13 predict.lm()

• Parametri:

nd il valore di x0

• Significato: valori previsti dal modello

• Output:

–388–

13.2 Stima

df gradi di liberta della devianza residua

• Formula:

fit[,1]y

fit[,c(2,3)]

interval = co

xT0 β ∓ t1−α / 2, n−k s

0 (XT W−1 X)−1 x0

interval = pr

xT0 β ∓ t1−α / 2, n−k s

√1 + xT

0 (XT W−1 X)−1 x0

se.fit

xT0 (XT W−1 X)−1 x0

dfn− k

residual.scales

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> x0<-c(1,1.3,2.1,2.3)> nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)> predict.lm(modello,nd,interval="pr",level=0.99,se.fit=T)

13.2.14 linear.hypothesis.lm()

• Parametri:

hypothesis.matrix matrice C di dimensione q × k e rango pari aq = min(q, k)

rhs vettore b della previsione lineare di dimensione q

–389–

• Significato: test di ipotesi per H0 : C β = b contro H1 : C β 6= b doveC e b sono cosı definiti:

c1, 1 c1, 2 . . . c1, k

c2, 1 c2, 2 . . . c2, k

......

cq, 1 cq, 2 . . . cq, k

• Output:

Res.Df gradi di liberta della devianza residua

Df gradi di liberta della devianza relativa all’ipotesi nulla H0

Sum of Sq devianza relativa all’ipotesi nulla H0

Pr(>F) p-value

• Formula:

Res.Dfn− k n− k + q

RSS RSS +(b− C β

)T [C(XT W−1 X

)−1CT]−1 (

b− C β)

Df−q

Sum of Sq

−(b− C β

)T [C(XT W−1 X

)−1CT]−1 (

b− C β)

Fvalue =

[(b− C β

)T [C(XT W−1 X

)−1CT]−1 (

b− C β)]

RSS / (n− k)

Pr(>F)P (Fq, n−k ≥ Fvalue)

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> k<-4> q<-2

–390–

13.3 Adattamento

> C[,1] [,2] [,3] [,4]

[1,] 1 3 5.0 2.3[2,] 2 4 1.1 4.3> b

[,1][1,] 1.1[2,] 2.3> linear.hypothesis.lm(modello,hypothesis.matrix=C,rhs=b)

13.3 Adattamento

13.3.1 logLik()

• Parametri:

• Significato: log-verosimiglianza normale pesata

• Formula:ˆ(µ, σ2) df = k + 1

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> logLik(modello)

13.3.2 deviance()

• Parametri:

• Significato: devianza residua

• Formula:RSS

• Esempio:

–391–

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> deviance(modello)

13.3.3 AIC()

• Parametri:

• Significato: indice AIC

• Formula:−2 ˆ(µ, σ2) + 2 (k + 1)

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> AIC(modello)

13.3.4 BIC()

• Parametri:

• Significato: indice BIC

• Formula:−2 ˆ(µ, σ2) + (k + 1) log(n)

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> BIC(modello)

• Osservazioni: E’ necessario installare la libreria nlme.

–392–

13.4 Diagnostica

13.3.5 extractAIC()

• Parametri:

• Significato: numero di parametri del modello ed indice AIC

• Formula:k n log(RSS / n) + 2 k

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> extractAIC(modello)

13.4 Diagnostica

13.4.1 weights()

• Parametri:

• Significato: pesi

• Formula:diag(W−1)

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> weights(modello)

13.4.2 weighted.residuals()

• Parametri:

–393–

• Significato: residui pesati

• Formula:ei /

√wi ∀ i = 1, 2, . . . , n

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> weighted.residuals(modello)

13.4.3 residuals()

• Parametri:

• Formula:e

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> residuals(modello)

13.4.4 residuals.default()

• Parametri:

• Formula:e

• Esempio:

–394–

13.4 Diagnostica

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> residuals.default(modello)

13.4.5 resid()

• Parametri:

• Formula:e

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> resid(modello)

13.4.6 outlier.test.lm()

• Parametri:

• Significato: test sugli outliers

• Output:

test verifica di ipotesi

• Formula:

test[1]

t = max({∣∣∣ rstudenti

∣∣∣}i = 1, 2, ... ,n

)test[2]

n− k − 1

test[3]p = 2 P ( tn−k−1 ≥ | t |)

–395–

test[4]{n p se n p ≤ 1NA se n p > 1

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> outlier.test.lm(modello)

13.4.7 df.residual()

• Parametri:

• Significato: gradi di liberta della devianza residua

• Formula:n− k

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> df.residual(modello)

13.4.8 hatvalues()

• Parametri:

• Formula:h

• Esempio:

–396–

13.4 Diagnostica

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> hatvalues(modello)

13.4.9 hat()

• Parametri:

• Formula:h

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> X<-model.matrix(modello)> hat(X)

13.4.10 rstandard()

• Parametri:

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> rstandard(modello)

–397–

13.4.11 stdres()

• Parametri:

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> stdres(modello)

13.4.12 rstudent()

• Parametri:

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> rstudent(modello)

13.4.13 studres()

• Parametri:

–398–

13.4 Diagnostica

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> studres(modello)

13.4.14 lmwork()

• Parametri:

• Output:

stdedv stima di σ

stdres residui standard

studres residui studentizzati

• Formula:

stdedvs

stdresrstandardi ∀i = 1, 2, . . . , n

studresrstudenti ∀i = 1, 2, . . . , n

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> lmwork(modello)

–399–

13.4.15 dffits()

• Parametri:

• Significato: dffits

• Formula:

rstudenti

1− hi∀ i = 1, 2, . . . , n

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)> dffits(modello)

13.4.16 covratio()

• Parametri:

• Significato: covratio

• Formula:cri ∀i = 1, 2, . . . , n

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x,weights=diag(W)^-1)> covratio(modello)

13.4.17 cooks.distance()

• Parametri:

–400–

13.4 Diagnostica

• Formula:cdi ∀i = 1, 2, . . . , n

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x,weights=diag(W)^-1)> cooks.distance(modello)

13.4.18 cookd()

• Parametri:

• Formula:cdi ∀ i = 1, 2, . . . , n

• Esempio:

> n<-length(y)> pesi<-abs(rnorm(n))> W<-diag(pesi)> modello<-lm(y~x,weights=diag(W)^-1)> cookd(modello)

–401–

–402–

Parte V

Appendice

–403–

–405–

CAPITOLO 14

Librerie installate

I stats The R Stats Package

I lmtest Testing Linear Regression Models

I MASS Main Package of Venables and Ripley’s MASS

I labstatR Libreria del Laboratorio di Statistica con R

I nortest Tests for Normality

I fBasics Financial Software Collection

I car Companion to Applied Regression

I base The R Base Package

I Matrix A Matrix package for R

I tseries Time series analysis and computational finance

I e1071 Misc Functions of the Department of Statistics (e1071), TU Wien

I leaps regression subset selection

I strucchange Testing for Structural Change

I Rcmdr R Commander

I boot Bootstrap R (S-Plus) Functions (Canty)

I faraway Functions and datasets for books by Julian Faraway

I SuppDists Supplementary distributions

I BSDA Basic Statistics and Data Analysis

I MCMCpack Markov chain Monte Carlo (MCMC) Package

I nlme Linear and nonlinear mixed effects models

–406–

INDICE ANALITICO

% ∗%, 101%o%, 87.Last.value, 75:, 45AIC, 361, 392Arg, 62BIC, 361, 392Box.test, 285, 286COV, 138Conj, 61D, 68E, 158IQR, 132Im, 60LETTERS[ ], 263Mod, 61NCOL, 107NROW, 106Re, 60TukeyHSD, 271, 272, 274Var, 136[ ], 82, 89%in%, 30abs, 25acf, 152acosh, 40acos, 37ad.test, 334add1, 366all, 75anova, 264, 266, 268, 364any, 75aperm, 104apply, 109args, 69array, 196

as.factor, 259as.vector, 97asinh, 40asin, 36atan2, 38atanh, 41atan, 37ave, 47backsolve, 113bartlett.test, 253basicStats, 162bc, 353beta, 58binom.test, 309body, 70box.cox.var, 353box.cox, 352boxcox, 352boxplot.stats, 165bptest, 367by, 260cancor, 149cbind, 93ceiling, 53chi2, 157chisq.test, 315, 322, 340chol2inv, 118chol, 118choose, 33coefficients, 351, 386coeftest, 351, 386coef, 351, 385colMeans, 108colSums, 108complex, 60, 85confint, 350, 385

–407–

cookd, 370, 401cooks.distance, 370, 400cor.test, 279, 282corr, 152cor, 146cosh, 39cos, 36cov.wt, 140covratio, 373, 400cov, 139crossprod, 100cum3, 193cummax, 64cummin, 64cumprod, 63cumsum, 62cut, 170cvm.test, 332cv, 134c, 81dbeta, 183dbinom, 176dcauchy, 183dchisq, 179determinant, 96det, 95deviance, 362, 391dexp, 180df.residual, 375, 396dfbetas, 376dfbeta, 376dffits, 372, 400df, 180dgamma, 181dgeom, 176dhyper, 177diag, 103diff, 190digamma, 57dim, 89, 105dinvGauss, 184dinvgamma, 181, 182dist, 173dlnorm, 182dlogis, 183dmultinom, 178dnbinom, 177dnorm, 178dpois, 177drop1, 365

dsignrank, 184dt, 178, 179dunif, 184duplicated, 74dweibull, 182dwilcox, 185dwtest, 360eigen, 99eta, 155eval, 78expm1, 42expression, 78exp, 41extractAIC, 362, 393e, 79factorial, 34factor, 257fisher.test, 318fitted.values, 354, 387fitted, 354, 386fivenum, 160floor, 52forwardsolve, 114fractions, 55friedman.test, 307function, 69gamma, 56gini, 156ginv, 119gl, 261hatvalues, 375, 396hat, 375, 397head, 85, 91hist, 168ic.var, 186ilogit, 174integrate, 68intersect, 28inv.logit, 175is.element, 29is.finite, 189is.infinite, 189is.nan, 186is.na, 185jarque.bera.test, 330kappa, 111kronecker, 102kruskal.test, 305ks.test, 329kurtosis, 145

–408–

INDICE ANALITICO

kurt, 145lapply, 73lbeta, 59lchoose, 34leaps, 362length, 92, 123letters[ ], 263levels, 262levene.test, 289lfactorial, 35lgamma, 56lillie.test, 337linear.hypothesis.lm, 357, 389list, 71lm.fit, 349lm.influence, 373lm.ridge, 359lm.wfit, 383lmwork, 372, 399lm, 346, 380log10, 43log1p, 44log2, 42logLik, 360, 391logb, 44logit, 174log, 43lower.tri, 112ls.diag, 368lsfit, 350, 384mad, 133mahalanobis, 172mantelhaen.test, 319margin.table, 324match, 76matrix, 88max, 124mcnemar.test, 317, 323mean.a, 128mean.default, 126mean.g, 128mean, 125median, 131min, 123model.matrix, 111moment, 191mood.test, 312ncol, 106nlevels, 262norm, 97

nrow, 105nsize, 195numeric, 84ordered, 263order, 51outer, 77outlier.test.lm, 377, 395pacf, 154pairwise.t.test, 276, 277partial.cor, 151pbeta, 183pbinom, 176pcauchy, 183pchisq, 179pexp, 180pf, 180pgamma, 181pgeom, 176phyper, 177pinvGauss, 184pi, 74plnorm, 182plogis, 183pmax, 65pmin, 65pnbinom, 177pnorm, 178polyroot, 67power.prop.test, 248ppoints, 171ppois, 177prcomp, 200, 202predict.lm, 356, 388predict, 354, 387prod, 25prop.table, 325prop.test, 245, 250, 252psigamma, 58psignrank, 184pt, 178, 179punif, 184pweibull, 182pwilcox, 185qbeta, 183qbinom, 176qcauchy, 183qchisq, 179qexp, 180qf, 180qgamma, 181

–409–

qgeom, 176qhyper, 177qinvGauss, 184qlnorm, 182qlogis, 183qnbinom, 177qnorm, 178qpois, 177qqnorm, 170qr.Q, 116qr.R, 117qsignrank, 184qt, 178quantile, 130qunif, 184qweibull, 182qwilcox, 185range, 129rank, 188rational, 55rbeta, 183rbind, 94rbinom, 176rcauchy, 183rchisq, 179relevel, 259rep.int, 46replace, 79rep, 45residuals.default, 374, 394residuals, 374, 394resid, 374, 395rev, 51rexp, 180rf, 180rgamma, 181rgeom, 176rhyper, 177rinvGauss, 184rinvgamma, 181, 182rlnorm, 182rlogis, 183rnbinom, 177rnorm, 178round, 54rowMeans, 108rowSums, 107rowsum, 109rpois, 177rsignrank, 184

rstandard, 370, 397rstudent, 371, 398rt, 178runif, 184runs.test, 310rweibull, 182rwilcox, 185sample, 187scale, 190scan, 82sd, 137sequence, 48seq, 48setdiff, 28setequal, 30sf.test, 335sigma2, 134signif, 54sign, 26sinh, 38sin, 35skewness, 144skew, 143solveCrossprod, 110solve, 98sort, 49sqrt, 26stdres, 371, 398studres, 371, 398summary.lm, 347, 381summary, 159, 200, 202, 326sum, 24svd, 115sweep, 194t.test, 210, 216, 219, 223table, 167tabulate, 166tail, 86, 92tanh, 39tan, 36tapply, 261test.var, 240toeplitz, 94trigamma, 57trunc, 52tsum.test, 228, 234, 237t, 103union, 27unique, 168uniroot, 66

–410–

INDICE ANALITICO

upper.tri, 112var.test, 242var, 135vcov, 349, 383vector, 84vif.lm, 376weighted.mean, 127weighted.residuals, 393weights, 393which.max, 32which.min, 32which, 31wilcox.test, 291, 293, 295, 298, 300,

303xtabs, 326z.test, 207, 213zsum.test, 226, 231

–411–

–412–

BIBLIOGRAFIA

[1] P. Dalgaard, Introductory Statistics with R, Springer-Verlag, New York,2002.

[2] J. Fox, An R and S-Plus Companion to Applied Regression, AGEPubblications, Thousand Oaks, California, 2002.

[3] W. N. Venables and B. D. Ripley, Modern Applied Statistics with S,Springer-Verlag, New York, 2002.

[4] W. N. Venables, D. M. Smith and the R Devenlopment Core Team, Anintroduction to R, http://CRAN.R-project.org/manuals.html, 2003.

[5] C. Agostinelli, Introduzione ad R, versione 0.3, ottobre 2000 (in formatoPDF), http://www.dst.unive.it/claudio/R/index.html#manuale.

[6] S. Iacus e G. Masarotto, Laboratorio di statistica con R, McGraw-Hill,Milano, 2003.

[7] R Development Core Team, An Introduction to R, versione 2.0.1 del15/11/04, http://cran.r-project.org/doc/manuals/R-intro.pdf.

[8] R. Boggiani, Introduzione ad R, versione 6.0, 24 ottobre 2004, (in formatoPDF), http://digilander.libero.it/robicox/manuali/pdf/mainr.pdf.

[9] A. Brazzale, M. Chiogna, C. Gaetan e N. Sartori: Laboratorio diR, Materiale didattico per i laboratori del corso di Modelli Statisti-ci I, A.A. 2001/2002, ISIB-CNR, Padova (in formato PDF e PS),http://www.isib.cnr.it/ brazzale/ModStatI/.

[10] S. Iacus, Corso introduttivo all’uso dell’ambiente statistico R, Dipartimen-to di Economia Politica, Universita di Milano, marzo 2003 (in formatoHTML), http://www.economia.unimi.it/iacus/corsoR/.

[11] Angelo M. Mineo, Una guida all’utilizzo dell’ambiente statistico R,2003 (in formato PDF), http://cran.r-project.org/doc/contrib/Mineo-dispensaR.pdf.

–413–

[12] Vito M. R. Muggeo, Il linguaggio R: concetti introduttivi ed esempi,versione 1.0, giugno 2002 (in formato PDF e PostScript), http://cran.r-project.org/doc/contrib/nozioniR.pdf.

[13] F. Parpinel, La statistica applicata attraverso l’uso del pro-gramma R, febbraio 2000 (in formato PDF e PostScript),http://venus.unive.it/statcomp/r/man Parpinel.pdf.

[14] L. Soliani, Manuale di Statistica per la Ricerca e la Professione, aprile 2005(in formato PDF), http://www.dsa.unipr.it/soliani/soliani.html.

[15] L. Petrella e S. Polettini, Laboratorio di Statistica I, Dipartimento diMatematica, Universita Roma 3, 2002 (in formato PDF e PostScript),http://www.mat.uniroma3.it/didatticacds/corsi/didattica interattiva/aa 01 02/st1/st1.

[16] A. Pollice, Esercitazioni con R, Dipartimento di Scienze Sta-tistiche, Universita di Bari (in formato PDF), http://www.dip-statistica.uniba.it/html/docenti/pollice/materiale.htm.

[17] V. Ricci, Analisi delle serie storiche con R, novembre 2004 (in formatoPDF), http://cran.r-project.org/doc/contrib/Ricci-ts-italian.pdf.

[18] L. Scrucca, Note sul linguaggio e ambiente statistico R, Dipartimento diScienze Statistiche, Universita degli Studi di Perugia, 18 ottobre 2004 (informato PDF), http://www.stat.unipg.it/ luca/R-note.pdf.

[19] Julian Faraway, Practical Regression and Anova using R, luglio 2002,http://www.stat.lsa.umich.edu/faraway/book.

[20] J. H Maindonald, Using R for Data Analysis and Graphics, 2004 (informato PDF), http://cran.r-project.org/doc/contrib/usingR.pdf.

[21] Emmanuel Paradis, R for beginners, agosto 2002 (in formato PDF),http://cran.r-project.org/doc/contrib/rdebuts en.pdf.

[22] John Verzani, Using R for Introductory Statistics, agosto 2002 (in formatoPDF), http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf.

–414–

Formulario di Statistica con R -...

Documents

Transcript of Formulario di Statistica con R -...

Formulario di Elettronica - thegiorgio.it · Indice Revisione: 28/05/2011 Formulario di ELETTRONICA ITI Elettronica - Classe QUINTA Indice.1 FORMULARIO DI ELETTRONICA •

formulario vigili

Formulario Random

Formulario di Meccanica Statistica - Guido Cioni · nello spazio delle fasi . ... L’evoluzione temporale di uno stato del sistema è detta orbita associata. Teorema di Liouville

Formulario di Statistica con R - cran.uni-muenster.decran.uni-muenster.de/doc/contrib/Frascati-FormularioStatisticaR.pdf · 1Fabio Frascati, Laurea in Statistica e Scienze Economiche

Formulario Basico Matematicas

MOV - Matematica On Video - Formazione scolastica ...€¦ · Relazioni statistiche Formulario . Formula o risultato Descrizione ed ipotesi sottostanti Indipendenza statistica a)

Formulario + Tavole.pdf

FORMULARIO - Delibere

FORMulario UNIco 1010

Cinematica fisica formulario

Formulario Analisi I

Formulario di Matematica

Formulario di Statistica con - uni-bayreuth.deftp.uni-bayreuth.de/math/.../Frascati-FormularioR.pdf · Formulario di Statistica con - uni-bayreuth.de ... a 1

Formulario CM 12

DETERMINAZIONE DIRIGENZIALE · M o n ou so - P lacch e e v iti p er fissagg io teca cran ica in p ro ced u re d i cran io to m ie,occco rren ti U .O .C . d i N eu ro ch iru rg ia

Formulario di Geometria

Formulario Fisica2 (elettromagnetismo)

Formulario Idraulica

formulario de aritmetica