Statistic Am Ate Ma Tic A

download Statistic Am Ate Ma Tic A

of 185

Transcript of Statistic Am Ate Ma Tic A

Universit` adegliStudidiBariFacolt` adiScienzeMatematiche,FisicheeNaturaliNicolaCufaroPetroniStatisticaconElementi di Probabilit`aanno accademico 2004/05Iltestodiquestelezioni `eliberamentedisponibileallindirizzohttp://www.ba.infn.it/~cufaro/didactic/StatisticaMatematica.pdfepu`[email protected] c _2004NicolaCufaroPetroniUniversit` adegliStudidiBariFacolt` adiScienzeMatematiche,FisicheeNaturaliviaE.Orabona4,70125BariPrefazioneLastrutturadi questelezioni rietteunaduplicit` adi signicatodellaparolaSta-tistica. Per esserepi` uchiari cominceremoconunesempio: supponiamodi volerconoscerelorientamentopoliticogeneraledeicittadinidiundeterminatopaese.`Ebennotocheinquestocasosi organizzanodelleelezioni checonsistononel racco-gliereilvotoditutti glielettori. Unavoltaesauriteleoperazionidivotosipasser` aallo spoglio delle schede e alla registrazione dei risultati. Tali risultati si presentanoingeneralecomeunagrandequantit` adidatinumericichepossonoessereesamina-ti,combinatierappresentatiindiversemaniereinmododaestrarrelinformazionerilevanteai ni elettorali. Leelezioni generali sonoper` otipicamentedelleopera-zioni complesseecostose, eper questomotivospessosi preferisceadarsi adeisondaggi per averedelleinformazioni, almenoapprossimativeeprovvisorie, sullavolont` adei cittadini. Questi sondaggi consistononellaregistrazionedelleopinionidi unpiccolonumerodi soggetti, apartiredal qualesi ricavanodelleindicazionisulla volont` a generale della popolazione intera. Ovviamente i sondaggi non possonoesseresostitutividelleelezioni,enonsoloperch`ebisognadareatuttiicittadinilapossibilit`adi esprimerelapropriaopinione, maancheperunaprofondadierenzafrai dati delledueoperazioni. Il risultatodel sondaggio, infatti, `ealeatorio: sic-comeilcampionedicittadiniintervistato`esceltocasualmente, unaripetizionedelsondaggio per quanto eseguita con i medesimi criteri porterebbe inevitabilmenteadei risultati numerici diversi, anchesedi poco. Viceversanel casodelleelezionilindagineesauriscelinterapopolazionedeglielettori: unaeventualeripetizionedelvotosupponendopersemplicit` achenonvisianoripensamentioerrorinonmo-dicherebbeil risultato. Noi diremochelesamedei risultati elettorali complessivi`ecompitodellaStatisticadescrittiva, mentreletecnicheperricavareinformazionisututtalapopolazioneapartiredai risultati relativi aunpiccolocampionesonopartedellaStatisticainferenziale. Naturalmente, come`enoto, lusodei sondaggicomportadei rischi dovuti allaaleatoriet` adei loroesiti, percui diventaessenzialeperlaStatisticainferenzialeessereingradodi misurareladabilit` adei risultati:inquestogiocherannounruoloessenzialei concetti eletecnichedel Calcolodelleprobabilit` a.Si noti che nel caso dellesempio elettorale citato la possibilit` a di registrare il voto dituttiicittadiniesistecomunque: pertanto,inlineadiprincipio,`esemprepossibileconfrontare i risultati dei sondaggi conquelli delle elezioni generali e vericarneIN.CufaroPetroni: Statisticaquindi lattendibilit` a. Questapossibilit` a, per` o, nonsussistesempre: inmolti casiinfatti unindagine che esaurisca lintera popolazione semplicemente non `e possibile,eci si deveaccontentateinvecedi esaminarelemisureeseguitesuuncampionetentandodidedurnelecaratteristichegeneralidelfenomenostudiato. Adesempioinlineadi principiolamisuradellamassadi unaparticellaelementarepu` oessereeseguitainnitevolte, edataladelicatezzadellamisurai risultati varianosempreinmanieraaleatoria. Inpraticail numerodellenostremisuresar` asemprenito,e daltraparte, per quantogrande siaquestonumero, nonpotremomai dire diaver esauritolinterapopolazione teoricamente disponibile. Allostessomodoladeterminazionedellalunghezzamediadegli insetti di unadeterminataspecienonpotr` a che essere eettuata su un campione casuale, visto che lintera popolazione diinsettirestacomunquepraticamenteinaccessibile. Inquesteoccasioni,ovviamente,ilranamentodelletecnicheprobabilistichediventaessenziale.Nascedaquesteosservazionilastrutturaormaiclassicadiquestelezionidiviseintreparti. Laprimaesaminagli strumenti principali dellaStatisticadescrittiva:tabelle, graci, indici di centralit` aedispersione, correlazioni. Lasecondaintro-ducei concetti pi` urilevanti del Calcolodelleprobabilit` a, efungedaintroduzioneallaterzacheinnestudialetecnichepi` unotedellaStatisticainferenziale: stime,intervalli di ducia, testdi ipotesi. Perovvieragioni di spazioetempogli argo-mentinonsarannotrattatiinmanieraesaustiva. InparticolarelapartediCalcolodelleprobabilit` a`eridottaaquanto`estrettamentenecessarioperlacomprensionedellapartedi Statisticainferenziale. Loscopodel corsorimanequellodi metteregli studenti ingradodi usaregli strumenti pi` usemplici epi` unoti dellastatistica,maanchedi stabilirealcuni pilastri concettuali checonsentanoloro, qualorasenepresentasseloccasione, diestenderelelorocapacit` ainmanieraautonoma. Alcunicompletamentisonocomunquegi` aprevistiperleprossimeedizionidiquestotesto.Devo inne ringraziare il collega Paolo Baldi dellUniversit` a di Roma Tor Vergataper aver messo gentilmente a mia disposizione il testo non pubblicato di un suo corsodiStatisticadalqualeholiberamenteattintoidee,osservazioniedesempi.Bari,Novembre2004NicolaCufaroPetroniIIIndicePrefazione II Statisticadescrittiva 11 Statisticaunivariata 31.1 Datiefrequenze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Tabelleegraci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Moda,mediaevarianza . . . . . . . . . . . . . . . . . . . . . . . . . 91.4 Medianaequantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.5 Momenti,asimmetriaecurtosi . . . . . . . . . . . . . . . . . . . . . . 181.6 Mediegeneralizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Statisticamultivariata 232.1 Datimultidimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2 Covarianza,correlazioneeregressione . . . . . . . . . . . . . . . . . . 252.3 Componentiprincipali . . . . . . . . . . . . . . . . . . . . . . . . . . 28II Probabilit`a 373 Spazidiprobabilit`a 393.1 Spaziodeicampioni. . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.3 Probabilit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434 Condizionamentoeindipendenza 454.1 Probabilit` acondizionata . . . . . . . . . . . . . . . . . . . . . . . . . 454.2 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 Variabilialeatorie 515.1 Variabilialeatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.2 Variabilialeatoriediscrete . . . . . . . . . . . . . . . . . . . . . . . . 545.3 Variabilialeatoriecontinue. . . . . . . . . . . . . . . . . . . . . . . . 59IIIN.CufaroPetroni: Statistica INDICE5.4 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.5 Vettorialeatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686 Attesaevarianza 716.1 Attesaevarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.2 Esempidiatteseevarianze . . . . . . . . . . . . . . . . . . . . . . . . 757 Teoremilimite 797.1 LeggedeiGrandiNumeri. . . . . . . . . . . . . . . . . . . . . . . . . 797.2 TeoremaLimiteCentrale . . . . . . . . . . . . . . . . . . . . . . . . . 82III Statisticainferenziale 878 Stimadiparametri 898.1 Stimapuntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 898.2 Stimaperintervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 988.2.1 Intervallodiduciaperlattesa . . . . . . . . . . . . . . . . 998.2.2 Intervallodiduciaperlavarianza2. . . . . . . . . . . . . 1018.3 StimadiMassimaVerosimiglianza. . . . . . . . . . . . . . . . . . . . 1039 TestdiIpotesi 1099.1 Ipotesiederrori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1099.2 Testsullamedia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1169.2.1 TestdiGauss . . . . . . . . . . . . . . . . . . . . . . . . . . . 1179.2.2 TestdiStudent . . . . . . . . . . . . . . . . . . . . . . . . . . 1209.3 Testperilconfrontodellemedie. . . . . . . . . . . . . . . . . . . . . 1219.3.1 Campioniaccoppiati . . . . . . . . . . . . . . . . . . . . . . . 1229.3.2 Campioniindipendenti . . . . . . . . . . . . . . . . . . . . . . 1269.4 TestdiFishersullavarianza . . . . . . . . . . . . . . . . . . . . . . . 1289.5 Testdel2diadattamento. . . . . . . . . . . . . . . . . . . . . . . . 1299.6 Testdel2diindipendenza . . . . . . . . . . . . . . . . . . . . . . . 133IV Appendici 137AEsercizi 139A.1 EsercizidiStatisticaDescrittiva . . . . . . . . . . . . . . . . . . . . . 141A.2 EsercizidiProbabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . 145A.3 EsercizidiStatisticaInferenziale . . . . . . . . . . . . . . . . . . . . . 148BSchemi 157B.1 FormulariodiStatisticaInferenziale. . . . . . . . . . . . . . . . . . . 159IVINDICE INDICECNotazioni 163C.1 Notazionivettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165DTavoleNumeriche 167D.1 LeggeNormalestandard ^(0, 1). . . . . . . . . . . . . . . . . . . . . 169D.2 LeggediStudentt(n). . . . . . . . . . . . . . . . . . . . . . . . . . . 170D.3 LeggedelChiQuadro2(n) . . . . . . . . . . . . . . . . . . . . . . . 171D.4 LeggediFisherF(n, m) . . . . . . . . . . . . . . . . . . . . . . . . . 172D.5 Valoridie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174Indiceanalitico 175VParteIStatisticadescrittiva1Capitolo1Statisticaunivariata1.1 DatiefrequenzeDistingueremoinnanzituttoi dati indue categorie: quantitativi e qualitativi. Idatiquantitativi sonorisultatidimisurechefornisconovalorinumerici: adesempioposizioni, velocit` a, massediparticelle; peso, altezza, et` adiindividuidiunaspeciedianimali;redditodeicittadinidiunpaese. I datiqualitativi viceversanonsonoingenere rappresentati da numeri: ad esempio i colori delle palline estratte da unurna;il gruppo sanguigno A, B, ABe 0 di un insieme di persone; il partito politico votatodagli elettori di unpaese. Si noti per` ocheladierenzaprincipalefrai duetipi didati nonconsistenel fattoformaledi essererappresentati omenodanumeri: infondopotremmoconvenzionalmenterappresentarei colori, i gruppi sanguigni eipartiti degli esempi precedenti condei numeri. Quel che`eprofondamentediverso`eil signicatodi questi numeri: adesempioil colorerossodellepallinedellurnapu` o essere rappresentato indierentemente con 1, o 2 o qualsiasi altro numero senzache nulla cambi nella discussione del problema. Invece i numeri che rappresentano iredditideicittadinidiunpaesenonpossonoessereassegnatiarbitrariamentesenzaperderetuttalinformazioneutile. Questadierenza `eancheallabasedelfattochetaluni indicatori statistici hannounsensosolonel casodi dati quantitativi enoninquelli di dati qualitativi. Adesempio`eperfettamentesensatochiedersi quale`eil redditomediodei cittadini di unpaese, mentrenonavrebbealcunsignicatoilconcettodi coloremedio, odi partitomedio: equestoanchesei dati qualitativifosserorappresentatidanumeri.Nel linguaggiodellaStatisticalinsiemedei soggetti presi inconsiderazionenelladiscussionediundeterminatoproblema(animalidiunaspecie,pallineinunurna,cittadini di un paese) costituisce una popolazione, mentre le caratteristiche X, Y, . . .chesiosservano(colore,grupposanguigno,reddito,peso. . . ) prendonoilnomedicaratteri . Icaratteri numerici quelli chefornisconodati quantitativi sonopoidistinti in due categorie secondo che assumano valori discreti (ad esempio il numerodiglidellefamigliediundatopaese)ocontinui(ilpesoolaltezzadegliindividui3N.CufaroPetroni: Statisticadi una popolazione). I possibili valori assunti dai caratteri numerici discreti (numerodeiglidiunafamiglia),odaicaratteriqualitativi(coloridellepallineinunurna)sichiamanoanchemodalit` a. Cos`adesempio: ilpesodeicittadinidiunpaese `euncaratterenumericocontinuo;ilgrupposanguignodegliindividuidiungruppo `euncarattere qualitativo con 4 modalit` a (A, B, ABe 0). Come vedremo nel Capitolo 2,inne,potremoavereanchedatimultidimensionali ,nelsensochesuogniindividuosipossonomisuraredueopi` ucaratteri. Adesempiosesimisuranolet` ae, ilpesopeilredditordeicittadinidiundatopaese,adogniindividuosar` aassociataunaternadinumeri(e, p, r).NellambitodellaStatisticadescrittivasupporremosemprediavereadisposizioneidatirelativiatuttalapopolazionedinostrointeresseche,quindi,dovr` acontenereun numero nito n di individui. I nostri insiemi di dati, chiamati campioni , sarannopertanto del tipo x1, . . . , xn, ed esauriranno tutta la popolazione considerata. Si no-ti,per` o,aquestopropositocheingenereilprocedimentoavvieneinsensoinverso:si partedai dati epoi si stabiliscequale`elapopolazionedi riferimento. Tipica-mente nella realt` a il punto di partenza `e il campione x1, . . . , xnil cui signicato pu` ocambiare secondo il punto di vista adottato. In un certo senso `e lo statistico che, inbase alle proprie necessit` a, stabilisce quale `e la popolazione di riferimento: se decidechelapopolazionediinteresse `erappresentatasolodaglindatiasuadisposizione,alloraegli si collocanellambitodellaStatisticadescrittiva; seinvececonsideraglindati comeuncampioneestrattodaunapopolazionepi` uvastasullaqualevuolericavaredelleinformazioni,allorasicollocanellambitodellaStatisticainferenzialeche studieremo nella Parte III. Supponiamo ad esempio di avere i risultati x1, . . . , xndel test dingresso di n studenti ad un corso di laurea universitario. Se il nostro sco-po`esoloquellodi esaminareil livellodi preparazionedegli studenti cheaccedonoal corsodi laureainquellannoaccademico, `eevidentechelanostrapopolazionesar` aristrettaaglinindividuichehannosostenutoiltest. Seinvecedairisultatideltestvolessimodedurredelleconclusioni,adesempio,sullatuttalapopolazionestu-dentesca che accede alluniversit`a in un determinato anno accademico, `e altrettantoevidentechex1, . . . , xndovr` aoraessereconsideratocomeuncampioneestrattodauna popolazione pi` u vasta. Il medesimo insieme di dati, cio`e, pu`o essere consideratodaduepuntidivistadiversi: nelprimocasositrattadiunproblemadiStatisticadescrittiva,nelsecondodiunproblemadiStatisticainferenziale.Supponiamo alloradi osservareuncarattere (numerico o qualitativo) Xconunnu-meronitoMdi modalit` asuunapopolazionedi nindividui: convenzionalmenteindicheremoleMpossibili modalit` aconi numeri interi k=1, . . . , M. Idati sa-rannoallorauncampionex1, . . . , xndi nnumeri interi convalori k=1, . . . , M.Chiameremofrequenzaassolutadellakmamodalit` ail numeroNkdellexjugualiak. Intermini formali, detto j : xj=klinsiemedegli individui dellanostrapopolazionecheassumonoilvalorek, Nk`eilnumerodielementidi j : xj=k,ovveroindicandocon#lacardinalit` adiundatoinsieme,Nk= #j : xj= k , k = 1, . . . , M . (1.1)41.1DatiefrequenzeChiameremoinvecefrequenzarelativadellakmamodalit` ailnumeropk=Nkn, k = 1, . . . , M (1.2)che rappresentalafrazione delle xjche assume il valore k. Naturalmente sonovericateleduerelazionidinormalizzazioneN1 + . . . + NM= n, p1 + . . . + pM= 1 . (1.3)Sia nel caso di frequenze assolute che in quello di frequenze relative si introduce poiilconcettodifrequenzecumulate:Fk=k

i=1Ni, fk=k

i=1pi, k = 1, . . . , M (1.4)Come `eevidentelafrequenzaassoluta(rispettivamente: relativa)cumulataFk(fk)rappresentailnumero(lafrazione)dellexjconvaloreminoreougualeak. Perlefrequenzecumulatelerelazioni(1.3)divengonoFM= n, fM= 1 .Se invece il carattere X`e numerico e continuo le sue modalit` a sono innite e non nu-merabili per cui bisogner` a procedere in modo diverso. Siccome anche in questo casoivaloriosservatix1, . . . , xnchecostituisconolanostrapopolazionesonoinnumeronnito, essi cadrannoinqualcheintervallonitodel tipo[a, b] enoi li ripartire-moinopportuneclassi nelmodoseguente: suddividiamo[a, b]inMsottointervalli(nonnecessariamentetuttidellastessaampiezza)Jkconk=1, . . . , Meponiamo,analogamentealcasodiscreto,Nk= #j : xj Jk , pk=Nkn, k = 1, . . . , M .Ancheoraquindi potremoparlaredi frequenzeassoluteerelativedei ritrovamentideinostridatinegliintervalliJk. Ovviamentelerelazioni(1.3)continuerannoava-lere anche in questo caso. Si noti per` o che adesso i valori delle frequenze dipendonodallampiezza [Jk[delleclassiche`esceltaarbitrariamente. Comevedremoinalcu-ni esempi successivi ladeterminazionedelleampiezze [Jk[ delleclassi pu`orivelarsicrucialepermettereinevidenzaalcunecaratteristichedei dati. Unacertaimpor-tanzarivesteancheilconcettodivalorecentralediunaclasse: essocoincideconlasemisommadegli estremi dellintervalloJk. Perscopi di ulterioreanalisi statisticaingeneraletutti i valori di unadataclassevengonoidenticati proprioconil suovalorecentrale. Inneanchenelcasodicarattericontinui `epossibileparlaredifre-quenze cumulate adottando le denizioni (1.4) per le frequenze di ritrovamenti nelleclassi. OvviamenteinquestocasoFk(fk)indicail numero(lafrazione)di dati xjche cadono allinterno dellunione dei primi ksottointervalli, ovvero che sono minoriougualidellestremodestrodiJk.5N.CufaroPetroni: Statistica3 0 3 1 1 1 2 4 1 3 2 1 0 2 1 3 3 0 2 13 4 3 1 3 4 1 5 0 2 0 4 1 4 2 2 2 1 2 32 3 2 2 3 3 2 1 2 1Tabella1.1: Campionedi n=50misuredi uncarattereconle6modalit` ak=0, 1, 2, 3, 4, 5.k 0 1 2 3 4 5Nk5 13 14 12 5 1Fk5 18 32 44 49 50pk0.10 0.26 0.28 0.24 0.10 0.02fk0.10 0.36 0.64 0.88 0.98 1.00Tabella 1.2: Frequenze e frequenze cumulate, assolute e relative, per i dati riportatiinTabella1.1.1.2 TabelleegraciLinformazione contenuta nelle frequenze assolute e relative pu` o essere messa meglioinevidenzaorganizzandoi dati intabelleoancherappresentandoli ingraci. Letecnichedi organizzazioneevisualizzazionedei dati sononumerose, elasceltadiquelle pi` u opportune dipende dal particolare problema studiato. Noi qui ne daremosoloqualcheesempiosenzanessunapretesadicompletezza.Le tabelle di frequenzanon sono altro che opportune tabelle nelle quali sono riportatiinmanieraorganizzatai valori numerici dellevariefrequenze. Perlarappresenta-zione graca dei caratteri discreti lo strumento pi` u usato `e il diagramma a barrecheconsiste semplicemente nel riportare in corrispondenza di ogni singola modalit` a dellebarre di altezza uguale ai valori delle frequenze. Su questi diagrammi possono essererappresentatesialefrequenzeassolutechequellerelative: siccomeacausadi(1.2)Nkepksonotutti numeri proporzionali fraloro, i diagrammi abarredei duecasisonoidentici,lunicadierenzaessendolascaladeivaloridellasseverticale. Perlefrequenzedeicarattericontinuiinvecesicostruisconodegliistogrammi . Ilprincipio`esimileaquellodeidiagrammiabarreconunaimportantedierenza: sullaclassekma(sottointervalloJkdellintervallo[a, b] checontienetutti i dati)si costruisceunrettangololacui area`eugualeal valoredellafrequenzakma. Siccomeleam-piezze [Jk[ delle varie classi (basi dei rettangoli) possono essere diverse, in generale lealtezzedeirettangolinonsarannopi` uproporzionaliallefrequenze: aparit` adidaticontenuti,classimoltoampietenderannoadavererettangolipi` ubassi,eviceversa.Solonel casoincui leampiezze [Jk[ fosserosceltetutteuguali lealtezzedei ret-tangoli sarebbero nuovamente proporzionali alle frequenze (assolute o relative) delleclassi. Noteremo inne che anche le frequenze cumulate sono ovviamente suscettibilidi rappresentazioni grachecheper` onoi, perbrevit` a, trascureremolimitandoci ariportareilorovalorinelletabelledifrequenza.61.2Tabelleegraci0 1 2 3 4 5k0.10.2pkFigura 1.1: Diagramma a barre delle frequenze relative pkdei dati della Tabella 1.1.0.30 1.03 1.08 1.22 1.46 1.62 2.01 2.17 2.27 2.312.33 2.41 2.49 2.49 2.57 2.58 2.59 2.63 2.75 2.752.84 2.93 2.95 3.08 3.09 3.23 3.27 3.27 3.28 3.373.39 3.42 3.47 3.49 3.56 3.60 3.78 3.78 3.79 3.873.91 3.91 3.95 3.95 3.96 4.02 4.11 4.12 4.12 4.224.31 4.35 4.58 4.69 4.76 4.89 5.12 5.18 5.20 5.345.34 5.37 5.40 5.46 5.54 5.62 5.64 5.64 5.68 5.715.73 5.94 6.10 6.19 6.24 6.28 6.31 6.33 6.35 6.406.44 6.44 6.55 6.56 6.63 6.68 6.73 6.75 6.89 6.997.01 7.08 7.11 7.15 7.26 7.44 7.47 7.93 8.21 8.44Tabella1.3: Campionedi n=100misuredi uncaratterecontinuoX. Per co-modit` ai dati sonostati riportati inordinecrescente. Lacoincidenzadi alcuni deivalori particolarmenteimprobabilenel casodi caratteri continui `edovutaagliarrotondamentieettuati.Esempio1.1. Supponiamodiaverraccolton=50misurediuncarattereconM=6modalit` a che qui per comodit` a rappresenteremo senzaltro con i numerik = 0, 1, 2, 3, 4, 5.Comeesempioconcretopossiamopensaredi averesaminato50famigliecon5gli ediaver registrato per ciascuna di esse il numero dei gli maschi che ovviamente `e un numerointero da 0 a 5; alternativamente potremmo pensare di aver lanciato 50 volte 5 monete edi aver registrato in ogni lancio il numero delle teste. I dati di partenza del nostro esempiosono mostrati nella Tabella 1.1.`E facile a questo punto calcolare le frequenze assolute erelative da (1.1) e (1.2): i risultati sono riportati nella Tabella 1.2. Le frequenze possonopoi essere rappresentate in un diagramma a barre come quello di Figura 1.1. Per evitareripetizioni abbiamo scelto di riportare solo il diagramma a barre delle frequenze relative:quello delle frequenze assolute sarebbe identico, tranne che per la scala dei valori dellasseverticale.Esempio1.2. Supponiamo di avere len = 100 misure di un carattere continuoXripor-tate nella Tabella 1.3. Ad esempio potrebbero essere in una opportuna unit` a di misura le misure di una dimensione sica di un gruppo di insetti;ovvero le misure della mas-7N.CufaroPetroni: StatisticaJkNkFkpkfk[0.0, 2.0] 6 6 0.06 0.06[2.0, 4.0] 39 45 0.39 0.45[4.0, 6.0] 27 72 0.27 0.72[6.0, 8.0] 26 98 0.26 0.98[8.0, 10.0] 2 100 0.02 1.00Tabella 1.4: Frequenze dei dati di Tabella 1.3 per 5 classi di ampiezza 2.0sullintervallo[0, 10].sadelleparticelleelementaripresentiinundeterminatoesperimento. Ovviamentenellarealt` ai valori nonsi ottengononellordinecrescentenel qualeli abbiamoriportati; noiper` o abbiamo riordinato il campione perche questo facilita il calcolo delle frequenze senzamodicarneilvalore. Latabelladellefrequenzedipendeoradalleclassiscelte. Sivedesubitochei dati cadonotutti fra0.30e8.44, maperrenderepi` usimmetricheleclassipossiamo, adesempio, considerareunintervallounpo pi` uampiodel tipo[0, 10]. Persemplicit`asceglieremoperoraclassi tuttedellastessaampiezza, ecominceremoconildividere [0, 10] in sottointervalli di ampiezza 2.0. In questo caso le frequenze sono quelledella Tabella 1.4. Se invece avessimo scelto come ampiezza delle classi 0.5 o 0.1 avremmoottenuto frequenze piuttosto diverse: per brevit` a non ne riportiamo le tabelle limitandocisolo alla loro successiva rappresentazione graca. Si pu` o passare a questo punto a costruiregli istogrammi corrispondenti a ciascuna scelta delle classi, ricordando che su ogni classedovr` aesseredisegnatounrettangolodi areaugualeallarispettivafrequenza. Gli isto-grammi ottenuti con le tre scelte delle classi (ampiezze rispettivamente 2.0, 0.5 e 0.1) sonoriportati nella Figura 1.2. Si noter` a che laspetto dei tre istogrammi `e piuttosto diverso:quello con le classi pi` u ampie (ampiezza 2.0, in alto a sinistra) fornisce una rappresenta-zione piuttosto grossolana, mentre quello con le classi meno ampie (ampiezza 0.1, in altoadestra)d` aunarappresentazionepiuttostoconfusa. Viceversalistogrammaconclassidi ampiezza0.5(inbassoasinistra)sembraavereunaspettopi` uequilibrato, emostraalcune caratteristiche dei dati che non appaiono negli altri due: in particolare esso indicachelefrequenzepresentanoduemassimirelativiincorrispondenzadelleclassi[3.0, 3.5],[3.5, 4.0] e [6.0, 6.5]. Questa struttura dellistogramma `e interessante da un punto di vistastatistico in quanto potrebbe indicare che la nostra popolazione `e in realt` a composta dellasovrapposizionediduepopolazioniconpropriet` adierenti: unaconvaloridelcarattereprevalentemente compresi fra 3 e 4, e laltra con valori del carattere prevalentemente vicinia 6. Inne sempre nella stessa Figura 1.2 `e riportato un istogramma dello stesso campionecostruito con classi di ampiezze diverse fra loro. Si vede quindi come la scelta delle classimodichi laspettodellistogramma, voltaavoltamettendoinevidenzaonascondendoalcunecaratteristichedeidati. Noncisonoper` odelleregoleperscegliereleclassinellamaniera migliore, e daltra parte non `e detto che quel che viene messo in evidenza da unparticolare istogramma sia poi in realt` a statisticamente signicativo. Il ricercatore avve-duto, guidato dalla sua esperienza, far` a diversi tentativi, e cercher` a successivamente delleconferme per le conclusioni suggerite dalle diverse rappresentazioni dei suoi dati.81.3Moda,mediaevarianza2 4 6 8 100.10.22 4 6 8 100.10.22 4 6 8 100.12 4 6 8 100.20.4Figura 1.2: Istogrammi dei dati riportati in Tabella 1.3. I due istogrammi in alto siriferisconoaclassi diampiezzerispettivamente2.0e0.1. Listogrammainbassoasinistra `e invece costruito con classi di ampiezza 0.5, mentre quello in basso a destra`ecostruitoconclassidiampiezzavariabile.1.3 Moda,mediaevarianzaLanalisi statisticanonsi esauriscenellarappresentazionedellefrequenzedei dati:un altro importante aspetto consiste nella ricerca di opportuni indici che permettanoconcentrareinpochinumerilecaratteristichepi` urilevantideidati. Sonodiparti-colareimportanzagliindicidicentralit` aequellididispersione. Iprimifornisconounidea dei valori attorno ai quali sono prevalentemente concentrati i dati; i secondimisurano la dispersione dei dati attorno ai valori centrali. In questa e nelle successi-vesezioniesamineremo,senzanessunapretesadicompletezza,alcunideiprincipaliindicistatistici. Cominceremoconalcuniindicidicentralit` aDenizione1.1. Dataladistribuzionedi frequenzedi uncaratterediscretochia-meremomodalamodalit` acorrispondenteallafrequenzapi` ugrande. Nel casodicaratteri continui lamoda`elaclasse(oil suovalorecentrale) corrispondentealrettangolopi` ualtodellistogramma.Adesempionel diagrammaabarredi Figura1.1lamoda`e2. Nel casodei datidellEsempio1.2,invece,lidenticazionedellamoda `eunpopi` udelicata. Intanto`echiarodagliistogrammidiFigura1.2chelamodadipendedallasceltadelleclas-9N.CufaroPetroni: Statisticasi. Insecondoluogoquesti graci mettonoinevidenzachepu` ocapitaredi avereistogrammi(oanchediagrammiabarre)conpi` udiunmassimolocale. Inrealt` ailconcettodimodacoincidepiuttostoconquellodimassimolocalecheconquellodimassimoassoluto. Pertantouninsiemedi dati pu` oavereanchepi` udi unamoda.TornandoallaFigura1.2vediamoalloracheperlistogrammainaltoasinistralamoda`elaclasse[2.0, 4.0] ovveroil suovalorecentrale3; peri dueistogrammi inbasso, invece, ci sonoduemode: laclasse(unionedi dueclassi)[3.0, 4.0] ovveroilsuovalorecentrale3.5,elaclasse[6.0, 6.5]ovvero6.25. Innelistogrammainaltoadestra`ecaratterizzatodauneccessivonumerodi massimi locali chelorendonoconfuso e poco adatto ad unanalisi statistica. Ancora una volta, come notato nellE-sempio 1.2, vediamo che classi eccessivamente larghe conducono ad unanalisi troppogrossolana che pu` o far perdere dellinformazione, mentre classi pi` u ristrette (ma noneccessivamente)possonomettereinevidenzaalcunecaratteristicheimportanti.Denizione 1.2. Si chiama mediadel campione x1, . . . , xndel carattere Xlaquantit`amX= x =x1 + . . . + xnn=1nn

j=1xjLamedia `elindicedicentralit` api` unotoeusatoancheperlesuepropriet` achenoiesamineremo brevemente nel seguito. Essa rappresenta in un certo senso il baricentrodel campione, se si immagina la densit` a dei dati come una specie di densit` a di massa.Teorema1.1. Sei dati x1, . . . , xnsonomisuredi uncaratterenumericodiscretoXconmodalit` aw1, . . . , wM,esepksonolefrequenzerelativeditalimodalit` a,sihamX= x =M

k=1pkwk .Dimostrazione: Baster`a osservare che per (1.2) npk= Nk`e il numero dei dati cheassumeilvalorewk,echequindix =1nn

j=1xj=np1w1 + . . . + npMwMn=M

k=1pkwkcomeaermatonelTeorema. Teorema1.2. Assegnato ilcampione x1, . . . , xn,duenumerireali aeb,ecostruitoil nuovocampioneyj= axj + b,sihay= ax + b .101.3Moda,mediaevarianzaDimostrazione: Sihainfattiy=1nn

j=1yj=1nn

j=1(axj + b) = a_1nn

j=1xj_+1nn

j=1b = ax + bchecompletaladimostrazione. Esempio 1.3. Supponiamo di sapere che un campione x1, . . . , xn di misure di temperaturain gradi Fahrenheit ha media x = 50F: come possiamo convertire questa misura in gradicentigradi?Teoricamente dovremmo convertire ogni misuraxjin gradi centigradi con lanota relazioneyj =100180 (xj 32) (1.5)epoi calcolarelamediay. Il calcolopotebbeesserelungo, edaltraparteil problemaci forniscesoloil valoredi x, enonquellodellesingolemisure. Possiamoper` ousareilTeorema1.2vistochelarelazione(1.5)`epropriodel tipoyj=axj + b. Unsemplicecalcolo conduce allora al valorey =100180 (x 32) =100180 (50 32) = 10C .Teorema1.3. Dati duecampioni x1, . . . , x

ey1, . . . , ymconmediexey, edettoz1, . . . , zn=x1, . . . , x

, y1, . . . , ymil campioneottenutounicandoi primi dueconn =+ m,sihaz= x + myn.Dimostrazione: Lamediazsiesprimefacilmentecomez=1nn

j=1zj=1n_

j=1xj +m

j=1yj_= x + mynche `eilrisultatorichiesto. Si osservi comeil risultatodel Teorema1.3possaessereriformulatodicendochelamediadi campioni combinati `elamediapesata dellemediedei duecampioniseparati: inquestocasoi pesi rispettivi sono/nem/n. Ingeneralesi parladimedia pesata quando i dati che si mediano non contano tutti allo stesso modo comenellaDenizione1.2nellaqualetutti i dati hannolostessopeso1/n. Unaltroesempiodimediapesata `eilrisultatodelTeorema1.1nelqualelesingolemodalit` awksonomediatepesandoleconlefrequenzerelativepk. Ipesi rappresentanounamisuradellimportanzarelativadeidatiallinternodiunamedia.Denizione1.3. Assegnatiinumerix1, . . . , xn,eipesiq1. . . , qntaliche0 qk 1 , k = 1, . . . , n e q1 + . . . + qn= 111N.CufaroPetroni: Statistica wk1 3 5 7 9pk0.06 0.39 0.27 0.26 0.02Tabella1.5: TabelladeidatiraggruppatidelcampioneriportatoinTabella1.3per5classidiampiezza2.0sullintervallo[0, 10].sichiamamediapesatail numeron

k=1qkxk .A volte, nel caso di caratteri numerici continui, non viene fornita lintera tabella deidati, macisilimitaafornirelatabelladellefrequenzeincertedeterminateclassi.In questo casi, in linea di principio, non si potrebbe calcolare la media del campione.C`e per`o modo di ottenere un valore approssimato identicando tutti i valori xjchecadononellaclassekmaconilvalorecentralediquellaclassechechiameremo wk.Potremoalloraeseguireunamediadei dati raggruppati cos` ottenuti pesandoogni wkconlafrequenzarelativapkdellaclassekma:x M

k=1pk wk . (1.6)Esempio1.4. NellEsempio 1.2 potrebbe essere nota solo la Tabella 1.4 (o una analogaconunaltrasceltadelleclassi), enonlinteraTabella1.3dei dati. UsandoalloralaTabella 1.5 dei dati raggruppati da (1.6) si ottiene la media 4.58. Daltra parte utilizzandoi dati originali della Tabella 1.3 e la Denizione 1.2 si ottiene il valore esatto 4.56. Come sipu` o vedere lapprossimazione `e piuttosto buona anche se le classi scelte sono molto ampie;`e intuitivo, comunque, che il valore approssimato `e tanto pi` u adabile quanto pi` u le classisono strette.Denizione 1.4.Chiameremo varianza di un campione x1, . . . , xn di Xcon mediaxlaquantit`as2X=1nn

j=1(xj x)2= (x x)2,escartoquadratico(odeviazionestandard)laradicequadratasXdellava-rianza. Innesichiamacoecientedi variazioneil rapportosX/[x[.Lequantit` aintrodottenellaprecedenteDenizionesonotuttemisuredelladisper-sione dei dati attorno al loro baricentro x. In particolare grandi valori della varianzas2Xindicano che ci sono delle xjanche molto lontane da x, mentre piccoli valori di s2Xindicanoche ilcampione `e piuttostoconcentrato attornoa x. Ilcasolimites2X= 0,poi,implicachetuttiivalorixjcoincidonoconx.121.3Moda,mediaevarianzaTeorema1.4. Sei dati x1, . . . , xnsonomisuredi uncaratterenumericodiscretoconmodalit` aw1, . . . , wM,esepksonolefrequenzerelativeditalimodalit` a,sihas2X=M

k=1pk(wk x)2.Dimostrazione: Ladimostrazione `eanalogaaquelladelTeorema1.1. Teorema1.5. Datouncampionex1, . . . , xnconmediax,sihas2X= x2x2=1nn

j=1x2j _1nn

j=1xj_2,dovex2indicalamediadeiquadratidelcampione,ex2ilquadratodellasuamedia.Dimostrazione: Infattisihas2X=1nn

j=1(xj x)2=1nn

j=1(x2j+ x22xjx)=1nn

j=1x2j+1nn

j=1x22x1nn

j=1xj=1nn

j=1x2j+ x22x2= x2x2chedimostrailTeorema. Il teorema precedente `e particolarmente usato per semplicare il calcolo della varian-za: unavoltacalcolatax,infatti, `eingenerepi` uconvenientecalcolarelamediadelcampionedeiquadratieusareilTeorema1.5,piuttostochecalcolaredirettamentelavarianzadalladenizione.Teorema1.6.Dato un campione x1, . . . , xndi Xcon media x e varianza s2X,e duenumeriaeb,denitoil nuovocampioneyj= axj + bdiY sihas2Y= a2s2X .Dimostrazione: InfattisihadalledenizioniedalTeorema1.2ches2Y=1nn

j=1(yj y)2=1nn

j=1(axj + b ax b)2=a2nn

j=1(xj x)2= a2s2X ,comevolevasidimostrare. 13N.CufaroPetroni: StatisticaDenizione1.5. Chiameremoerrorequadraticomedio(eqm)diuncampionex1, . . . , xnrispettoal numeroalaquantit` ac(a) =1nn

j=1(xj a)2= (x a)2.Teorema1.7. Lamediaxdi uncampionex1, . . . , xn`eil valoredi acherendeminimoleqm c(a)del campione.Dimostrazione: Per determinare il punto di minimo delleqm bisogna imporre chesiannulliladerivataprima c

(a),cio`ec

(a) = 2nn

j=1(xj a) = 2(x a) = 0 ,dacuisideduceimmediatamenteilrisultato. Denizione1.6. Diremochex1, . . . , xn`euncampionestandardizzatoquandomX= x = 0es2X= 1.Teorema1.8. Datoilcampionex1, . . . , xnconmediaxevarianzas2X,ilcampioneyj=xj xsX`estandardizzato.Dimostrazione: InfattidaiTeoremi1.2e1.6cona = 1/sXeb = x/sXsihay =xsXxsX= 0 ,s2Y=s2Xs2X= 1 ,ilcheprovalatesi. Va ricordato inne, nel caso di caratteri numerici continui, che anche per la varianzasipu`oeseguireuncalcoloapprossimatocondatiraggruppati inclassi. Datainfattilatabelladelle frequenze relative pkincerte determinate classi si identicanoivalori xjchecadononellaclassekmaconil valorecentraledi quellaclasse wk.Potremo allora calcolare prima di tutto unapprossimazione della media con (1.6), epoiunapprossimazionedellavarianzadeidatiraggruppati:s2X M

k=1pk w2k _M

k=1pk wk_2.141.4MedianaequantiliEsempio1.5. Riprendiamoi dati dellEsempio1.2riportati inTabella1.3peri qualiabbiamo gi` a calcolato la media (che vale 4.56) nellEsempio 1.4, e calcoliamone la varianza.Unapplicazione diretta della Denizione 1.4 ai dati della Tabella 1.3 fornisce un valore di3.40, ma il calcolo `e abbastanza laborioso. Pu` o essere conveniente allora calcolare la mediadei quadrati dei dati (che `e 24.22) e usare poi il Teorema 1.5 per ottenere pi` u rapidamentelo stesso valore: 24.22 4.562= 3.40. Usando invece i dati raggruppati di Tabella 1.5 icalcoli sono molto pi` u veloci, ma approssimati. Ricordando dallEsempio 1.4 che la mediaapprossimata vale 4.58, e calcolando la media approssimata dei quadrati 24.68, si ottieneper la varianza con dati raggruppati: 24.68 4.582= 3.70.1.4 MedianaequantiliAbbiamo gi` a osservato che `e talora utile riordinare un campione x1, . . . , xnin ordinecrescente: perdistinguerei duetipi di campioni indicheremoi campioni ordinaticonlanotazionex[1 ], . . . , x[n]inmodotalechedaorainpoix[1 ] x[2] . . . x[n].Denizione1.7. Chiameremoquantile di ordine (00, ecos` via. Lastessaosservazionesi applicher` aal casodellev.a. continuenellasuccessivaSezione5.3.Esempio5.4. (Leggedi Bernoulli)Si dicecheunav.a. X`edistribuitasecondolalegge di Bernoulli (o che `e una v.a. di Bernoulli) quando essa assume i seguenti valoriX =_1 con probabilit` ap,0 con probabilit` a 1 p.con 0 p 1. In altri termini si hap0 = PX = 0 = 1 p , p1 = PX = 1 = p . (5.6)`E evidente che ogni indicatoreIAdi un eventoA con P(A) =p `e una v.a. di Bernoulli.InfattiPIA = 0 = P(A) = 1 p , PIA = 1 = P(A) = p .Nella Figura 5.2 `e mostrato prima di tutto il graco della FD di una legge di Bernoulli:esso presenta due discontinuit` a in 0 e 1; inoltre le altezze dei due salti coincidono proprioconleprobabilit` a1 pepcheXprendarispettivamentei valori 0e1. SemprenellaFigura 5.2 sono rappresentati con un graco a barre i valori delle probabilit` a p e 1 p cheXprenda rispettivamente i valori 1 e 0.55N.CufaroPetroni: Statistica-1 1 2x1-pFX10 1 2x1-ppFigura5.2: FDegracoabarrediunaleggediBernoulli.Esempio5.5. (LeggeBinomiale)Diremocheunav.a. XseguelaleggeBinomialeB(n, p)conn=1, 2, . . . ep 0quandoessaassumegli n + 1valori 0, 1, . . . , nconleseguenti probabilit` apk = PX = k =_nk_pk(1 p)nk, k = 0, 1, . . . , n (5.7)`E facile vericare ma noi trascureremo di farlo che la somma di questepkvale esatta-mente 1 quale che sia il valore di n e p. Nella Figura 5.3 `e rappresentato il graco della FDdella legge B(n, p): esso presenta n+1 discontinuit` a nei punti 0, 1, . . . , n, rimane costantefra due succcessive discontinuit` a, vale 0 perx < 0 e 1 perx n; inoltre laltezza di ognisaltonelpuntokcoincideconlaprobabilit` apk. Nellamedesimagura `erappresentatoanche il graco a barre dei valoripk. Landamento di questi graci ovviamente cambia alvariaredeivaloridi nep : inparticolareilgracoabarre `esimmetricoquandop =12;viceversa esso presenta le pk pi` u grandi verso i valori pi` u (rispettivamente meno) elevati dik sep `e prossimo a 1 (rispettivamente a 0). Da un confronto con la formula (4.3) dellE-sempio 4.3 discende quindi che il numero di successi inn tentativi indipendenti di vericadiuneventoAconP(A) =p `eunav.a.binomialeB(n, p). Si verica anche facilmenteche la legge di Bernoulli per un dato p dellEsempio 5.4 non `e altro che la legge Binomialenel casodi n=1; pertantonel seguitoindicheremoleleggi di Bernoulli conil simboloB(1, p). InunesperimentoconsistenteinntentativiindipendentidivericadiundatoeventoAconP(A)=ppotremodeniredaunlatolenv.a. di Bernoulli indipendentiX1, . . . , Xn che assumono valore 1 seA si verica e 0 in caso contrario, e dallaltro la v.a.Xcon legge BinomialeB(n, p) che rappresenta il numero di successi suglin tentativi.`Eintuitivochefraquestev.a.sussistalarelazioneX=X1 + . . . + Xn: questorisultato `erichiamato nel seguente Teorema che non dimostreremo.Teorema5.3. Senv.a. indipendenti X1, . . . , Xnsonotutteidenticamentedistri-buite secondo la legge di Bernoulli B(1, p), la loro somma X= X1+. . .+Xn `e distri-buitasecondolaleggeBinomialeB(n, p). Viceversa,ogniv.a.XBinomialeB(n, p)pu`oessereconsideratacomesommadiopportunev.a.X1, . . . , XnindipendentiediBernoulliB(1, p).565.2Variabilialeatoriediscrete1 2 nxp0+p1FX1p00 1 2 nxp0p1p2Figura5.3: FDegracoabarrediunaleggeBinomialeB(n, p).Esempio5.6. (Leggedi Poisson)Diremocheunav.a. Xseguelaleggedi PoissonT() con > 0 quando essa assume tutti i valori interik N con le seguenti probabilit` apk = PX = k =kk!e, k = 0, 1, 2, . . . (5.8)`Efacilevericaremanoi trascureremodi farlochelasommadi questeinnitepkvale esattamente 1 quale che sia il valore di. Nella Figura 5.4 `e rappresentato il gracodella FD della legge T(): esso presenta innite discontinuit` a nei punti 0, 1, 2, . . . , rimanecostante fra due succcessive discontinuit` a, vale 0 perx < 0 e tende verso 1 perx +;inoltre laltezza di ogni salto nel puntokcoincide con la probabilit` apk. Nella medesimagura`erappresentatoancheil gracoabarredi alcuni dei valori pk. Landamentodiquesti graci ovviamentecambiaal variaredel valoredi : inparticolareal cresceredi il massimodel gracoabarresi spostaversovalori pi` uelevati di k. LaleggediPoisson `e particolarmente adatta a descrivere v.a. che rappresentano conteggi e che possonoassumere un numero illimitato di valori:numero di telefonate che arrivano ad un centralinoinundatoperiododi tempo; numerodi clienti chesi presentanoallosportellodi unucio durante una giornata; numero di stelle presenti in una determinata regione di cielo.Il motivopercui questoavviene`echiaritodal successivoTeoremaedalladiscussionedellEsempio 5.7.Teorema5.4. (TeoremadiPoisson)DateleleggiBinomialiB(n,n)pk(n) =_nk_ _n_k_1 n_nk, k = 0, 1, . . . , n, n = 1, 2, . . .risultalimnpk(n) =kk!e, k = 0, 1, 2, . . .cio`epk(n)convergeversoladistribuzionediPoisson T()perognivaloredik.57N.CufaroPetroni: Statistica1 2 3 kx0.5FX10 1 2 kxp0p1p2Figura5.4: FDegracoabarrediunaleggediPoisson T().Dimostrazione: Infattisihapk(n) =_nk_ _n_k_1 n_nk=n!k!(n k)!_n_k_1 n_nk=kk!n(n 1) . . . (n k + 1)nk_1 n_n_1 n_k=kk!_1 1n_. . ._1 k 1n__1 n_n_1 n_kSiccome `enotochelimn_1 1n_. . ._1 k 1n_= 1 , limn_1 n_k= 1 , limn_1 n_n= eilrisultatosegueimmediatamente. Il Teorema 5.4 aerma in pratica che se n `e molto grande e p molto piccola una leggeBinomialeB(n, p)`ebenapprossimatadallaleggedi Poisson T(np). Illustreremoquestorisultatoconunesempio.Esempio 5.7.Supponiamo di voler studiare la legge del numero aleatorio X di telefonatechearrivanoaduncentralinotelefonicoinunintervallodi tempoT. NaturalmenteXsar` a una v.a. discreta che pu` o assumere tutti i valori interik = 0, 1, 2, . . . dato che non vi`e nessun limite apriori per il numero di telefonate che arrivano nel tempoT. Possiamocominciare costruendo un modello approssimato per il nostro problema: dividiamo linter-valloTinn parti uguali di lunghezzaTn , conn abbastanza grande da poter supporre chein ogni intervalloTnarrivi al pi` u una telefonata (ovviamente questa ipotesi diviene semprepi` u realistica al limite per n ). Deniamo poi n v.a. indipendenti X1, . . . , Xn in modotale che Xi valga 1 oppure 0 secondo che nellintervallo imo arrivi o meno una telefonata.Faremoinoltrelipotesi cheesistaunnumeropositivotalecheP(Xi=1) =nconi = 1, 2, . . . , nin modo che leXisiano indipendenti e tutte BernoulliB(1,n). In praticaquesto vuol dire che la probabilit` a che arrivi una telefonata nellimo intervallo diminuisce585.3Variabilialeatoriecontinuea bxfX_abfX(x) dxa bxfXx x+dxfX(x)fX(x) dxFigura 5.5: Larea fra a e b al di sotto della curva fX(x) `e la probabilit` a che X assumavalori fraaeb(vedi equazione(5.11)); inoltrefX(x) dxrappresentalaprobabilit` ainnitesimacheXstianellintervallo[x, x + dx].con il cresceren; il valore di invece `e sso e dipende dalla lunghezza dellintervalloTedalla intensit` a con la quale arrivano le telefonate in quel periodo della giornata. Da quantodetto deriva che per n grande il numero totale X di telefonate che arriva sar` a approssimatodaX1 + +Xn che, per il Teorema 5.3, `e BinomialeB(n,n). Il Teorema di Poisson 5.4ci garantisce allora che al limite pern la legge diX1 + +Xn converger` a verso lalegge di Poisson T(). Inconclusione possiamo aermare che il numeroXdi telefonateche arrivano al nostro centralino telefonico `e na v.a. di Poisson T(). Naturalmente restada studiare in che modo si possa stimare il valore del parametro a partire da osservazioniempiriche reali.5.3 VariabilialeatoriecontinueDenizione 5.9.Chiameremo v.a.continue le v.a. Xche assumono tutti i valoridiunintervalloJdinumerireali,nonesclusolinteroinsiemeR.Abbiamo visto nella Sezione 5.2 che la legge delle v.a. discrete `e determinata dallas-segnazionedinumeripkchesoddisnolepropriet` a(5.4). Nelcasodiv.a.continuequestaproceduraelementarenon`epi` upossibileebisogner` apassareallusodeglistrumentidelcalcolodierenzialeeintegrale.Denizione 5.10. Chiameremofunzione di densit` a(fd)ogni funzionef(x)denitasuRchegodadelleseguentipropriet` a:f(x) 0 ,_+f(x) dx = 1 . (5.9)Si pu` o mostrare che la legge di una v.a. continua X `e caratterizzata dallassegnazionedi unaopportunafdfX(x) mediante laquale`e possibile eseguire tutti i calcolinecessari. InparticolarelerelazionifralafdfXelaFDFXsonoriassuntedaFX(x) =_xfX(t) dt , fX(x) = F X(x) (5.10)59N.CufaroPetroni: Statisticaa bx1 b - afXa bxFX1Figura5.6: fdeFDdellaleggeUniforme |(a, b).cio`e FX`e la primitiva di fXche si annulla per x , mentre a sua volta fX`e laderivata di FX. Inoltre (vedi Figura 5.5) avremo che, comunque scelto un intervallo[a, b](perv.a.continuenon `eimportantechesiachiusooaperto)risulter` aPa X b = PX[a, b] =_bafX(x) dx = FX(b) FX(a) (5.11)Si noti chefX(x) non`e laprobabilit` achelav.a. Xassumail valorex: per lev.a. continuelaprobabilit` adi assumereunsingolovalore`ezero. Daltrapartesipotrebbefar vederecondei banali esempi cheunafdpu` oassumereanchevalorimaggiori di 1, equindi nonpu` oinnessunmodoessereunaprobabilit` a. Sololaquantit` ainnitesimafX(x) dxpu` oessereinterpretatacomelaprobabilit` acheXprendavalorinellintervalloinnitesimo[x, x + dx](vediFigura5.5).Denizione5.11. Chiameremomodadi unav.a. continuaXil valorexper ilqualelasuafdfXassumeil valoremassimo. Ladenizionesi applicaanchenelcasodimassimirelativi.Il calcolo delle probabilit` a mediante lintegrale in (5.11) non `e sempre unoperazioneelementare: per questo motivo si usano delle apposite Tavole nelle quali sono elencatiivaloridelleFDFXdelleleggipi` uusualiinmodocheilcalcolodiPa X bpossaessereeettuatodirettamentemedianteladierenzaFX(b) FX(a).Esempio5.8. (Leggeuniforme) Il caso pi` u semplice di leggi di v.a. continue `e quellodelle leggi Uniformi nellintervallo [a, b] (con a, b R) indicate con il simbolo |(a, b). Essesono caratterizzate dalla fdfX(x) =_1/(b a) sea x b,0 altrimenti.(5.12)La FD si calcola poi in maniera elementare:FX(x) =___0 sex < a,(x a)/(b a) sea x b,1 sex > b.605.3Variabilialeatoriecontinue - +x1 --------2 fX - +x0.5FX1Figura5.7: fdeFDdellaleggeNormaleN(, 2).Questeduefunzioni sonorappresentatenellaFigura5.6. Ovviamentelerelazioni (5.9)sono sempre soddisfatte dato che larea di un rettangolo di baseb a e altezza 1/(b a)`esempre1. Si vedeinoltredallequazione(5.11) cheper a c c + bsi haPc X c + = /(b a) indipendentemente dal valore dic; ovvero: ad intervallidi larghezzainterni ad[a, b] vieneattribuitasemprelastessaprobabilit` a/(b a)indipendentemente dalla loro collocazione in [a, b]. Questo `e il signicato della uniformit` adella distribuzione.Esempio 5.9. (Legge Normale o Gaussiana) Il caso pi` u noto di leggi di v.a. continue`equellodellecosiddetteleggi Normali oGaussiane ^(, 2)con Re>0. Essesono caratterizzate dalla fdfX(x) =12e(x)2/22(5.13)Questefunzioni soddisfanolerelazioni (5.9) per ogni valoredi e , manoi nonlovericheremo. Ci limiteremo qui a dare solo una descrizione qualitativa del comportamentodi queste funzioni che sono rappresentate nella Figura 5.7. La fd fX `e una curva a campanasimmetrica attorno ad un massimo nel puntox = (moda). La funzione va rapidamenteversozeroallontanandosidalcentrodellacurvaelalarghezzadellacampana `eregolatadal valore di : grandi valori di corrispondono a curve larghe e piatte; piccoli valori dicorrispondonoacurvestretteealte. Sipu` omostrarechelacurvapresentadueessiproprio inx = . La FDFX(x) =12_xe(t)2/22dt (5.14)non ha unespressione analitica elementare, ma il suo graco `e molto semplice e regolare,tipico delle FD: ha una forma diS allungata che varia da 0 verso 1 con un punto di essoinx=. LaFDdiunaNormaledivienesemprepi` uripida(eallimiteapprossimaungradino di altezza 1) quando 0; viceversa si allunga sempre di pi` u con il crescere di. La legge ^(0, 1) la cui fd `e(x) =12ex22(5.15)61N.CufaroPetroni: Statistica`edettaancheleggeNormalestandarderivesteunaimportanzaparticolareperch`e,come vedremo,il calcolo delle probabilit` a relative a leggi Normali generiche pu` o sempreesserefacilmentericondottoallusodelleTavoledellAppendiceDperlaFDdellaleggeNormale standard(x) =12_xet22dt (5.16)LafdelaFDdellaNormalestandardpresentanolostessoandamentoqualitativodiFigura 5.7, ma la moda si trova in x = 0 e i due essi in x = 1 . Inoltre, data la evidentesimmetria di queste due funzioni `e anche facile vericare che(x) = (x) , (x) = 1 (x) (5.17)relazioni che risulteranno utili in seguito.Teorema5.5.1. SeX`eunav.a. ^(, 2),eseaebsonoduenumeri,alloralav.a.aX +b `e^(a + b ,a22).2. SeXeY sonov.a.indipendenti,rispettivamente ^(, 2)e ^(, 2),alloralav.a. X + Y `e ^( + ,2+ 2).Una conseguenza di questo Teorema `e che se X `e una v.a. Normale standard ^(0, 1),allora Y= X + `e una v.a. Normale ^(, 2). In altre parole: ogni v.a. ^(, 2)`edel tipoY =X+ conXNormalestandard. Pertantoavremoche, seY `e^(, 2),alloracomunquesceltiinumeriaebPa Y b = Pa X + b = P_a X b _equindida(5.11)e(5.16)sihaPa Y b = _b __a _(5.18)calcolochesi riduceallaconsultazionedelleTavoledellaFDNormalestandardinAppendiceD. LusodelleTavoledellAppendiceDsar` amoltoutileancheperlealtreleggi chedi solitovengonointrodotteinstatistica. Perquestomotivo, eperragionidibrevit` a,nondaremolaformaesplicitadellafdedellaFDdelleleggichediscuteremo nei prossimi esempi, ma ci limiteremo piuttosto ad una loro descrizionequalitativaeallenunciatodelleprincipalirelazionichelelegano.Teorema 5.6.Se Y1, . . . , Yn sono v.a. indipendenti e tutte Normali standard ^(0, 1),alloralav.a.X= Y21+ . . . + Y2nseguelalegge2(n)dettadel chiquadroconngradidilibert` a.625.3Variabilialeatoriecontinuen 2xfXn 2xFX1Figura5.8: fdeFDdellaleggedelchiquadro2(n)conn > 2.Laleggedel Chi quadroconn = 1, 2, . . . gradidilibert` a2(n)haunafdeunaFDdel tipomostratonellaFigura5.8pern>2. Lafd`ediversadazerosoloperx 0mentre `erigorosamentenullaperx < 0;sulsemiasserealepositivoilgraco`easimmetricoepresentaunaunalungacodachesi annullaasintoticamenteperx +. Lamodasitrovainx = n 2,etendeadallontanarsidallorigineperncrescenti. IvaloridellaFDdi2(n)possonoesseretrovatisulleopportuneTavoleevengonousatinelcalcolotramitelequazione(5.11).Teorema5.7. SeXeY sonoduev.a. di leggerispettivamente ^(0, 1)e2(n),alloralav.a.T=X_Y/nseguelalegget(n)dettadiStudentconngradidilibert` a.Laleggedi Studentconn=1, 2, . . . gradi di libert` at(n)haunafdeunaFDdeltipomostratonellaFigura5.9. Lafddit(n)`eunafunzioneacampanaconlamodainx=0, similealla ^(0, 1). Comesi vededallaFigura5.9lafddi t(n)siannulla per` o pi` u lentamente della fd della ^(0, 1). Quando il valore di n cresce la fddella legge t(n) diviene sempre pi` u simile alla fd Normale standard, e al limite le duefunzioni coincidono. I valori della FD di t(n) possono essere trovati sulle opportuneTavoleevengonousatinelcalcolotramitelequazione(5.11).Teorema5.8. SeXeY sonoduev.a. di leggerispettivamente2(n) e2(m) ,alloralav.a.F=X/nY/mseguelaleggeF(n, m)dettadiFisherconnedmgradidilibert` a.Laleggedi Fisherconnedmgradi di libert` aF(n, m)haunafdeunaFDdeltipomostratonellaFigura5.10. Lafddi F(n, m)somigliaaquelladi una2(n):essa`ediversadazerosoloperx 0mentre`erigorosamentenullaperx 35Avremo allora che20.975(99) 12(0.975 +199)2=12(1.960 +199)2= 129.07per cui in denitiva il valore dellestremo sinistro `e99 0.248129.07= 0.19Per lestremo destro si ha analogamente(n 1)S222(n 1)=99 0.24820.025(99)e per il quantile richiesto (ricordando anche che = 1)20.025(99) 12(0.025 +199)2=12(0.975 +199)2=12(1.960 +199)2= 73.77Pertanto lestremo destro `e99 0.24873.77= 0.33per cui complessivamente il richiesto intervallo di ducia `e [0.19 , 0.33].1028.3StimadiMassimaVerosimiglianza8.3 StimadiMassimaVerosimiglianzaNon sempre la forma dello stimatore pu` o essere indovinata in maniera naturale, comenel casodellamediaedellavarianza. Sar` autilequindi avereuncriteriogeneraleperdeterminareunopportunostimatorediunparametro.Denizione 8.5. Datoil campione X1, . . . , Xn, se le Xksonov.a. discrete convalorixkchiameremofunzionedi verosimiglianzalafunzionediL() = PX1= x1. . .PXn= xn = p(x1). . .p(xn) ; (8.8)se invece le Xksono v.a. continue con fd fchiameremo funzione di verosimiglianzalafunzionediL() = f(x1). . .f(xn) . (8.9)Si noti chenel casodiscreto, tenendocontodi (5.27)(ricordiamocheleXkdi uncampionesonoindipendenti eidenticamentedistribuite), L() non`ealtrochelaprobabilit` acongiunta(vedi Sezione5.5)cheleXkassumanoi rispettivi valori xk,supponendocheilparametrosconosciutoabbiailvalore; analogamente, nelcasocontinuo L() `e la densit` a congiunta delle Xkindipendenti e identicamente distribui-te(vediequazione(5.30)), supponendocheilparametrodastimareabbiailvalore. Sei valori x1, . . . , xndel campionesonoassegnati, il valoredi L()dipender`asolo da , e sar` a in generale possibile determinare il valoredi per il quale L() `emassima. Nel caso di v.a. discrete, `e quindi il valore per il quale i valori x1, . . . , xnhannolamassimaprobabilit` adi essereosservati; nel casocontinuoinvece`eilvalore per il quale x1, . . . , xnsono la moda della distribuzione del campione. Ovvia-mente=(x1, . . . , xn)dipender`adai valori di x1, . . . , xnancheseingenere, persemplicarelanotazione,noieviteremodiindicarlo. Potremoalloradenirelav.a. =(X1, . . . , Xn) che, sulla base delle precddenti osservazioni, sar` a adottato comeunbuonstimatoredi:Denizione 8.6.Chiameremo stimatoredimassimaverosimiglianza(MV)lav.a.=(X1, . . . , Xn) dove `e il valore che rende massimalafunzione diverosimiglianzaL().Il massimodellaL()`eingeneredeterminatoconi tradizionali metodi analitici(annullamentodelladerivata);siccomeper` oL()sipresentacomeunprodottodinfunzioni,esiccomenon`esempreagevolederivaretaliprodotti,spessosipreferiscedeterminare il massimo della funzione log L() che si presenta invece come unasomma di funzioni di . Ledueproceduresonoequivalenti datochelafunzionelog x `emonotona.Esempio8.10. Supponiamodiaverequalchebuonaragioneperritenerechelav.a. XsiaunaBinomialeB(m, p), conmnotomaconparametrop [0, 1] sconosciuto, esiax1, . . . , xnun campione di misure diX(lexjsono qui tutte numeri interi compresi fra 0em) dal quale vogliamo estrarre una stima dip. LEsempio 8.5 (Xera il numero di gli103N.CufaroPetroni: Statisticamaschi in una famiglia dim = 12 gli) costituisce un caso particolare di questo problemaconm = 12: nella seconda parte di quellEsempio, infatti, avevamo abbandonato lipotesisemplicativap = 1/2,e per stimare il valore di p dal campione dato avevamo adottatouna procedura basata sulla LGN che ci aveva condotto al seguente risultato:p =112 n12

k=0kNk =1mnn

j=0xj =xm(8.10)Mostreremo ora che lo stimatore di MV del parametro = p per questo problema coincideproprio con (8.10). Infatti nel nostro caso (conx intero fra 0 em)PX = x =_mx_px(1 p)mxper cui avremoL(p) =n

j=1_mxj_pxj(1 p)mxj,log L(p) =n

j=1log_mxj_+n

j=1xj log p +n

j=1(mxj) log(1 p) .Annullando la derivata rispetto ap si ha alloraddp log L(p) =1pn

j=1xj 11 pn

j=1(mxj) = 0da cui otteniamo(1 p)n

j=1xj = pn

j=1(mxj) = nmp pn

j=1xjovvero, semplicando,n

j=1xj = nmp .in denitiva quindi la stima di MV `e p =1mnn

j=1xj =xm(8.11)checoincidecon(8.10). Si noti cheper m=1laX`eunav.a. di Bernoulli eil no-stroproblemasi riconduceallastimadi unaproporzionetrattatanellEsempio7.1, eilrisultato (7.1) coincide con la (8.11) perm = 1.Esempio 8.11. Supponiamo ora di avere un campionex1, . . . , xn estratto da una v.a.Xcon legge di Poisson T() e parametro incognito. In questo caso le xj sono numeri interisenza limitazione superiore, e siccomePX = x = exx!1048.3StimadiMassimaVerosimiglianzaper la funzione di verosimiglianza si haL() =n

j=1exjxj!,log L() = n + log n

j=1xj n

j=1log(xj!) .Annullando la derivata rispetto a si ha alloradd log L() = n + 1n

j=1xj = 0da cui otteniamo come stima di MV =1nn

j=1xj = xche ancora una volta coincide con la media aritmetica del campione. Questo risultato non`e sorprendente se si riette al fatto che in base a (6.25) il parametro gioca anche il ruolodi valore dattesa di una v.a. di Poisson, e che in base al Teorema 8.1 la media `e un buonstimatore del valore dattesa.Esempio8.12. Sia orax1, . . . , xn `e un campione estratto da una v.a.Xcon legge Nor-male ^(, 2), esia=(, 2)lacoppiadi parametri dastimare. Questavoltalexjassumono valori reali e continui distribuiti secondo la fd normale (5.13) per cui la funzionedi verosimiglianza sar` aL(, ) =n

j=112e(xj)2/22,log L(, ) = nlog(2) 122n

j=1(xj )2.Siccome questa volta dobbiamo stimare due parametri, bisogner` a risolvere un sistema didueequazioniottenuteannullandoambeduelederivaterispettoae. Annullandoladerivata rispetto a si ha prima di tuttodd log L(, ) =12n

j=1(xj ) = 0e quindi si ottiene lo stimatore di MV per =1nn

j=1xj = xche come negli altri casi `e la media aritmetica del campione. Annullando poi la derivatarispetto add log L(, ) = n +13n

j=1(xj )2= 0105N.CufaroPetroni: Statisticamax (x1,...,xn)aLFigura8.4: FunzionediverosimiglianzaL(a)dellesempio8.13.e sostituendo la soluzione = x, si ha poi lo stimatore di MV per2 2=1nn

j=1(xj )2=1nn

j=1(xj x)2.Si noter` achelostimatoredi MVdellavarianzaottenutonellEsempioprecedentecoincide con la varianza campionaria S2c(7.3), e non con la varianza corretta S2(8.1).Pertanto, comesi deducedal Teorema8.1, inquestocasolostimatoredi MV`edistorto. Questofenomenonon`eeccezionale: sebbeneglistimatoridiMVgodanodi molte buone propriet` a anche asintotiche, non `e garantito che essi siano anche nondistorti. Si trattacomunquedi undifettorelativamentepocoimportanteperche,comesipu` ovederedallequazione(8.2),nellamaggiorpartedeicasiunostimatoredistortopu` oesserefacilmentecorrettomoltiplicandoloper unopportunofattore.Negli esempi precedenti, comunque, gli stimatori di MVnonsonorisultati moltodiversi daquelli chepotevanoessereintuiti ancheperaltravia. Mostreremoorasolo un caso in cui la forma dello stimatore di MV `e diversa da quella degli stimatoripi` ucomuni.Esempio8.13. Siax1, . . . , xnun campione di una v.a. Xuniforme |(0, a) (vedi Esem-pio 5.8), cona parametro incognito da stimare. Ora lexjsono numeri reali e positivi e,dato un arbitrario valore dia, pi` u piccoli dia. Siccome la fd diX`efX(x) =_1/a se 0 x a,0 altrimenti.lafunzionediverosimiglianzasar` adiversadazerosolosearisultamaggioredituttelexj, ovvero sea > max x1, . . . , xn, e avr` a quindi la formaL(a) =_1/ansea > max x1, . . . , xn0 altrimenti1068.3StimadiMassimaVerosimiglianzariportatanellaFigura8.4. Inquestocasosi vedesubitodal gracocheper undatocampionex1, . . . , xn la funzione di verosimiglianzaL(a) assume il valore massimo proprioin a = max(x1, . . . , xn)formula che permette di denire lo stimatore di MV comeA = max(X1, . . . , Xn). Comesi potr` anotarequestorisultato`emenoovviodi quelli discussi inprecedenza, anchese`e abbastanza intuitivo che si proponga di stimare lestremo superiore dellintervallo [0, a]proprioconil pi` ugrandedegli xj. Si pu` oper` oanchedimostrarechelostimatoreA`edistorto nel senso cheE( A) =nn + 1 a < a .Questadistorsionepu` ocomunqueesserefacilmenteeliminataintroducendolostimatorecorrettoAc =n + 1nmax(X1, . . . , Xn) .Come si vede facilmente, inne, questa correzione diviene del tutto irrilevante per grandivalori din.107N.CufaroPetroni: Statistica108Capitolo9TestdiIpotesi9.1 IpotesiederroriLesitodellaproceduradi stimadi unparametro`eunnumero, ounintervallodinumeri;viceversalesitodiunteststatistico `eunadecisionefraipotesialternative.Discutiamobrevementequalcheesempioperchiariremeglioquestaaermazione.Esempio 9.1.In un campione di n = 11 712 bambini nati in un paese tra il 1968 e il 1973ci sono statem = 5 934 nascite maschili; la proporzione empirica di maschi `e quindip =5 93411 712= 0.507 ;possiamoaermarechec`estataunaprevalenzadi nascitemaschili? Odobbiamosoloattribuire al caso il fatto che p non sia esattamente 1/2 come sarebbe naturale attendersi?Abbiamoquindi bisognodi unaproceduraadabilecheci consentadi accettareunaaermazione oppure laltra, e di stimare la probabilit` a di sbagliare.Analogamente, riprendendo la discussione dellEsempio 8.5, possiamo aermare che gli esitidellenascitesuccessivenellefamiglidi12glisianoindipendentifraloro? Odobbiamosupporrechecisianofamiglieconlatendenzaagenerareglimaschi, efamiglieconlatendenza a generare glie femmine?Detto in altri termini: con quale criterio e con qualeadabilit` a possiamo decidere di accettare una delle due ipotesi alternative che abbiamoappena formulato?Unadittafarmaceuticahaprodottounnuovofarmacoperlacuradi unadeterminatamalattia: con quale procedura e con quale adabilit` a possiamo pervenire a stabilire se ilfarmaco `erealmenteecace? Inchemanieradovremmorilevare idatiempirici,ecomepossiamo usarli per giungere alla decisione richiesta?In tutti gli esempi precedenti lo scopo dellanalisi statistica `e quello di pervenire, conun preciso livello di adabilit` a, alla accettazione di una fra due possibili ipotesi. Nelseguito avremo a che fare prevalentemente ma non obbligatoriamente con ipotesicheriguardanoi valori di qualcheparametrodelladistribuzionedellev.a. ritenuterilevanti peril nostroproblema: cos` nel primocasodellEsempio9.1il parametrorilevante `e la probabilit` a p che in un parto si produca una nascita maschile. Possiamo109N.CufaroPetroni: Statisticaallora denire la v.a. Xdi Bernoulli B(1, p) che prende valori 1 e 0 con probabilit` a pe 1p secondo che in un parto si verica rispettivamente una nascita maschile o unafemminile. I nostri dati empirici sono allora le n v.a. di Bernoulli indipendenti Xj conj=1, . . . , n(econn=11 712)cherappresentanogliesitideipartiregistrati, einbase alla LGN potremo stimare p mediante la media Xil cui valore `e la proporzioneempiricap : noivogliamousarequestidatisperimentaliperdecidereseilvaloredip `eonougualea1/2.La procedura pi` u intuitiva in questo caso sar` a quella di confrontare il valore empiricopconil valore ipotetico1/2esaminandoil valore assuntodap 12: se questadierenza`etroppograndenoi riuteremolipotesi p=12. Per rendereprecisaequantitativa questa procedura dovremo per` o trovare il modo di ssare un numero >0 che ci consenta di riutare lipotesi p =12quandop 12> : in pratica dobbiamoessere in grado di ssare una soglia numerica al di l` a della quale noi riterremo cheladierenzap 12siatroppograndeperchesipossaaccettarelipotesip =12.Ogni voltachesar` apossibile, dunque, leipotesi alternativesarannoformulateintermini dei valori del parametrodi qualchedistribuzione: si dividelinsiemeditutti i possibili valori di indueparti 0e1: unipotesi sar` a 0, mentrelipotesi alternativasar` a 1. Nellesempiochestiamodiscutendoil parametropassumevalori in(0, 1), ei duesottoinsiemi chedenisconolenostredueipotesisono0=_12_, 1=_0 , 12__12 , 1_.Naturalmentevaprecisatosubitochedecisioni assunteinquestomodosullabasedi test statistici non possono che essere solo probabilmentecorrette. In altri terminici sar` asemprelapossibilit` adi commetteredegli errori ed`eimportanteessereingradodivalutarelaprobabilit` adiquestierrori. Vedremoperaltronelladiscussioneseguentecheinrealt`ail valoredellasogliaeil valoredellaprobabilit` adi erroresonolegatifraloro.Proseguendonelladiscussionedellesempiodellenascitemaschili potremodunquedirechesiamoinpresenzadidueipotesialternativeperilparametrop (0, 1):H0: p =12 , H1: p ,=12Potremmoalloraprovareassareil valoredellasogliadi accettazionedelledueipotesi scegliendotentativamente =0.01. Questosignicachedai dati empiri-ci calcoleremoinnanzituttop ; poi, sep 120.01accetteremoH1. Ovviamente, per` o, pu` oaccaderecheil test cos`eseguitociconducaadecisionierrateinunodeidueseguentimodi: pu` osuccederechepsiarealmenteugualea1/2, machecasualmentei dati empirici producanounvaloredip 12pi` ugrandedi0.01inducendociaconcluderechep `ediversoda1/2;viceversa pu` o succedere che p sia realmente diverso da 1/2, ma che casualmen-tei dati empirici producanounvaloredip 12pi` upiccolodi 0.01inducendoci aconcluderechep `einvecepropriougualea1/2.1109.1IpotesiederroriGli errori possibili sono quindi di due tipi principali: si pu` o aermare che H0 `e falsaquandoessa`evera, oaermarecheH0`everaquandoessa`efalsa.`Eimportanteessereingradodicontrollarelaprobabilit` adicommetterequestierrori; perilmo-mentonoi ci limiteremosoloadosservareche, nel nostroesempio, tali probabilit` adipendonoovviamentedal valoredellasoglianel modoseguente: seil valorediaumentail testsar` amenoseveroperlipotesi H0nel sensochesar`api` udicileriutarla. Conseguentementediminuiscelaprobabilit` adicommettereunerroredelprimotipo(aermarecheH0`efalsaquandoessa`evera).`Ealtrettantoevidenteper` o che in questo caso aumenter` a la probabilit` a di commettere laltro tipo di errore(aermare che H0 `e vera quando essa `e falsa). Il valore di quindi deve essere sceltoinmanieramoltoprudente, evitandodi prenderlotroppograndeotroppopiccolopernonfareaumentaretroppolaprobabilit` adiunodeiduetipidierrore. Daltraparte queste osservazioni mostrano che il valore di deve essere scelto in conseguenzadelrischiodierrorecheintendiamocorrereprendendolanostradecisionesulledueipotesi H0eH1. Riassumeremoorail contenutodi questadiscussionepreliminareinalcuneDenizioni.Laformulazionedeltestpartedallaindividuazionedelledueipotesialternativechevogliamoesaminare: H0dettaipotesi nulla, eH1dettaipotesi alternativa. Ingenerale il ruolo di queste due ipotesi non `e simmetrico: tipicamente si sceglie comeipotesinullalipotesipi` uconservativaeprudente,ricordandoper` ochelosperimen-tatore`enormalmenteinteressatoavericareselipotesi H0pu` oessereriutata.Cos`, se si sta sperimentando un nuovo farmaco, H0`e in genere lipotesi il farmaco`einecace,malosperimentatore `einteressatoavericarepiuttostosepu` oesseresostenutalipotesialternativaH1: ilfarmaco `eecace.Denizione9.1. Chiameremoerroredi primaspeciequellochesi commetteriutandoH0quandoH0`evera;viceversachiameremoerroredisecondaspeciequellochesicommetteaccettandoH0quandoH0`efalsa.I due tipi di errore non sono considerati in genere sullo stesso piano per due ragioniprincipali: innanzituttogli errori di primaspecie(fareaermazioni imprudenti efalse)sonoconsideratipi` ugravidiquellidiseconda(perdereloccasionedimettereinevidenzaqualcosadi nuovo). Nel casodellasperimentazionedi unfarmacosigiudica pi` u grave mettere in circolazione un farmaco inutile (o addirittura dannoso),cheperdereloccasionedi produrreunfarmacoecace. Insecondoluogolerroredi primaspeciesi commettesottolipotesi cheH0siavera: siccomeingeneraleH0`eunipotesi pi` uprecisadellalternativaH1, supporrecheH0siaverapermettenella maggior parte dei casi di valutare la probabilit` a dellerrore. Viceversa, siccomelerroredi secondaspeciesi commettesottolipotesi chesiaveraH1(chespesso`edenitasolodallessereil contrariodi H0)ingenerale`epiuttostodicilepotercalcolarelaprobabilit` adi questosecondotipodi errore. Nel seguitosupporremochelipotesi H0siacaratterizzatadal fattocheuncertoparametrocadainunsottoinsieme0dellinsiemedeisuoivalori,echelipotesiH1corrispondainvecealfattocheappartengaalsottoinsieme1complementaredi0.111N.CufaroPetroni: StatisticaDenizione9.2. ChiameremoregionecriticaleventoDcheconduceal riutodellipotesinullaH0;chiameremopoilivellodel testlaquantit` a =sup0P(D) ,epotenzadel testlafunzione() = P(D) , 1 ;chiameremoinnesignicativit` adel test il pi` upiccolovaloresdel livelloche,peruncampionedato,conduceal riutodiH0.IngeneralelaregionecriticaDsar` auneventodeltipo T tdenitointerminidi unaqualchestatisticaT=t(X1, . . . , Xn)lacui legge`ecompletamentenotaselipotesi H0`evera, cio`ese 0; inoltrePindicacomeal solitolaprobabilit` acalcolata sotto lipotesi che il parametro sconosciuto abbia proprio il valore . Con-seguentementeil livellodi untest`eil massimodellaprobabilit` adi commettereunerrorediprimaspecie. Viceversalapotenzadeltest `elaprobabilit` adiriutareH0al variaredi in1, cio`equandoH0`efalsa: inpraticasi trattadellaproba-bilit` adi mettereinevidenzalacorrettezzadi H1quandoquesta`evera, equindilaprobabilit` adi errori di secondaspecievale1 ()con 1. Ingeneraleilvalore del livello `e una scelta operata inizialmente dello sperimentatore che decide ilrischio di errore di prima specie che vuole correre: i valori pi` u usati sono = 0.05 e = 0.01, ma anche = 0.10. La forma della regione critica D e la potenza sono unaconseguenza di questa scelta. Invece la signicativit`a sdipende principalmente daidati empirici: i dati confermerannolipotesi H0pertutti i livelli s; equindises`epiccolalipotesi H0risultaconfermatadai dati perpiccoli valori del livello,cio`e con piccoli rischi di errori di prima specie. Ovviamente un test `e buono se illivelloelasignicativit` assonopiccoli,elapotenza() `egrande.Esempio 9.2. Siamo ora in condizione di discutere pi` u compiutamente il problema dellaproporzionedi gli maschi introdottonellEsempio9.1. Aquestoscopointroduciamon = 11 712 v.a. indipendenti Xj, conj= 1, . . . , n, tutte di Bernoulli B(1, p) conXj= 1se il partojmo ha dato luogo ad una nascita maschile, eXj = 0 viceversa. Il parametrop prende valori in (0, 1) e noi vogliamo decidere quale delle due seguenti ipotesi accettare:H0: p =12 , H1: p ,=12ricordando che il valore osservato delle nascite maschili `e 5 934. Deniremo allora le v.a.Sn =n

j=1Xj , X =Snn=1nn

j=1Xji cui valori empirici sono rispettivamentes = 5 934 , p =5 93411 712= 0.5071129.1Ipotesiederrorie osserveremo che in base al Teorema 5.3Sn `e BinomialeB(n, p), per cui da (6.24), (6.5)e (6.18) avremoE(Sn) = np , Var(Sn) = np (1 p) ,E(X) = p , Var(X) =p (1 p)n.Il Teorema 7.2 (TLC), con = pe 2= p (1p) per le nostre v.a. di Bernoulli Xj, ci diceinoltre che, siccomen = 11 712 pu` o essere considerato grande, dettaZuna v.a. normalestandard ^(0, 1), avremo con buona approssimazionenX p_p (1 p) Znel senso che la legge della v.a. al primo membro `e ben approssimata dalla legge ^(0, 1);nello stesso senso potremo allora scrivereX p +_p (1 p)nZdove, tenendocontodel Teorema5.5, laleggedellav.a. al secondomembro`enormale^(p ,p (1 p)/n). A questo punto,preso> 0 e ricordando che con il simbolo indi-chiamolaFDdellaNormalestandard(5.16), siamoingradodieseguireilcalcolodellaseguente probabilit` a che giocher`a un ruolo importante nella discussione:P_X 12 _= P_X 12 _+P_X 12 +_ P_p +_p (1 p)nZ 12 _+P_p +_p (1 p)nZ 12 +_= P_Z _12 p __np (1 p)_+P_Z _12 p +__np (1 p)_= P_Z _12 p __np (1 p)_+1 P_Z _12 p +__np (1 p)_= _1 2p 22_np (1 p)_+1 _1 2p + 22_np (1 p)_(9.1)Notiamo che in particolare, se si accetta lipotesiH0chep =12, e ricordando le propriet` adi simmetria (5.17) di , la (9.1) si semplica inP_X 12 _= (2n) + 1 (2n) = 2_1 (2n)(9.2)113N.CufaroPetroni: StatisticaFissiamo ora, come suggerito in precedenza, la regione critica D scegliendo tentativamente = 0.01; avremo alloraD =_X 12 0.010_,e siccome il valore empirico `e p 12 = [0.507 0.500[ = 0.007< 0.010 lesito del test `eche accetteremo lipotesiH0. Dobbiamo per` o ora calcolare il livello del test eseguito inquesto modo: supponendoH0 vera, ponendon = 11 712 e = 0.01 in (9.2) e facendo usodelle Tavole D.1 avremo allora = P_X 12 0.01_= 2 [1 (2.164)] = 0.030 .Dunque la scelta di = 0.01 produce un test di livello 0.03 che ci induce ad accettareH0.Tipicamente, per` o, sipreferiscessareinizialmenteillivellodeltestdeducendopoiilvaloredi elaregionecriticaD. Adesempiosupponiamodi volereseguireuntestdilivello = 0.05: per determinare osserveremo allora che, supponendo veraH0, da (9.2)si ha = P_X 12 _= 2_1 (2n)ovvero(2n) = 1 2e quindi ricordando la denizione (5.12) di quantile2n = 12dove come al solito indica il quantile di ordine della Normale standard. In conclusione,ponendo = 0.05 en = 11 712, e usando le Tavole D.1 per calcolare0.975, avremo =12n 12= 0.009La regione critica di livello = 0.05 `e alloraD =_X 12 0.009_,esiccome p 12= [0.507 0.500[ =0.007 0(9.4)H0: 0, H1: < 0(9.5)esiparlarispettivamenteditestunilateraledestroesinistro.Esaminiamoinnanzituttoil casodi untestbilaterale(9.3): perdeterminarelare-gionecriticadobbiamoscegliereunopportunostimatoredaosservare, eperi testsullattesa `e naturale prendere in considerazione la media aritmetica del campioneX=1n(X1 + . . . + Xn)checomesappiamo`eunbuonstimatoredel valoredatte-sa. Iltestconsister` anellesaminareseilvaloreosservatoXpu` osignicativamenteessereconsideratodiversodavalore0,percuilaregionecriticaprender` alaformadellevento [X0[ > , nel senso che se la dierenza [X0[ fra valore osservatoevaloreipoteticoassumevalori troppograndi superandounasoglia>0, allorariuteremolipotesi nullaH0eaccetteremolipotesi alternativaH1. Per renderequantitativaquestaproceduradobbiamocalcolareunopportunovalorenumericoperlasogliassandoapriori il valoredel livellodel testerichiedendopoi, inbaseallaDenizione9.2,chesiavericatalarelazioneP[X 0[ > = , supponendoH0: = 0(9.6)Questaequazioneci consentir` adi determinareil valoredellasogliaperuntestbilateraledilivellopressato.Nel caso di un test unilaterale destro (9.4) la regione critica assume invece la formaX0> , nel senso che ora si esamina la dierenza X0senza valore assolutoperchesiamointeressati amettereinevidenzache`epi` ugrandedi (enonsolodiversoda)0. Setaledierenzaassumevaloritroppograndisuperandounasoglia>0, allorariuteremolipotesi nullaH0eaccetteremolipotesi alternativaH1.Ancheinquestocasoper determinarelasoglia si ssail livellodel test esiapplicalaDenizione9.2sup PX 0> = , supponendoH0: 0(9.7)1169.2TestsullamediaPeri testunilaterali converr` ainoltreosservareche, supponendoveralipotesi H0secondolaquale0 0,sihaperlaregionecriticaX 0> = (X ) + ( 0) > = X > + 0 X > equindianchePX 0> PX > , 0Pertanto, ricordando anche che la legge della v.a. centrata X `e indipendente da,da(9.7)sihaPX > = , supponendoH0: 0(9.8)Inmanieraanalogaperuntestunilateralesinistro(9.5)laregionecritica`edellaforma X 0< ,elasogliasicalcolascegliendoillivelloerichiedendochePX < = , supponendoH0: 0(9.9)A questo punto per procedere `e necessario avere delle informazioni sulla legge di X,cio`esullaleggedelleosservazioni X1, . . . , Xn. Noi supporremosemprenel seguitoche le Xksianov.a. normali ^(, 2) (opossanoessere ritenute tali inbase alTLC7.2)inmododapoterusarei risultati del Teorema5.9, ricordandoperaltrochesempreperil TLCtali risultati sonocomunqueapprossimativamenteveriseilnumerondelleosservazioni `eabbastanzagrande. Sinotichelalegge ^(, 2)delle v.a. Xknon `e completamente conosciuta: non solo non ci `e noto il valore di ,ma in generale potrebbe non esserci noto neanche il valore di 2. Per questo motivodovremooradistinguereduetipiditest.9.2.1 TestdiGaussSelaleggedelleXk`e ^(, 2)ilTeorema5.9aermachelav.a.U=n X `e unaNormale standard ^(0, 1). Basandoci suquestorisultatoriprendiamoladiscussionedeitestnelcasoincuilavarianza2`enota. Peruntestbilateraledelleipotesi(9.3)larelazione(9.6)pu` oovviamenteessereriscrittacomeP_n X 0>n_= P_[U0[ >n_= , supponendoH0: = 0dovelav.a.U0=n X 0(9.10)117N.CufaroPetroni: Statistica`euna ^(0, 1);ricordandoallorailrisultato(5.21)sihafacilmenten= 12.Dato il livello , il valore 12si trova facilmente consultando le Tavole dellAppen-dice D.1, e la regione critica [X 0[ > di livello si scriver`a equivalentementecome[U0[ > 12.Inconclusioneuntestbilateraledi livellodelleipotesi (9.3)si esegueinquestomodo: si calcolail valore empiricodellav.a. U0(9.10) e losi confrontaconilquantile12dellaNormalestandardricavatodalleTavoleD.1: serisulta [U0[>12, allorasiriutalipotesiH0esiaccettaH1; seinvecerisulta [U0[ 12siaccettalipotesiH0. Siccomelasignicativit` as`eilpi` upiccolovaloredellivelloperil qualei dati empirici sonoinreginecritica, percalcolaresbisognaimporre1s2= [U0[ dove U0`e il valore empirico della statistica (9.10). Dalla denizione diquantile si ha allora che 1 s2= ([U0[) dove `e la FD Normale standard, ovveros= 2 [1 ([U0[)].Analogamentesicostruisceiltestunilateraledestrodilivelloperleipotesi(9.4):larelazione(9.8)siriscrivecomeP_n X >n_= P_U>n_= , supponendoH0: 0doveU`e ^(0, 1);siccomeP_U n_= 1 P_U>n_= 1 ,persemplicedenizionediquantileavremoalloraquestavoltachen= 1,equindiper(9.8)laregionecritica `eoraU0> 1dove U0`e sempre data da (9.10). Il test unilaterale destro si esegue allora in questomodo: si calcolail valoreempiricodellaU0elosi confrontaconil quantile1dellaNormalestandardricavatodalleTavoleD.1: serisultaU0>1, allorasiriuta lipotesi H0e si accetta H1; se invece risulta U0 1si accetta lipotesi H0.Lasignicativit` adel testunilateraledestrosi ottienepoi imponendo1s=U0,cio`e1 s= (U0)equindis= 1 (U0) .1189.2Testsullamedia166.6 169.3 168.2 176.4 168.6 170.1 167.7 168.1 164.3 171.1172.5 165.7 166.1 171.3 176.5 168.8 169.7 168.1 167.1 172.8173.5 168.9 169.7 167.7 173.0 159.4 168.8 163.7 174.4 174.0164.4 171.1 168.1 171.4 174.6 168.7 169.4 165.7 159.5 164.1166.0 168.1 169.0 172.6 172.2 170.4 173.4 181.5 165.5 167.9168.9Tabella9.1: Altezzeincmdiuncampionedin = 51reclute.Il test unilaterale sinistro si costruisce in maniera identica con lunica dierenza chelaregionecriticasar` aoraU0< 1La procedura per il test sar` a quindi: sicalcolailvaloreempiricodellaU0: serisultaU0< 1, allorasi riutalipotesi H0esi accettaH1; seinvecerisultaU0 1si accetta lipotesi H0. La signicativit` a del test unilaterale sinistro si ottieneallorada1s= U0,cio`e1 s= (U0)equindis= 1 (U0) .Esempio9.3.`EnotochelaltezzaXdellepersonediundeterminatopaese `eunav.a.chesegueunaleggeNormale ^(, 2): supponiamooradi sapere, inbaseai dati diuncensimentodel 1950, cheper gli individui di sessomaschilesi ha0=168 cme2= 19 cm2. Nel 1965 viene esaminato un campione din = 51 reclute alla visita di levaesiriportanoleloroaltezzenellaTabella9.1. Siconstataaquestopuntochelamediadel campione `eX = 169.3 cm. Supponendo di poter considerare la varianza2= 19 cm2come ancora attendibile e quindi nota, si vuol sapere se al livello = 0.05 possiamo direche la media delle altezze `e aumentata? Il test richiesto `e dunque unilaterale destro conipotesi del tipo (9.4): dai dati a nostra disposizione abbiamo cheU0 =X 0n =169.3 1681951 = 2.13SiccomedalleTavoleD.1risulta0.95=1.65 2.13 =U0, per cui in questo caso il risultato del test sarebbe stato quellodi accettare lipotesi H0 secondo la quale laltezza media `e rimasta di 168 cm. Il problemadovrebbe essere risolto in maniera un po diversa se inizialmente si chiedesse di vericarechelaltezzamedia `ecambiata(nonaumentata). Inquestocasoiltestdovrebbeesserebilaterale: il calcolo di U0 resta invariato, ma il suo valore deve ora essere confrontato con12. Allivello=0.05abbiamoallorache0.975=1.96nS_= P_[T0[ >nS_= , supponendoH0: = 0dovelav.a.T0=n X 0S(9.11)`eunat(n 1);ricordandoallorailrisultato(5.23)sihafacilmentenS= t12(n 1) .Datoil livello, il valore t12(n 1) si trovafacilmente consultandole Tavo-ledellAppendiceD.2, elaregionecritica [X 0[ >di livellosi scriver`aequivalentementecome[T0[ > t12(n 1) .Inconclusioneuntestbilateraledilivellodelleipotesi(9.3)siesegueorasecondoquestaprocedura: sicalcolail valoreempiricodellav.a.T0(9.11)elosiconfrontaconilquantilet12(n1)dellaStudentricavatodalleTavoleD.2: serisulta [T0[ >t12(n 1), allorasi riutalipotesi H0esi accettaH1; seinvecerisulta [T0[ t12(n 1)siaccettalipotesiH0. Inoltrelasignicativit` adeltestbilaterale `es= 2 [1 Fn1([T0[)]dove Fn1(x) `e la FD della legge di Student t(n1) e T0`e il valore empirico (9.11).Analogamentesi costruisconoi testunilaterali destroesinistrodi livelloperleipotesi(9.4)e(9.5): leregionicritichesonoorarispettivamenteT0> t1(n 1) , T0< t1(n 1)doveT0`esempredatada(9.11),eitestsieseguonoconlaseguenteprocedura: sicalcolail valoreempiricodellaT0elosiconfrontaconil quantilet1(n 1)della1209.3TestperilconfrontodellemedieStudent ricavatodalleTavoleD.2: serisultaT0>t1(n 1) (rispettivamente:T0< t1(n 1)), allorasi riutalipotesi H0esi accettaH1; seinvecerisultaT0 t1(n 1)(rispettivamente: T0 t1(n 1))si accettalipotesi H0. Lesignicativit` adeitestunilateralidestroesinistrosonopoirispettivamentes= 1 Fn1(T0) , s= 1 Fn1(T0) .Si noti che i quantili della distribuzione di Student con n 1 gradi di libert` a dipen-dono ovviamente da n, e nelle Tavole D.2 i valori dei quantili sono riportati solo pern 120. Sembrerebbe dunque impossibile eseguire un test di Student per campioniconn > 120. Percapirecomesiarontaquestadicolt` abisognaricordarechepernmoltograndeladistribuzionedi StudenttendeacoincidereconladistribuzioneNormalestandard. Conseguentemente,perundatovaloredellivello,sen > 120i quantili calcolati dalleTavoleD.1dellaNormalestandardequelli ricavati dalleTavoleD.2dellaStudentsonopraticamentecoincidenti. Inquestocasoil testperla media pu` o essere eettuato calcolando il valore empirico T0da (9.11), ma usandoi quantili dellaNormalestandard. Inpraticapern>120laproceduraperil testbilateraledi Student si modicanel modoseguente: si calcolail valoreempiricodellav.a. T0(9.11)elosi confrontaconil quantile12dellaNormalestandardricavatodalleTavoleD.1: se [T0[ >12, si riutalipotesi H0; seinvecerisulta[T0[ 12si accettalipotesi H0. Analogamenteper i test unilaterali destroesinistrosi calcolaT0esi determinail quantile1dellaNormalestandarddalleTavoleD.1: serisultaT0> 1(rispettivamente: T0< 1),siriutalipotesiH0;seinveceT0 1(rispettivamente: T0 1)siaccettalipotesiH0.Esempio 9.4.Riprendendo lEsempio 9.3 supponiamo ora di non poter considerare comeattendibileil valore19per lavarianza2dellanostrav.a. InquestocasodobbiamoinnanzituttostimarelavarianzacorrettacherisultaessereS2=16.5ecalcolarepoi lastatistica di StudentT0 =X 0Sn =169.3 16816.551 = 2.29SiccomedalleTavoleD.2risultat0.95(50) = 1.68< 2.29 =T0,anchequestavoltaidatisononellaregionecriticaper cui il test unilateraledestrodi livello=0.05implicail riutodi H0. Peril valoreT0=2.29possiamoanchecalcolarelasignicativit`adeltest che `es= 0.013,un valore che lascia di nuovo qualche dubbio sulla adabilit` a deltest. Infatti seavessimosvoltoi calcoli conunlivello=0.01ci saremmoaccorti chet0.99(50)=2.40>2.29=T0, percui inquestocasoil risultatodel testsarebbestatoquello di accettare lipotesiH0 secondo la quale laltezza media `e rimasta di 168 cm.9.3 TestperilconfrontodellemedieUnaltrotipoditestriguardailconfrontofralemedieXeYdiduev.a.XeY .Dovremo qui distinguere due casi secondo che i due campioni siano accoppiatio indi-pendenti. Chiameremocampioneaccoppiatouncampione(X1, Y1), . . . , (Xn, Yn)121N.CufaroPetroni: Statisticadi misure di due v.a. quando `e importante conservare memoria della connessione fraXke Yk: ad esempio, se vogliamo studiare leetto di un farmaco possiamo sommini-strarlo ad un numero n di pazienti misurando su ciascuno di essi qualche parametrorilevanteprima(X)edopo(Y )lasomministrazionepermettereinevidenzaeven-tuali dierenze fra i loro comportamenti medi (Xe Y ). In questo caso ovviamente`eimportantenonperderelaccoppiamento: XkeYksonolemisureeseguitesulme-desimopaziente, il kmo. Parleremoinvecedi campioni indipendenti quandononvi `enessunarelazionerilevantefraglielementiX1, . . . , Xndelprimocampioneegli elementi Y1, . . . , Ymdel secondo, nel sensochegli elementi corrispondenti XkeYknonsonomisurati sullostessoindividuoelalorocollocazioneal postokmo`eprivadi signicatostatistico. Peraltroduecampioni indipendenti possonoavereanchecardinalit` adiversenedm,situazioneevidentementenonconsentitanelcasodi uncampioneaccoppiato. Unesempiodi campioni indipendenti si haquandosistudiaunfarmacoconfrontandoil suoeettoconquellodi unplacebo: inquestocaso si somministrano il farmaco e il placeboa due gruppi distinti di pazienti (anchedinumerodiverso)esimisuraqualcheparametrorilevantesuiduegruppi(XeY )perconfrontareglieettimediXeY .Come al solito il confronto delle medie viene formalizzato tramite delle ipotesi:avremountestbilateraleseleipotesisonoH0: X= Y, H1: X ,= Y(9.12)inveceiltest `eunilateralequandoleipotesisonodeltipoH0: X Y, H1: X> Y(9.13)Inambedue i casi, comunque, il confrontodeve essere fattoseguendoprocedurediverseper campioni accoppiati ecampioni indipendenti comevedremonelladi-scussioneseguente. Sinoticheperbrevit` aabbiamoindicatosololeipotesideltestunilateraledestrosenzaper` operderemoltoingeneralit` a: iltestunilateralesinistro`einfattidescrittodallemedesimeipotesiscambiandoil ruolodiXeY .9.3.1 CampioniaccoppiatiNel caso di campioni accoppiati si costruisce innanzitutto il campione delle dierenzeZk= XkYkcon k = 1, . . . , n, e poi si esegue un test sullunico campione Z1, . . . , ZnpervericareselasuamediaZpu` oessereconsideratanullaodiversadazero. Leipotesiperitestbilaterali(9.12)eunilaterali(9.13)sarannoallorarispettivamenteH0: Z= 0 , H1: Z ,= 0 (9.14)H0: Z 0 , H1: Z> 0 (9.15)e quindi si ricade sostanzialmente nei test studiati nella Sezione 9.2 con il particolarevalore 0= 0. Se le v.a. Zkpossono essere considerate (almeno approssimativamen-1229.3Testperilconfrontodellemediete) ^(, 2)eselavarianza2`enota,allorapostoZ=1nn

k=1ZknellipotesiH0lav.a.U0=n Z(9.16)`e Normale standard ^(0, 1). Viceversa se la varianza 2non `e notasi introducelavarianzacorrettaS2=1n 1n

k=1(Zk Z)2esiosservachenellipotesiH0lav.a.T0=n ZS(9.17)`e Student con n1 gradi di libert` a t(n1). A questo punto le procedure per i testsono le stesse della Sezione 9.2: per un dato livello , se la varianza `e nota le regionicritichedeitestbilateraleeunilateralesonorispettivamente[U0[ > 12 , U0> 1consignicativit` as= 2 [1 ([U0[)], s= 1 (U0) .Seinvecelavarianzanon`enotaleregioni critichedei testbilateraleeunilateralesonorispettivamente[T0[ > t12(n 1) , T0> t1(n 1) ,consignicativit` as= 2 [1 Fn1([T0[)], s= 1 Fn1(T0) ,doveFn1`elaFDdellaleggedi Studentt(n 1). Cos` adesempioper untestbilaterale di livello con varianza 2non nota si esegue un test di Student: si calcolail valoreempiricodellav.a. T0(9.17)elosi confrontaconil quantilet12(n 1)dellaStudentricavatodalleTavoleD.2;serisulta [T0[ > t12(n 1),siriutaH0;seinvecerisulta [T0[ t12(n 1)siaccettalipotesiH0. Glialtricasisitrattanoinmodoanalogo.123N.CufaroPetroni: StatisticaX Y Z X Y Z X Y Z80 85 5 70 82 12 78 70 -880 84 4 65 73 8 75 77 282 87 5 83 89 6 76 76 075 81 6 74 85 11 78 82 480 79 -1 81 86 5 77 83 674 85 11 68 72 4 75 80 580 87 7 69 74 5 72 80 872 78 6 71 77 6 71 81 1091 86 -5 70 75 5 75 76 188 80 -8 73 81 8 78 77 -1Tabella9.2: Pulsazionidin = 30pazientiprima(X)edopo(Y )lassunzionediunfarmaco.Esempio9.5. Si sperimenta un farmaco su un campione din = 30 pazienti rilevando ilnumero delle pulsazioni al minuto prima (X) e dopo (Y ) la somministrazione: i dati sonoriportati nella Tabella 9.2. Possiamo dire in base a questi valori, e ad un livello = 0.05,chelafrequenzadellepulsazioni `eaumentata? Osserviamoinnanzituttochesi trattaeettivamente di un campione accoppiato: infatti `e importante conservare la relazione frale coppie di valoriXeYrelative ad ogni singolo paziente. Ci viene richiesto di eseguireun test unilaterale destro con ipotesi (9.15), e senza conoscenza preventiva della varianzadi Z: passiamo quindi a calcolare media, varianza corretta e statistica di Student (9.17)per il campione delle dierenzeZ = Y Xriportato in Tabella:Z = 4.23 , S = 5.01 , T0 =ZSn = 4.63A questo punto dovremo paragonare il valore di T0con lopportuno quantile di Student:t0.95(29) = 1.70< 4.63 =T0per cui al livello = 0.05 il campione `e in regione critica, equindi possiamo dire che il farmaco ha prodotto un aumento della frequenza delle pulsa-zioni. La signicativit` a del test questa volta `e piuttosto buona: s = 1 Fn1(4.63) doveFn1(x) `elaFDdellalegget(n 1); questovalorenon `epresentesulleTavoleD.2mapu` o essere calcolato in altro modo ed `es = 0.00003. Possiamo poi calcolare la potenzadel test di livello = 0.05 supponendo ad esempio per semplicare la procedura chelipotesi alternativasi riducaaZ=2(cio`ecalcoliamolafunzionepotenzanellunicovaloreZ = 2 del parametro). Abbiamo gi` a visto che la regione critica del nostro test `eD = T0> t0.95(29) = 1.70enoidobbiamooracalcolarelapotenzacomeP(D)nellipotesi H1: Z= 2. SeH1`evera la v.a.T1 =Z ZSn =Z 25.01301249.3Testperilconfrontodellemediesegue una legge di Studentt(29), per cui la potenza `e(2) =P(D) = PT0> 1.70 = P_ZSn > 1.70_= P_Z ZSn > 1.70 ZSn_=P_Z 25.0130 > 1.70 25.0130_= PT1> 0.49 = 0.686Ancheil valoredi questaprobabilit` anon`edesumibiledalleTavoleD.2, edeveessereottenutousandoopportuni programmi di calcolo. Il valoredellapotenza(2)=0.686indica dunqueche se la mediaZ`e eettivamente diversa da 0 e vale 2,il test lo rivelacon probabilit` a del 68.6%. Pertanto seZ= 2 la probabilit` a di errore di seconda specievale1 0.686=0.314: unvalorenondel tuttotrascurabile. Lamanierapi` usemplicedi migliorarelapotenzadi untestdi livello`equelladi aumentareil numerondelleosservazioni. Mostreremooracome `epossibilestimareilvaloredi nche, aparit` adeglialtri dati, consente di avere una potenza del 95%. In pratica noi vogliamo determinarenin modo tale che per un dato, e perZ = 2 risultiPT0> t1(n 1) = P_ZSn > t1(n 1)_= 0.95 (9.18)Siccome la statisticaT1 =Z ZSnsegue una legge di Studentt(n 1) la (9.18) si riscrive comeP_Z ZSn > t1(n 1) ZnS_= 1 P_T1 t1(n 1) ZnS_= 0.95ovveroP_T1 t1(n 1) ZnS_= P_T1 t0.95(n 1) ZnS_= 0.05Questultimarelazione`eunaequazionenellincognitancheper`ononpu` oesserebanal-mente risolta andando a consultare le Tavole D.2 perche lincognita n compare anche nellalegget(n 1) diT1. Per trovare una soluzione approssimata, allora, si ricorda che pernabbastanza grande la legge t(n) `e ben approssimata dalla legge Normale standard ^(0, 1):potremo in pratica supporre cheT1 abbia legge ^(0, 1), e quindi avremo0.05 = 0.95 t0.95(n 1) ZnS 0.95 ZnSovvero in conclusionen 2S0.95ZSostituendoorail valoreempiricoS=5.01, il valoretabulato0.95=1.64eil valoreZ = 2 della nostra ipotesi alternativa si ottienen (5.01 1.64)2 68Gli elementi del campione devono quindi essere pi` u del doppio di quelli del nostro campioneiniziale per garantire una potenza adeguata ad un test di livello 0.05.125N.CufaroPetroni: Statistica9.3.2 CampioniindipendentiNel casodi campioni indipendenti connumerosit` arispettivenedmnonhaalcunsensostudiareilcampionedelledierenze. Inquestocasosupporremoche(almenoapprossimativamente)leXjeleYksianorispettivamente ^(X, 2X)e ^(Y, 2Y ),epartiremocalcolandoseparatamentelemediedeiduecampioniX=1nn

j=1Xj , Y=1mm

k=1Yk .Selevarianze2Xe2Ysononotesipu`odimostrarechelav.a.U=(X Y ) (X Y )_2Xn+2Ym`eNormalestandard ^(0, 1). Intalcasosiintroducelaquantit` aempiricaU0=X Y_2Xn+2Ym(9.19)einanalogiaconquantoottenutonellaSezione9.2sidenisconoleprocedureperitest. Nelcasobilateraleconipotesi(9.12)laregionecritica `e[U0[ > 12percuisicalcolail valoreempiricodellaU0(9.19)elosiconfrontaconil quantile12dellaNormalestandard: se [U0[ > 12,siriutaH0;seinvecerisulta [U0[ 12si accetta H0. Allo stesso modo nel caso unilaterale con ipotesi (9.13)la regionecritica `eU0> 1percui si calcolail valoreempiricodellaU0elosi confrontaconil quantile1dellaNormalestandard: seU0> 1,siriutaH0;seinvecerisultaU0 1siaccettaH0.Viceversase le varianze 2Xe 2Ynonsononote si introducelavarianzacombinataV2=1n + m2_n

j=1(Xj X)2+m

k=1(Yk Y )2_=(n 1)S2X+ (m1)S2Yn + m2(9.20)Si pu` o dimostrare che, se 2X= 2Y(o almeno sono approssimativamente uguali), V2`eunbuonstimatoredellavarianzacomune,eT=(X Y ) (X Y )V_1n+1m1269.3Testperilconf