Statistic A

1883
1 CAPITOLO I ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE 1.1. LA STATISTICA NELLA RICERCA AMBIENTALE E BIOLOGICA Come in tutta la ricerca scientifica sperimentale, anche nelle scienze ambientali e in quelle biologiche è indispensabile la conoscenza dei concetti e dei metodi statistici, sia per i problemi di gestione sia per quelli di indagine. Per pubblicare i risultati di una ricerca, tutte le riviste scientifiche richiedono che la presentazione dei dati e la loro elaborazione seguano criteri ritenuti validi universalmente. Il comportamento nella fase di raccolta dei dati, la loro descrizione, le analisi e infine il riepilogo sono in buona parte codificati, in modo dettagliato. Inviare ad una rivista uno studio o una relazione che denotino una conoscenza sommaria della statistica comporta generalmente una critica dei metodi seguiti, che può giungere fino al rifiuto delle conclusioni o almeno a una dichiarazione esplicita della loro ridotta attendibilità. Al ricerca può essere negata la dignità della pubblicazione. Una raccolta di dati non corretta, una loro presentazione inadeguata o un’analisi statistica non appropriata rendono impossibile la verifica dei risultati da parte di altri studiosi e il confronto con altre ricerche e analisi del settore. Per il progresso di qualsiasi disciplina sperimentale, una finalità importante di qualsiasi ricerca anche di piccole dimensioni, è la semplice possibilità di sommare le esperienze e confrontare i risultati con altre, effettuate in condizioni simili oppure volutamente differenti. Permette l’accumulo delle conoscenze, la verifica di teorie già proposte, la formulazione di nuove ipotesi. Al fine di facilitare ai lettori la corretta comprensione dei risultati, per pubblicare una ricerca le riviste internazionali e quelle di maggior prestigio richiedono tassativamente agli autori di seguire uno schema preciso che, in linea di massima, è fondato sullo sviluppo di quattro fasi. 1) Una introduzione, che presenti in modo accurato sia l'argomento affrontato, sia le finalità della ricerca, mediante citazione dei lavori scientifici pregressi e della letteratura specifica. 2) La descrizione di materiali e metodi, nella quale devono essere definiti: - (a) il tipo di scala utilizzato; - (b) le modalità del campionamento o di raccolta dei dati;

description

Uploaded from Google Docs

Transcript of Statistic A

1CAPITOLOIELEMENTI DI STATISTICADESCRITTIVAPERDISTRIBUZIONIUNIVARIATE1.1. LA STATISTICA NELLA RICERCA AMBIENTALE E BIOLOGICAComeintuttalaricercascientificasperimentale,anchenellescienzeambientalieinquellebiologiche indispensabile la conoscenza dei concetti e dei metodi statistici, sia per i problemi digestionesiaperquellidiindagine.Perpubblicareirisultatidiunaricerca,tuttelerivistescientificherichiedonochelapresentazionedeidatielaloroelaborazioneseguanocriteriritenuti validi universalmente.Ilcomportamentonellafasediraccoltadeidati,lalorodescrizione,leanalisieinfineilriepilogo sono in buona parte codificati, in modo dettagliato. Inviare ad una rivista uno studio ouna relazione che denotino una conoscenza sommaria della statistica comporta generalmente unacriticadeimetodiseguiti,chepugiungerefinoalrifiutodelleconclusionioalmenoaunadichiarazione esplicita della loro ridotta attendibilit. Al ricerca pu essere negata la dignit dellapubblicazione.Unaraccoltadidatinoncorretta,unaloropresentazioneinadeguataounanalisistatisticanonappropriatarendonoimpossibilelaverificadeirisultatidapartedialtristudiosieilconfrontoconaltrericercheeanalisidelsettore.Perilprogressodiqualsiasidisciplinasperimentale,unafinalitimportantediqualsiasiricercaanchedipiccoledimensioni,lasemplicepossibilitdisommareleesperienzeeconfrontareirisultaticonaltre,effettuateincondizioni simili oppure volutamente differenti. Permette laccumulo delle conoscenze, la verificadi teorie gi proposte, la formulazione di nuove ipotesi.Alfinedifacilitareailettorilacorrettacomprensionedeirisultati,perpubblicareunaricercaleriviste internazionali e quelle di maggior prestigio richiedono tassativamente agli autori di seguireuno schema preciso che, in linea di massima, fondato sullo sviluppo di quattro fasi.1)Unaintroduzione,chepresentiinmodoaccuratosial'argomentoaffrontato,sialefinalitdella ricerca, mediante citazione dei lavori scientifici pregressi e della letteratura specifica.2) La descrizione di materiali e metodi, nella quale devono essere definiti:-(a) il tipo di scala utilizzato;-(b) le modalit del campionamento o di raccolta dei dati;2-(c) le misure sintetiche delle caratteristiche pi importanti della distribuzione dei dati, comemediaevarianza(piraramentesimmetria,curtosiecoefficientedivariazione);spesso,soprattuttoperargomentinuovioquandosianostatipubblicatisolopochidati,prassirichiedereladistribuzionetabellarecompletaedettagliata;perrelazioninonacaratteredivulgativo,letabelleeledistribuzionidifrequenzesonodapreferireallerappresentazionigrafiche,cheraramentepermettonodirisalireaidatioriginari,indispensabiliperlaverificadei calcoli e quindi delle conclusioni raggiunte.3) I risultati, che devono comprendere espressamente la citazione dei test di inferenza utilizzati,allo scopo di permettere alla comunit scientifica di valutare se la loro scelta appropriata, cio sesono in rapporto corretto con-(a) le ipotesi che si intendono verificare,-(b) il tipo di scala con cui sono state misurate le variabili analizzate,-(c) le caratteristiche statistiche della distribuzione dei dati.4) La discussione, che deve riportare linterpretazione dei risultati ottenuti con i test applicati einfineeventualiconfronticonanalisigipubblicate.Linterpretazionedevenonsolocomprenderelanalisistatistica,maessereestesaalsignificatoecologico,ambientaleobiologicodeirisultatiottenuti.Nonsempreunrisultatostatisticamenterilevanteassumeancheunsignificatoimportantenelladisciplinaspecifica.Nederivaunaspettodiestremaimportanzaperlanalisistatistica:perimpostarecorrettamenteunaricerca,performulareipotesiscientificamente valide, per raccogliere e analizzare i dati, infine per interpretarne i risultati,non possibile scindere le analisi statistiche dalla loro interpretazione disciplinare.1.2. IL DISEGNO SPERIMENTALE, IL CAMPIONAMENTO E L'INFERENZAPercondurreinmodocorrettounaricercascientifica,cioperraccogliereuncampioneconunnumero sufficiente di dati, tenendo in considerazione sia le condizioni esistenti nella popolazione,sia la successiva applicazione dei test, occorre seguire alcuni passaggi metodologici, riassumibiliin 4 fasi:-il disegno sperimentale,-il campionamento,-la descrizione statistica,-la scelta dei test per linferenza.1 - Il disegno sperimentale necessario per scegliere e programmare le osservazioni in natura eleripetizioniinlaboratorio,infunzionedellaricercaedelleipotesiesplicative.Ginellaprimafasedellaricerca,chiamataconterminetecnicoappuntodisegnosperimentale(dallinglese3experimentaldesignetradottopicorrettamenteinitalianoconprogrammazionedellesperimento),occorreaverechiaralaformulazionedell'ipotesichesiintendeverificare.Raccogliereidatiprimadiaverchiaramenteespressolefinalitdellaricercaconducespessoadanalisi non adeguate e quindi a risultati poco attendibili.Conlaformulazionedellipotesi,sideverisponderealledomande:Leeventualidifferenzeriscontrate tra due o pi gruppi di dati, oppure di una serie di osservazioni con quanto atteso,possonoessereimputabiliafattoricausalispecificiosolamenteafattoricasualiignoti?Ledifferenzeriscontratesonogeneratedallanaturalevariabilitdellemisureedelmaterialeutilizzato oppure pi probabilmente esiste una causa specifica che le ha determinate?2-Ilcampionamentopermettediraccogliereidatiinfunzionedelloscopodellaricerca,rispettando le caratteristiche della popolazione o universo dei dati.Unodeiproblemifondamentalidellastatisticacomeraccoglieresolamenteunnumerolimitatodidati(permotivieconomici,ditempo,dioggettieffettivamentedisponibili,cioperlimitioggettivichequasisempreesistonoinqualsiasiricercasperimentale),maattraversolaloroanalisipervenireugualmenteaconclusionigenerali,chepossanoessereesteseatuttalapopolazione.3 - La descrizione delle caratteristiche statistiche dellinsieme dei dati raccolti deve permettere atuttidiverificaresial'adeguatezzadeldisegnosperimentaleedelcampionamento,sialacorrettezza delle analisi attuate e dei risultati ottenuti.4 - I test devono essere gi programmati nella fase del disegno sperimentale, poich da essi chedipendeiltipodicampionamento.Iltestunprocessologico-matematicocheportaallaconclusione di non poter respingere oppure di poter respingere l'ipotesi della casualit, medianteil calcolo di probabilit specifiche di commettere un errore con queste affermazioni.Lipotesicheilrisultatoottenutoconidatisperimentaliraccoltisiadovutosoloalcasochiamata ipotesi nulla e indicata con H0. Di norma, con essa si afferma che le differenze tra dueo pi gruppi, quelle tra un gruppo e il valore atteso oppure le tendenze riscontrate siano imputabiliessenzialmente al caso.Peresempio,confrontandoiltempodiguarigionetraduegruppidiammalatiaiqualisianostatisomministrati due farmaci differenti, con lipotesi nulla H0 si sostiene che il risultato ottenuto nondipendedaunaeffettivadifferenzatraidueprincipiattivi,macheessodovutoalcaso.SenellesperimentoilfarmacoArisultatomiglioredelfarmacoB,sesiaccettalipotesinullaimplicitamentesiaffermache,conunnuovoesperimentonellestessecondizioni,sipotrebbeottenere il risultato opposto.4Per giungere a queste conclusioni si deve ricorrere allinferenza, che pu essere definita come lacapacitditrarreconclusionigenerali(sullapopolazioneoduniverso)utilizzandosolounnumero limitato di dati variabili (campione).Il disegno sperimentale ed il campionamento sono le due fasi preliminari-sia alla raccolta dei dati in natura,-sia per una corretta impostazione degli esperimenti in laboratorio.Tuttavia,lapresentazionedidatticaelacorrettacomprensionediquestiargomentirichiedonoconcetticomplessiemetodologiesofisticate,nonsemprefacilinintuitivi.Perquestimotivi,ildisegnosperimentaleeilcampionamentosonosempretrattatinellafasefinalediuncorsodistatisticaapplicata,quandogistataraggiuntasufficientefamiliaritconlaterminologia,coniconcetti e i metodi fondamentali dellinferenza.Nellapprendimento e nelluso della statistica, il primo passo comprendere come solamente unacorrettaapplicazionedelcampionamentoeunasceltaappropriatadeitestpermettanodirispondere alla domanda inferenziale di verifica dell'ipotesi nulla. Con essa si pone il seguentequesito:"Nell'ipotesicheledifferenzefragruppidiosservazioniempirichesianodovuteafattoriesclusivamentecasuali,qualelaprobabilitchefratuttelealternativepossibilisipresentiproprio la situazione descritta dai dati raccolti o una ancora pi estrema?"Setaleprobabilitrisultaalta,convenzionalmenteugualeosuperioreal5%,siimputerannoledifferenze a fattori puramente casuali.Alcontrario,selaprobabilitrisultabassa,inferiorealvaloreprefissato,siaccettacomeverosimilecheledifferenzesianodovuteafattorinoncasuali,rientrantitraicriterichedistinguono i gruppi di dati.La procedura dellinferenza statistica semplice, nelle linee logiche generali. Tuttavia, le analisi ele conclusioni trovano complicazioni per lelevata variabilit dei dati, a motivo soprattutto ditre cause che, in ordine crescente dimportanza, sono:- gli errori di misurazione, generati da strumenti e da differenze nell'abilit dei ricercatori;-l'operaresucampioni,percuiidatiutilizzatiinunaricercanonsonomaiidenticiaquellirilevati in qualsiasi altra;-lapresenzadivarifattoricontingentididisturboche,comeiltempoelalocalit,possonoincidere diversamente sul fenomeno in osservazione, con intensit e direzioni ignote.5Pureseespressiinmodosintetico,questiconcettidefinisconoilcontenutodellastatisticamoderna:laraccolta,lapresentazioneelaelaborazionenumericadelleinformazioni,peragevolare l'analisi dei dati ed i processi decisionali.Inuncorsocompletodistatisticaapplicata,importanteavereinognimomentounavisionecomplessivadegliargomenti.Illoroelencoutileanchepercomprenderelediversepartiincuiviene distinta la statistica, nel percorso di apprendimento dei concetti e delle procedure.La statistica moderna pu essere distinta in tre parti: descrittiva, matematica, inferenziale.1-Lastatisticadescrittivaspiegacomeidatiraccoltidevonoessereriportatiintabella,rappresentatiingraficiesintetizzatiinindicimatematici,alloscopodiindividuarelecaratteristiche fondamentali del campione.2-Lastatisticamatematicapresentaledistribuzioniteorichesiapermisurediscretesiapermisurecontinue,alloscopodiillustrarnelecaratteristichefondamentali,lerelazionicheesistono tra esse, gli usi possibili;3-Linferenzastatistica,lapartenettamenteprevalentedelcorso,serveperlaverificadelleipotesi. Essa pu essere distinta in vari capitoli, in rapporto-allecaratteristichedeidati(sepermettonoomenoilricorsoalladistribuzionenormale:statistica parametricae non parametrica-al numero di variabili (se una, due o pi: statistica univariata, bivariata, multivariata).Laprimapartedellinferenza,disolitoaffrontatainuncorso,lastatisticaunivariataparametrica. Come argomenti, essa comprende il test t di Student e il test F di Fisher-Snedecoro analisi della varianza:-il primo serve sia per confrontare la media di un campione con una media attesa o teorica, siaper confrontare le medie di due campioni;-ilsecondorappresentalasuageneralizzazioneepermetteilconfrontosimultaneotrapimedie, considerando uno solo oppure pi fattori di variabilit.Appuntoperchfondatisulladistribuzionenormale,questitestrichiedonocondizionidivaliditrestrittive(discusseneicapitoliseguenti),chenonsempreidatiraccoltielamisurautilizzatapermettono di rispettare.Eunasituazionechesipresentaconfrequenzaelevatanellaricercaapplicata,acausadellaestrema variabilit dei dati e della presenza di valori anomali. In queste condizioni si ricorre allastatistica univariata non parametrica, che formata da una serie innumerevole di test.6Dinormaessisonoraggruppatisullabasedeicampioniaiqualivieneapplicata:testperuncampione,perduecampionidipendentieindipendenti,testperkcampionidipendentieindipendenti.Quandoperogniindividuoosituazionesiraccolgonoinformazionirelativeaduevariabili,possibileanalizzarelerelazionicheintercorronotraesse,mediantesialaregressioneelacorrelazione parametriche, sia la regressione e la correlazione non parametriche. Si parla allora distatistica bivariata parametrica e di statistica bivariata non parametrica.Quandoidatiraccoltisonorelativiapivariabili,sidevericorrereallastatisticamultivariata.Per molte analisi solamente parametrica. Pi recentemente sono stati proposti metodi, detti diricampionamento, che sono definiti test di statistica non parametrica.Inquestocorso,verrannopresentatiimetodirelativiallastatisticaunivariataebivariatasiaparametricachenonparametrica.Allafinesonopresentatiancheilbootstrapeiljackknife,testnon parametrici applicabili sia distribuzioni univariate, sia bivariate che multivariate.La serie completa degli argomenti ed il loro ordine sono riportati nella presentazione del corso.Questi concetti possonoessereschematizzatiinuna tabella,cheoffreilvantaggioconfrontarelefinalit dei tre tipi di statistica7I - STATISTICA DESCRITTIVAa)Come si presentano i dati in tabelle e grafici.b)Indici sintetici che descrivono la distribuzione dei dati:tendenza centrale, variabilit, forma.II STATISTICA MATEMATICACalcolo delle probabilit. Distribuzioni teoriche:binomiale, poissoniana, ipergeometrica, normale, III STATISTICA INFERENZIALE(dedurre leggi generali, disponendo di un campione di dati variabili)a)Ipotesiparametriche(sumedia,varianza,)eipotesifunzionali(sututtaladistribuzione).b)Distribuzioni univariate, bivariate, multivariate.c)Statistica parametrica e non parametrica.d)Test per uno, due e pi campioni.Lastatisticainferenzialepermetteditrarreconclusionisututtiidatidiunapopolazione,quando se ne conoscono solamente pochi, raggruppati in uno o pi campioni.Sisuppongadivolerconoscerelavelocitd'accrescimentosomaticodiunadeterminataspecieanimale o vegetale. E ovvio che non possibile rintracciare e misurare tutti gli individui di quellaspecie,lapopolazioneoduniverso;senonaltroperiltempoelerisorsenecessari,oltrealsuocontinuorinnovamentopernasciteemorti.Epossibilesolamenteutilizzarealcuneunit,unafrazione limitatissima della popolazione: in termini tecnici, un campione.Quandopoisitrattassedimisurarerapportitraorganidiunaspecieanimale,ovviochenonpossibile sezionare tutti gli individui della specie. Nello stesso modo, per contare i globuli rossi oquelli bianchi di una persona, non possibile estrarre tutto il sangue per un conteggio totale, ma sieffettua un prelievo limitato a pochi centimetri cubici.8LA PROCEDURA PER UNTEST DINFERENZADal Campione variabile allUniversoLa logica o filosofia scientifica per la scoperta delle leggi della naturaI IPOTESIIpotesi nulla, ipotesi alternativaII - RACCOLTA DEI DATITipo di scala; caratteristiche della distribuzione dei datiIII - SCELTA DEL TESTSulla base dell'ipotesi, del tipo di scala e delle caratteristiche dei datiIV - RISULTATO DEL TEST- PROBABILITA'Probabilit di ottenere quel risultato, nella condizione espressa dall'ipotesi nullaV DECISIONE - SCELTA TRA LE DUE IPOTESIProbabilit VI ANALISI DEL TEST E DEI DATI PER UN NUOVO ESPERIMENTOPotenza a posteriori e a priori, probabilit Tuttavialeconclusioninondevonoesserelimitateaipochi(oanchemolti)casirealmenteraccolti,misuratiedanalizzati;madevonoesseregenerali,esteseatuttigliindividuidellaspecie o a tutto lorganismo.Ricoprono effettivo interesse non le conclusioni che restano limitate al caso del campione, aidatiutilizzati,maquellechesonoesteseatuttalapopolazioneouniverso.Soloinquestomodo,laricercarivesteunaimportanzageneraleecontribuisceallacostruzionediteoriescientifiche, di modelli o semplicemente di ipotesi che possono essere universalmente validi.Unacondizioneessenzialeepreliminareallusodeimetodidistatisticainferenzialecheilcampionesiacorretto,chenonriportiinmododistortoodalteratolafrequenzadellecaratteristiche presenti nella popolazione.Loschemaprecedenteelencaivaripassaggilogicichesononecessari.Nellosvolgimentodelprogramma, saranno descritti dettagliatamente in tutte le loro fasi.91.3. TIPI DI DATI E SCALE DI MISURAZIONENellanalisistatistica,occorreporresempremoltaattenzioneallecaratteristichedeidati.Gilafasedellesperimentocheconduceallaraccoltadelleinformazioniunpuntofondamentale,poich da essa dipendono sia i metodi di descrizione, sia i test da applicare.Schematicamente, esistono due tipi di variabili casuali, alle quali sono associati due tipi di dati:le variabili qualitative e le variabili quantitative.Le variabili qualitative o categoriali sono quantificate con conteggi, ossia con numeri interi ediscreti.Adesempio,pervalutareglieffettidiuntossicopossibilecontarequantecaviemuoionoosopravvivono;conunfarmaco,quantipazientiguarisconoorestanoammalati,entrountempoprefissato;conesperimentisulleleggidiMendel,quantepiantehannofiorirossiobianchi.Levariabiliquantitativerichiedonorispostenumeriche,espressesuunascalacontinua.Adesempio,perunanalisideldimorfismoanimale,dopolaseparazioneinmaschiefemmine,sipossono misurare il peso e laltezza di ogni individuo.Idatichesiraccolgonoperanalisistatistichepossonoquindiesserediscretiocontinui.Questasuddivisione,ormaistoricanellapresentazioneedelaborazionedeidati,stataresapichiaraefunzionaledallaclassificazionedellescaledimisurazionepropostadallopsicologoS.S.Stevensnel1946,(vedilarticoloOnthetheoryofscalesofmeasurement,pubblicatosuScience,vol.103,pp.:677-680).Taleclassificazionestataaggiornatanel1951conleoperazionistatisticheammissibili e in seguito divulgata da S. Siegel, nel suo manuale "Statistica non parametrica"del1956.UnapresentazioneampiaedettagliatapuesseretrovatapurenellultimaedizionedeltestodiS.SiegeleN.J.Castellandel1988(NonparametricStatisticsfortheBehavioralSciences, 2nd ed., Mc Graw Hill, New York), tradotto anche in italiano.Lemisurepossonoessereraggruppatein4tipidiscale,chegodonodiproprietformalidifferenti; di conseguenza, esse ammettono operazioni differenti. Come per tutte le discipline, unascala di misurazione dei fenomeni biologici ed ambientali pu essere:1) nominale o classificatoria;2) ordinale o per ranghi;3) ad intervalli;4) di rapporti.1.3.1.Lascalanominaleoclassificatoriaillivellopibassodimisurazione.Eutilizzataquandoirisultatipossonoessereclassificatioraggruppatiincategoriequalitative,detteanche10nominali ed eventualmente identificate con simboli. I caratteri nominali, detti anche sconnessi,costituiscono variabili le cui modalit o attributi non assumono alcun ordine precostituito. In unapopolazioneanimalesipossonodistingueregliindividuiinmaschiefemmine,contandoquantiappartengono ai due gruppi; con una classificazione a pi voci, possono essere suddivisi e contatisecondo la loro specie.Nellascalanominaleoqualitativa,esisteunasolarelazione,quelladiidentit:gliindividuiattribuiti a classi diverse sono tra loro differenti, mentre tutti quelli della stessa classe sonotra loro equivalenti, rispetto alla propriet utilizzata nella classificazione.Uncasoparticolarequellodeicaratteridicotomicichepossonoassumeresoloduemodalit,spesso indicate in modo convenzionale con 0 e 1 oppure + (pi) e (meno).L'attribuzionedinumeriperidentificarecategorienominali,comeavvieneperindividuareigiocatorineigiochidisquadra,solamenteunartificiochenonpucertamenteautorizzareadelaborarequeinumericomesefosseroreali,adesempiocalcolandonelamedia.Quandoperlaclassificazionedeigruppialpostodinomivengonousatinumeri,siutilizzasololafunzionediidentificazione degli elementi numerici come se fossero simboli; ma con tale trasformazione nonsi determina una informazione differente dalla precedente o ad essa aggiuntiva.Loperazione ammessa il conteggio degli individui o dei dati presenti in ogni categoria.Iquesitistatisticichepossonoessereposticorrettamenteriguardanolefrequenze,siaassoluteche relative.Sonopossibiliconfrontitrafrequenzeosservate(es.:"Unaclassesignificativamentepinumerosadellaltra?Levarieclassihannotuttelostessonumerodiindividui,escludendolevariazioni casuali?") oppure tra le frequenze osservate e le rispettive frequenze attese sulla base dileggi biologiche, ipotesi od altro (es.: "I risultati ottenuti da un esperimento sulle leggi di Mendelsono in accordo con la sua distribuzione teorica?").1.3.2.La scala ordinale o per ranghi rappresenta una misurazione che contiene una quantit diinformazioneimmediatamentesuperioreaquellanominale;essaassumemodalitlogicamentesequenziali, non importa se in ordine crescente o decrescente.Allaproprietprecedentediequivalenzatragliindividuidellastessaclasse,siaggiungeunagraduazione tra le classi o tra individui di classi differenti.Conlaprecedentescalanominale,sihalasolainformazionechegliindividuiappartenentiagruppidifferentisonotralorodiversi,manonpossibilestabilireunordine.Conlascalaperranghi, le differenti classi possono essere ordinate sulla base dellintensit del fenomeno. (es.: Sisupponga che il risultato di un reagente sia di colorare in verde una serie di provette, secondo laquantitdisostanzacontenuta.Epossibilemettereinordineleprovettesecondol'intensitdelcolore,peravereunastimaapprossimatadellaquantitdisostanzacontenuta.Sesiconfrontano11tre o pi provette con intensit di colore differente, facile stabilirne l'ordine; rimane impossibilemisurare ad occhio la quantit di colore di ognuna e la differenza esistente tra esse).Questa misura ha un limite fondamentale. In una scala ordinale, non possibile quantificare ledifferenze di intensit tra le osservazioni.Alcunerisposte,apparentementedefinitealivelloqualitativoonominale,inrealtpossonocontenereunascalaordinaleodirango,seppureconmolteripetizioni.Eilcasodellasuddivisione in giovane, adulto ed anziano per l'et; oppure della classificazione in insufficiente,sufficiente, discreto, buono ed ottimo in valutazioni di merito.Forniscono linformazione di una scala ordinale anche- misure che sono rappresentate con simboli, come --,-,=,+,++.- raggruppamenti convenzionali o soggettiviin classi di frequenza variabili come0,1-2,3-10,11-50, 51-100,101-1.000,>1.000Restalimpossibilitdivalutarequantosialadistanzatrainsufficienteesufficiente;oppureseessa sia inferiore o superiore alla distanza tra buono ed ottimo.La scala ordinale o per ranghi pertanto una scala monotonica. Alle variabili cos misurate possibileapplicareunaserieditestnonparametrici;manonquelliparametrici.Inquesticasi,nonsarebbepossibileutilizzarequeitestchefannoriferimentoalladistribuzionenormale,icuiparametriessenzialisonolamediaelavarianza,poichnonsipossonodefinireledistanzetraivalori.Tuttavia questa indicazione di massima sulla utilizzazione della statistica non parametrica spessosuperatadall'osservazionechevariabilidiscreteonominalitendonoadistribuirsiinmodoapprossimativamente normale, quando il numero di dati sufficientemente elevato. Per coloro chesono nella fase iniziale delle applicazioni statistiche, permane sempre molta incertezza sulla sceltadeitestpiappropriati;infattipermaneunampiavarietdiopinionisuquandoilnumerodiosservazioni sia sufficientemente elevato, per ottenere una distribuzione normale. Nel seguito delcorso,largomentosardiscussoinmoltesituazionireali,achiarimentodeicriteridisceltadeitest.1.3.3.Lascalaadintervalliaggiungelaproprietdimisurareledistanzeodifferenzetratutte le coppie di valori. La scala di intervalli si fonda su una misura oggettiva e costante, anchese il punto di origine e l'unit di misura sono arbitrari. Esempi classici di scale ad intervalli sono latemperatura(misurataingradiCelsiusoFahrenheit,manonKelvin)ediltempo(misuratosecondocalendaridifferenti).Valoriditemperatura,oltreapoteresserefacilmenteordinatisecondolintensitdelfenomeno,godonodellaproprietcheledifferenzetralorosonodirettamenteconfrontabiliequantificabili;ledatediqualsiasicalendario,nonimportase12gregoriano,islamico,ebraicoocinese,possonoesseretraloroordinatedallapianticaaquellapi recente e le differenze temporali sono misurate con precisione oggettiva.Ma la scala ad intervalli ha un limite, non gode di un'altra propriet importante nella elaborazionestatistica dei dati, quella del rapporto tra coppie di misureAdesempio,unatemperaturadi80gradiCelsiusnonildoppiodiunadi40gradi.Seunapersona ponesse la mano destra in una bacinella con acqua a 80 gradi e la mano sinistra in unaltraconacquaa10gradi,nondirebbecertamentechelaprimascotta8voltepidellaseconda,masolo che la prima molto calda e la seconda fredda.In una scala ad intervalli, solo le differenze tra i valori sono quantit continue e isomorfe allastrutturadell'aritmetica.Soloperledifferenzesonopermessetutteleoperazioni:possonoessere tra loro sommate, elevate a potenza oppure divise, determinando le quantit che stanno allabase della statistica parametrica.Daunascaladintervallipossibilescendereadunascaladiranghi(es.:utilizzandosololinformazione dellordine dei valori) oppure ad una scala nominale (es.: suddividendo le misurein alte e basse, sopra o sotto un valore prefissato). Pertanto, la scala dintervalli gode anche dellepropriet definite per le due scale precedenti.Nellapresentazionedeitestnonparametriciverrannodiscusselesituazioniincui,avendodati misurati su scale dintervalli o di rapporti, conveniente scendere nel tipo di scala seppurecon una perdita dinformazione.1.3.4.Lascaladirapportihailvantaggiodiavereunoriginereale.Sonotipichescaledirapportil'altezza,ladistanza,lavelocit,l'et,ilpeso,ilreddito,latemperaturaingradiKelvin;pi in generale, tutte quelle misure in cui 0 (zero) significa quantit nulla.Nonsololedifferenze,maglistessivaloripossonoesseremoltiplicatiodivisiperquantitcostanti, senza che l'informazione di maggiore importanza, il rapporto tra essi, ne risulti alterata.Allevariabilimisurateconunascaladirapporti,iltipodimisurazionepisofisticatoecompleto,puessereapplicatoqualsiasiteststatistico.Possonoessereutilizzatianchelamediageometrica ed il coefficiente di variazione, i quali richiedono che il punto 0 (zero) sia reale e nonconvenzionale.Pureconunascaladirapportipossibilescenderenellascaladimisurazione,trasformandolainuna scala di rango o addirittura qualitativa. Ovviamente, si ha una perdita ancor pi rilevante dellaquantitdinformazione,cheessafornisce;diconseguenza,rappresentaunoperazionechedeveessere evitata, quando non imposta da altre condizioni dellanalisi statistica o dalle caratteristichedella distribuzione dei dati.Riassumendo i concetti fondamentali esposti,- nella scala nominale, esistono solo relazioni di equivalenza;13- in quella ordinale, alla precedente si aggiungono relazioni di minore o maggiore di;- in quella ad intervalli alle due precedenti si aggiunge la relazione di rapporto tra ogni coppiadintervalli;- nella scala di rapporti si ha anche la quarta relazione di rapporto conosciuto tra ogni coppia divalori.Come sar pi volte discusso nei prossimi capitoli, anche nella ricerca e nella gestione ambientalioccorreporreestremaattenzionealrealesignificatodaattribuireaivalorinumericichevengonoutilizzati.Sipossonoaverenumericheapparentementehannolestessecaratteristiche,macheinrealtrichiedonoelaborazionidiverseedimpongonoilricorsoatestdifferenti,perrispondereaimedesimiquesiti.Peresempio,igrammidiunadeterminatasostanzainquinantescioltainunlitrodacqua,lapercentualediquestasostanzasulpesocomplessivo,ilpunteggiodellaqualitdellacquadeterminatadallapresenzadiquellasostanzasonomisurecheutilizzanoscale diverse.-Nel primo caso, si ha una classica scala di rapporti ed possibile usare test parametrici, se ladistribuzione dei dati normale;-nelsecondocaso,possibileutilizzarelestesseprocedurestatisticheeglistessitestparametrici, solamente dopo apposita trasformazione dei valori;-nelterzo,sihaunascaladiranghi,poichlarealeinformazionefornitadaquestaseriedipunteggi solo quella di una graduatoria della qualit, nella quale non hanno reale significaton i rapporti n le differenze tra loro.1.4. CLASSIFICAZIONE IN TABELLEUn insieme di misure detto serie statistica o serie dei dati. Quando la serie non ordinata, sihauninsiemedisordinatodinumerichenonevidenzialecaratteristichefondamentalidelfenomeno.Una sua prima ed elementare elaborazione pu essere una distribuzione ordinata di tutti i valori, inmodo crescente o decrescente, detta seriazione.Ilvaloreminimoeilvaloremassimoinsiemepermettonodiindividuareimmediatamenteilcampo (od intervallo) di variazione.Successivamente,laseriepuessereraggruppatainclassi,contandoquantivaloriodunitstatistiche appartengono ad ogni gruppo o categoria.Siottieneunadistribuzionedifrequenzaodiintensit,dettaanchesemplicementedistribuzione.Comeprimaapplicazione,utileconsiderareuncasosemplice:unavariabilediscretaottenutada un conteggio del numero di foglie, germogliate su 45 rami di lunghezza uguale.14Tabella 1. Numero di foglie contate su 45 rami.5 6 3 4 7 2 3 2 3 2 6 4 3 9 32 0 3 3 4 6 5 4 2 3 6 7 3 4 25 1 3 4 3 7 0 2 1 3 1 5 0 4 5Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi:- sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9),-contando quante volte compare ogni modalit di espressione (cio quanti sono i rami con unnumero di foglie uguali).Queste informazioni di norma sono presentate in una tabella impostata come la seguente:Tabella 2. Distribuzione di frequenze assolute e relative delle foglie in 45 rami.Classe x 0123456789freq.assoluta n 337 12754301freq.relativa f 0,07 0,07 0,15 0,27 0,15 0,11 0,09 0,07 0,00 0,02freq. cumulata 0,07 0,14 0,29 0,56 0,71 0,82 0,91 0,98 0,98 1,00in cui:-la classe una modalit di espressione (in questo caso un valore o conteggio);-la frequenza assoluta della classe il numero di volte con la quale compare ogni valore;-lafrequenza relativa della classe la sua frequenza assoluta divisa per il numero totale;-lafrequenzacumulatadiunaclasse(chepuesserestimataconquelleassolutee/oconquellerelative)lasommadituttelefrequenzedelleclassiminoriconquelladellaclassestessa.Latrasformazionedafrequenzaassolutaafrequenzarelativarisultautilequandosivoglionoconfrontare due o pi distribuzioni, che hanno un differente numero complessivo di osservazioni.La frequenza cumulata offre informazioni importanti quando si intende stimare il numero totale diosservazioni inferiore (o superiore) ad un valore prefissato (ad es.: il 71% dei rami ha meno di 5foglie; il 56% ha un massimo di 3 foglie).15La distribuzione dei dati e la distribuzione delle frequenze cumulate forniscono informazioni nondissimili,essendopossibilepassareconfacilitdallunaallaltra.Sonodiversenellaloroforma,come si vedr con maggiore evidenza nelle rappresentazioni grafiche. La prima ha una forma acampana,lasecondaunaformaaS,ditipoasintotico;siprestanoadanalisidifferentielascelta fatta sulla base del loro uso statistico.Ladistribuzionedifrequenzaoffreunaletturarapidadellecaratteristichepiimportantidella serie di dati. Nella tabella precedente, il ramo tipico ha 3 foglie; se dovessimo sintetizzareconunsolovaloreilnumerodifogliepresentisuiramiraccoltidiremmo3,cherappresentalatendenza centrale. Altra caratteristica importante il numero minimo e il numero massimo, 0 e 9,cheinsiemefornisconoilcampodivariazione,unaindicazionedellavariabilitodispersione.Ladistribuzionedelnumerodifoglietendeaddiminuireinmodosimileallontanandosida3,seppuremantengafrequenzepialtenelleclassiconunnumeromaggioredifoglie:sonoindicazionisullaformadelladistribuzione,cheinquestoesempiononsimmetrica(maasimmetrica) rispetto alla tendenza centrale, a causa di un eccesso dei valori pi alti.Nellacostruzioneditabellesintetiche(comelatabella2rispettoalla1)unodeiproblemipirilevanti quante classi di frequenza costruire. La scelta dipende strettamente dal numero totaleNdi osservazioni e, in misura minore, dalla variabilit dei dati.Se,inriferimentoalladimostrazioneprecedente,idatifosserostatiinnumeroinferioreai45presentati(adesempioi15valoridellaprimariga),ilcampodivariazionesarebbestatopiridotto (non pi da 0 a 9, ma da 2 a 9). Le classi non sarebbero state 10 come prima, ma solamente8. Tuttavia, come si pu osservare dai dati, 8 classi per 15 osservazioni sarebbero ugualmente unnumero troppo alto, per riuscire ad evidenziare e rappresentare in modo corretto le caratteristicheprincipali e la forma reale della distribuzione.Ledistribuzionidifrequenzatendonoamostrareladistribuzionerealedelfenomenosoloquando possibile utilizzare un numero sufficientemente elevato di osservazioni.Lesperienzahainsegnatocheilnumerodiclassiabitualmentevariadaunminimodi4-5(con N = 10-15) ad un massimo di 15-20 (con N > 100), in funzione del numero complessivodi osservazioni.Unnumerotroppobassodiclassi,raggruppandoeccessivamenteidati,determinaunaperditadiinformazionesullecaratteristichedelladistribuzioneelarendenonsignificativa;intuitivocheunaoduesoleclassideterminanolimpossibilitdievidenziarequalunquecaratteristicadelladistribuzione. Inversamente, ma con un risultato finale simile, un numero troppo elevato di classidisperde i valori e non rende manifesta la forma della distribuzione.16Per stimare in modo oggettivo il numero di classi, sono stati proposti vari metodi; tra essi utilericordarne due:1-quellodiH.Sturgeschenel1926,sullabasedelnumerodiosservazioniN,haindicatoilnumero ottimale di classi CconC N = + 110310log ( )2-quellodiD.Scottchenel1979hadeterminatolampiezzaottimalehdelleclassi(dallaquale ovviamente dipende direttamente anche il numero di classi C), mediante la relazioneNSh=5 , 3 dove-S la deviazione standard, che sar presentata pi avantitra le misure di variabilit dei dati.Nella costruzione di distribuzioni di frequenza, non strettamente obbligatorio utilizzare intervalliuguali, anche se prassi consolidata per una lettura pi semplice. Nel caso di classi di ampiezzadiversa,larappresentazionegraficaedilcalcolodeiparametrifondamentaliesigonoalcuneavvertenze, non sempre intuitive (di seguito presentate).Nelcasodiunavariabilecontinua,ilraggruppamentoinclassirichiedealcuniaccorgimentiulterioririspettoaquelliutilizzatiperunavariabilediscreta.Sisuppongachesiastatamisuratalaltezza in cm. di 40 giovani piante della stessa specie, arrotondata allunit per semplificazione.Tabella 3. Altezza in cm. di 40 giovani piante.107 83 100 128 143 127 117 125 64 11998 111 119 130 170 143 156 126 113 127130 120 108 95 192 124 129 143 198 131163 152 104 119 161 178 135 146 158 17617E evidente come non sia conveniente fare una classe per ogni cm., in analogia a quanto fatto coni dati della tabella 1. In questo caso, il numero di modalit sarebbe nettamente superiore al numerodiosservazioni,ancheseilcampioneavesseunnumerodiosservazionidoppiootriplo.Diconseguenza,siimponelanecessitdiunraggruppamentoinclassi,checomprendanopimodalit di espressione.Unavoltaindividuatoilvaloreminimoequellomassimo(64e198),sistabiliscel'intervallodivariazione (198 - 64 = 134). Nella formazione delle classi, il limite inferiore della prima classe edillimitesuperioredellultimaclassenondevonoesserenecessariamenteivaloriosservati,malidevonoovviamentecomprendere.Equindipossibilecostruireuncampodivariazione,adesempio di 140 cm. (sempre pi ampio di quello calcolato), partendo da cm. 60 e arrivando a cm.199 compresi. Sulla base del numero di dati (40), si decide il numero di classi. Nel caso specifico,potrebbero essere 7 classi, con unampiezza di 20 cm. ognuna.Enecessariodefinireconprecisioneilvaloreminimoequellomassimodiogniclasse,ondeevitareincertezzenell'attribuzionediunsingolodatotradueclassicontigue.Conidatidellesempio,leclassipossonoessere60-79laprima,80-99laseconda,100-119laterzaecosvia fino a 180-199 per lultima.E da evitare la suddivisioni in classi come 60-80, 80-100, 100-120, Poich la scala continua, i cm. riportati devono essere intesi con almeno 2 cifre decimali, per cuinellaclasse60-79ilprimonumerodeveessereintesocome60,00cm.e79come79,99;nellostesso modo la classe 180-199 deve essere intesa tra i cm. 180,00 e 199,99.Nonostante le indicazioni di massima presentate, la determinazione dei valori estremi, del numerodi classi e dell'intervallo di ogni classe ampiamente soggettiva. Nella costruzione di una tabella,lasceltasoggettivadiunaparticolareserieodiun'altraputradursiinunarappresentazione completamente diversa degli stessi dati. Per piccoli campioni, l'alterazione eledifferenzepossonoesseresensibili;maall'aumentaredelnumerodiosservazioni,glieffettidelle scelte soggettive, quando non siano estreme, incidono sempre meno sulla concentrazione deivalori e sulla forma della distribuzione.Tralealtreavvertenzeimportanti,daricordarechelaclasseinizialeequellaterminalenondevono essere classi aperte (come < 80 quella iniziale e 180 quella finale). Con classi estremeaperte,siperdel'informazionedellorovalore minimoomassimoequindidelvalorecentralediquellaclasse;laconseguenzalaperditadiundatoindispensabile,percalcolarelamediadellaclasse e quella totale, nonch tutti gli altri parametri da essa derivati. Come verr successivamentechiarito, con tabelle in cui le classi estreme sono aperte viene impedita o resa soggettiva anche lalororappresentazionegrafica,perlaqualeindispensabileconoscereconprecisioneilvaloreiniziale e quello terminale.18Idatidellatabella3possonoessereriportatiinmodopischematicoepicomprensibile,comenella seguente tabella 4.Tabella 4. Distribuzione di frequenza assoluta e relativa (in %) dell'altezza di 40 giovani piante.ClasseiX60-79 80-99 100-19 120-39 140-59 160-79 180-99Freq. Assolutain1 3 10 12 7 5 2Freq. Relativa%if2,5 7,5 25,0 30,0 17,5 12,5 5,0Freq. Cumulata --- 2,5 10,0 35,0 65,0 82,5 95,0 100,0Rispetto all'elenco grezzo dei dati, la tabella di distribuzione delle frequenze fornisce in modo pichiaro le indicazioni elementari contenute, in particolare la loro-posizione o dimensione (gi chiamata anche tendenza centrale) e-la variabilit o dispersione.Per evidenziare sia queste che altre caratteristiche della distribuzione dei dati raccolti, sovente diaiuto una rappresentazione grafica che mostra in modo sintetico soprattutto- la forma, come la simmetria e la curtosi, quando si tratti di grandi gruppi di dati.Ritornando al problema della rappresentazione tabellare dei dati riportati in tabella 3, secondo leindicazioni di Sturges il numero di classi C avrebbe dovuto essereC N = + = + = 1103110340 6 3410 10log ( ) log ( ) ,uguale a 6,34dal quale si deduce anche unampiezza h = 1406 3422,circa 22 centimetri.Secondo le indicazioni di Scott, lampiezza h delle classi avrebbe dovuto esserehsN===3 5 3 5 28 6186 324615 837, , ,,,uguale a circa 16,19dalla quale si deduce un numero di classi C = 14015 8378 84,, =uguale a 9 (8,84).Ovviamente, il numero di classi calcolato (C = 8,84) deve essere arrotondato allunit.Secondo i due metodi proposti, con i dati della tabella 3 il numero di classi pu ragionevolmentevariare da 6 a 9; si evidenzia la correttezza della scelta di fare 7 classi, suggerita dalla semplicitdi formare classi con unampiezza di 20 cm.La rappresentazione dei dati in una tabella di frequenza offre i vantaggi descritti; ma soffre anchedi alcune controindicazioni. Lo svantaggio maggiore deriva dal non poter conoscere come sonodistribuiti i dati entro ogni classe.Perstimareiparametridelladistribuzione(media,varianza,simmetria,curtosi),vienequindiusato il valore centrale di ogni classe, nellipotesi che in quellintervallo i dati siano distribuitiinmodouniforme.Rispettoalladistribuzionedellesingoleosservazioni,questaproceduracomportaunapprossimazione,poichtaleipotesioperativaimplicitanonvera(ilconcettosar ripreso e dimostrato in paragrafi successivi).1.5. RAPPRESENTAZIONI GRAFICHE DI DISTRIBUZIONI UNIVARIATELerappresentazionigraficheservonoperevidenziareinmodosemplice,acolpodocchio,lequattrocaratteristichefondamentalidiunadistribuzionedifrequenza(tendenzacentrale,variabilit, simmetria e curtosi). Insieme con i vantaggi di fornire una visione sintetica e di esseredifacilelettura,hannoperlinconvenientefondamentaledimancarediprecisioneesoprattutto di essere soggettive, quindi di permettere letture diverse degli stessi dati. Pertanto, aifinidiunaelaborazionemedianteitestediunconfrontodettagliatodeiparametri,semprepreferibile la tabella, che riporta i dati esatti.Nellintrodurre le rappresentazioni grafiche, seppure nel caso specifico parli di diagrammi (comequellodidispersionecheinquestotesto presentatonelcapitolodellaregressione),SirRonaldA. Fisher nel suo volume del 1958 Statistical Methods for Research Workers, (13th ed. Oliverand Boyd, Edinburgh, 356 p.) espone con chiarezza i motivi che devono spingere il ricercatore acostruire rappresentazioni grafiche dei suoi dati:-un esame preliminare delle caratteristiche della distribuzione,-un suggerimento per il test da scegliere, adeguato appunto ai dati raccolti,-un aiuto alla comprensione delle conclusioni,-senza per questo essere un test, ma solo una descrizione visiva.20Thepreliminaryexaminationofmostdataisfacilitedbyuseofdiagrams.Diagramsprovenothing,butbringoutstandingfeaturesreadilytotheeye;theyarethereforenosubstituteforsuch critical tests as may be applied to the data, but are valuable in suggesting such tests, and inexplaining the conclusions founded upon them.Le rappresentazioni grafiche proposte sono numerose. Esse debbono essere scelte in rapporto altipo di dati e quindi alla scala utilizzata.Perdatiquantitativi,riferitiavariabilicontinuemisuratesuscaleadintervalliodirapporti,dinormasiricorreaistogrammiopoligoni.Gliistogrammisonograficiabarreverticali(perquesto detti anche diagrammi a rettangoli accostati).00.050.10.150.20.250.30 1 2 3 4 5 6 7 8 9 100246810121460 80 100 120 140 160 180Figura 1. Istogramma dei dati di Tab. 2 Figura 2. Istogramma dei dati di Tab. 4 ( frequenze relative) (Valore iniz. =60; Valore finale =199; Passo =20; Classi=7 )Lemisuredellavariabilecasualesonoriportatelungol'asseorizzontale,mentrel'asseverticalerappresentailnumeroassoluto,oppurelafrequenzarelativaoquellapercentuale,concuicompaiono i valori di ogni classe.Ilatideirettangolisonocostruitiincorrispondenzadegliestremidiciascunaclasse.Unistogrammadeveessereintesocomeunarappresentazioneareale:sonolesuperficideivarirettangoli che devono essere proporzionali alle frequenze corrispondenti. Quando le classi hannolastessaampiezza,lebasideirettangolisonouguali;diconseguenza,leloroaltezzerisultanoproporzionaliallefrequenzecherappresentano.Soloquandolebasisonouguali,indifferenteragionareinterminidialtezzeodiareediognirettangolo;maseleampiezzedelleclassisonodiverse, bisogna ricordare il concetto generale che le frequenze sono rappresentate dalle superficiequindinecessariorenderel'altezzaproporzionale.Taleproporzionefacilmenteottenuta21dividendo il numero di osservazioni per il numero di classi contenute nella base, prima di riportarela frequenza sull'asse verticale.Per esempio, con i dati della precedente figura 2, si supponga di avere raggruppato in una classesola le frequenze della classe da 80 a 99 e da 100 a 119, per un totaledi 13 osservazioni (3 + 10)0246810121460 80 100 120 140 160 18002468101260 80 100 120 140 160 180Figura 3.Istogrammi dei dati di Tab. 4 Somma errata di due classi : 2a e 3aSomma corretta di due classi : 2a e 3a della figura precedentedella figura precedenteNella figura 3, tale somma rappresentata nel primo caso con un grafico errato e nel secondo casonella sua versione corretta, che richiede il valore medio delle classi raggruppate.Un'altraavvertenzaimportantenellacostruzionedegliistogrammichel'asseverticale,cheriportalefrequenze,devemostrarelozerorealeod"origine",ondenondistorcereotravisarelecaratteristiche dei dati ed i rapporti tra essi. In relazione alle caratteristiche della distribuzione deidati,lalarghezzaobasedelrettangolononhaalcunsignificatoepuesseresceltaapiacimento; dipende solamente dal numero di classi che sivoglionorappresentaresullassedelleascisse.Anche il rapporto tra laltezza dellasse delle ordinate e la lunghezza delle ascisse pu esserescelto a piacimento e non ha alcun significato statistico. Tuttavia, sulla prassi di costruire figuregraficamenteeleganti,ledimensioniutilizzatedaiprogrammiinformaticiseguonounoschemacheormaiugualepertutti.Equasisemprepraticatounaccorgimentochehaunafinalitesclusivamente estetica: per costruire una relazione armonica tra gli elementi del grafico, usocorrente che tutto il disegno dellistogramma debba essere contenuto in un rettangolo virtuale, incui laltezza sia i 2/3 della base o, come riportano altri testi per fornire lo stesso concetto, la base22sia1,5voltelaltezza.(Gliesempiriportatisonostaticostruiticonprogrammiinformaticiagrande diffusione internazionale, che seguono questa regola estetica).La rappresentazione grafica permette di valutare con immediatezza se il numero di classi costruiteadeguatoallecaratteristichedelladistribuzioneoriginaledeidati.Conpocheeccezioni,levariabiliquantitativedifenomenibiologiciodambientalievidenzianounadistribuzionenormale,concaratteristichespecifichediaddensamentoversoivaloricentraliedidispersionepi o meno simmetrica, ma con declino regolare verso i due estremi.Larappresentazionegraficadeveessereingradodinonalterareodinterromperelaregolaritdelladistribuzione,comepuavvenireinparticolarequandoilnumerodiclassitroppo alto rispetto al numero di dati.Listogramma che segue una chiara dimostrazione di una suddivisione in classi eccessiva: uno opigruppidimisure(duenellesempio)compreseentrogliestremihannofrequenzazeroedalterano la rappresentazione di una distribuzione normale. La frequenza delle classi e laltezza deirettangoliadessaproporzionalitendonoadecrescereinmodorelativamenteregolare;unafortealterazione,chescompareconsuddivisioniinclassimenoframmentate,unaindicazionediunpossibile errore tecnico di rappresentazione dei dati.01234567860 80 100 120 140 160 180Figura 4.Istogramma dei dati di Tab. 4(Valore iniziale = 60;Valore finale = 199;Passo = 10;Classi = 14)(Rappresentazione grafica non adeguata, per eccessiva suddivisione in classi)I poligoni sono figure simili agli istogrammi e sono utilizzati di norma per la rappresentazione divalorirelativiodipercentuali,inquantoimplicitochelareatotalesottesasiaugualea1o23100%. Come nel caso degli istogrammi, l'asse orizzontale rappresenta il fenomeno,mentrel'asseverticale rappresenta la proporzione o percentuale di ogni classe.Unpoligonopuessereottenutoapartiredalrelativoistogramma,unendoconunalineaspezzata i punti centrali di ogni classe. La linea spezzata deve essere unita all'asse orizzontale, siaall'iniziosiaallafine,perracchiuderel'areadelladistribuzione.Questoprocedimentovieneottenutoconunartificio,utilizzandounistogrammacomepuntodipartenza.Siunisceilvalorecentraledellaprimaclasseconilvalorecentralediunaprecedenteclassefittiziadivalore0;lultimosegmentovieneottenutounendoilvalorecentraledell'ultimaclasserealeconilvalorecentrale di una classe successiva, fittizia, di valore 0.Ilprimopoligonodiseguitoriportato(figura5)corrispondeallistogrammadellafigura2edstato costruito con i dati della tabella 4, spostando le classi sullasse delle ascisse per comprenderei nuovi estremi della distribuzione.2400.050.10.150.20.250.350 70 90 110 130 150 170 190 21000.10.20.30.40.50.60.70.80.9150 70 90 110 130 150 170 190 210Figura 5.Poligono dei dati di Tab. 4 Figura 6.Poligono cumulato di Tab. 4Ledistribuzionicumulatesonorappresentatesiaconistogrammicumulatisiaconpoligonicumulati. Non forniscono informazioni differenti da quelle dei relativi istogrammi e poligoni gidescritti,poichpossibilepassareconfacilitdaunadistribuzionedifrequenzaallasuacumulata con semplici operazioni di somme o di sottrazioni tra classi.La figura 6 rappresenta il poligono cumulato corrispondente al poligono della figura 5.2500.10.20.30.40.50.60.70.80.910 1 2 3 4 5 6 7 8 9Figura 7.Istogramma cumulato dei dati di Tab. 2Tuttavia, per la diversa prospettiva che essi offrono a partire dagli stessi dati, gli istogrammi ed ipoligonicumulatisonounaltrometodoutilesiaperpresentarelecaratteristichedidatiquantitativiriportatiintabelle,siaperfacilitarel'interpretazioneel'analisi.Servonosoprattuttoperevidenziare,conletturaimmediata,quantesonointotalelemisurechesonoinferioriosuperioriaduncertovalore.Ilvaloredell'asseorizzontalechecorrispondeal50%deivaloriidentificalamediana(riportatocomelineatratteggiatanellafigura7cherappresentaunistogrammacumulato);unparametroditendenzacentraleestremamenteimportante,quandoladistribuzionenonsimmetrica(ilsuousoelesuecaratteristichesarannodescritteinmododettagliato nei prossimi paragrafi).Perledistribuzionidifrequenzadidatiqualitativi,lerappresentazionigrafichepifrequentisono- i diagrammi a rettangoli distanziati,- gli ortogrammi,- i diagrammi a punti,- gli areogrammi (tra cui i diagrammi circolari),-i diagrammi a figure (o diagrammi simbolici).Idiagrammiarettangolidistanziati,dettianchegraficiacolonne,sonoformatidarettangolicon basi uguali ed altezze proporzionali alle intensit (o frequenze) dei vari gruppi considerati. Adifferenza degli istogrammi, i rettangoli non sono tra loro contigui, ma distaccati; di conseguenza,sullasse delle ascisse non vengono riportati misure ordinate ma nomi, etichette o simboli, propridelle classificazioni qualitative.Con dati qualitativi o nominali, le basi dei rettangoli sono sempre identiche avendo solo unsignificato simbolico.26Si pu ricorre quindi sia a diagrammi a punti o line plot, in cui i punti sono disposti uno sopralaltro fino ad unaltezza proporzionale alla frequenza della classe, sia a diagrammi a barre, chesono unaltra rappresentazione frequente, in cui al posto di rettangoli o colonne di punti vengonousate linee continue pi o meno spesse (figura 8).0500001000001500002000001 2 3 40 100000 200000 300000135Figura 8.Rettangoli distanziatiFigura 9.OrtogrammaNel caso di dati qualitativi o nominali, non esiste una logica specifica nell'ordine delle classi.Perconvenzione,irettangoliolecolonnesovente(manonobbligatoriamente)vengonodisposti in modo ordinato dal maggiore al minore o viceversa.Se le classi qualitative sono composte da sottoclassi, possibile una rappresentazione grafica piarticolata,dividendoognirettangoloinpiparti,conaltezzeproporzionaliallefrequenzedellesottoclassi (figura 10). Avendo basi uguali, le aree sono proporzionali alle altezze; pertanto, anchei diagrammi a rettangoli distanziati sono rappresentazioni areali.27Gliortogrammiograficianastrisonougualiairettangolidistanziati;lunicadifferenzachegli assi sono scambiati, per una lettura pi facile (figura 9 e figura 11).01000002000003000004000005000001 2 3 40 100000 200000 300000 400000 5000001234Figura 10.Rettangoli distanziatiFigura 11.OrtogrammaAncheinquestocasopossibilesostituireairettangoliunalinea,eventualmentepunteggiata;siottengono diagrammi a barre o a punti e lintensit o frequenza delle varie classi viene letta conunaproiezionesullassedelleascisse.Secondoalcuniespertidipercezionedeigrafici,questefigurevengonoletteconmaggiorefacilitrispettoairettangolidistanziati(locchioleggerebbecon maggiore facilit la proiezione verticale e di quella orizzontale) e quindi meglio rappresentanole informazioni contenute in distribuzioni di frequenza di dati qualitativi.Gliareogrammisonograficiincuilefrequenzeolequantitdiunavariabilequalitativasonorappresentate da superfici di figure piane, come quadrati, rettangoli o, pi frequentemente, cerchioppure loro parti. La rappresentazione pu essere fatta sia con pi figure dello stesso tipo, aventisuperficiproporzionaliallefrequenzeoquantit,siaconun'unicafigurasuddivisainpartiproporzionali.Nel caso dei diagrammi circolari o a torta, si divide un cerchio in parti proporzionali alle classidi frequenza.Gliareogrammivengonousatisoprattuttoperrappresentarefrequenzepercentuali;hannoilvantaggio di fare capire con immediatezza che la somma ditutteleclassiugualeallunit(1o100%); hanno linconveniente che evidenziano con estrema difficolt le differenze che non sonomolto marcate. Per differenze piccole, si dimostrano meno efficaci degli ortogrammi.28135%28%341%48%58%

Figura 12.Diagrammi circolariI diagrammi circolari sono utilizzati per distribuzioni di variabili nominali, al fine di evitaredistabilireancheinvolontariamenteunordine,chenonesistetravariabiliqualitative.Mettonoinevidenzacomesonodistribuitelesingoleparti,rispettoallintero:ilcerchiorappresentalinterofenomenoedicomponentisonorappresentatidasettorichesonodistintidatratteggi, colori o gradazioni di colore differenti.Gli angoli (a, nella formula successiva) devono essere proporzionali alle percentuali (Y in %) chevogliono rappresentare,in accordo con la relazionea : 360 =Y in % : 100Conidiagrammiafigure,dettianchediagrammisimboliciopittogrammi,lafrequenzadiogni carattere qualitativo viene rappresentata da una figura, sovente stilizzata, oppure dasimbolichericordanofacilmentel'oggetto.Eunaspeciediistogrammacostruitoconfigure,dovelaltezza della figura deve essere proporzionale alla frequenza, quando le basi sono uguali.Questidiagrammiafigurehannotuttaviailgraveinconvenientediprestarsiatrarreininganno con facilit il lettore inesperto di statistica, quando sono stati costruiti con malizia; pure facile che un ricercatore non sufficientemente esperto li costruisca in modo sbagliato,generandononvolutamenteilsospettocheegliabbiavolutofornireunaimpressionedidifferenza tra i gruppi a confronto non supportata dai dati.Peresempio,unapopolazioneconunnumerotriplodipersonerispettoadun'altraspessorappresentata da una figura umana proporzionata, di altezza tripla rispetto allaltra.L'occhiocogliecomplessivamentenonlaltezzadiognifiguramalasuperficiecheessaoccupa,cheilquadratodelvalorechesiintenderappresentare:senericaval'impressionedistorta di un rapporto di 9 a 1 e non di 3 a 1, come dicono in realt i dati.E possibile ovviare all'inconveniente, costruendo non una figura improbabile di altezza variabileeconbaseuguale(poichrisulterebbeunafiguraalterataedunarappresentazioneforse29incomprensibile),maricorrendoall'artificiodifigureidentiche,ripetutetantevoltequantesonoleproporzioni.Peresempio,sel'unitdimisuraconvenuta20individui,50personepossonoessererappresentateinmodocorrettodaduefigureumaneemezzae105personeda5figure intere pi un quarto di figura.In questo modo si rispetta la regola per costruire gli istogrammi in modo corretto: laltezza delledue figure proporzionale al numero di dati dei due gruppiFigura 13. Pittogramma della produzione mensile di auto di 3 case automobilistiche: la prima haprodotto 100 mila auto, la seconda 180 mila e la terza 320 mila.La parte superiore della figura fornisce una rappresentazione corretta.La parte inferiore, fondata sulla proporzione della lunghezza, fornisce una rappresentazione errata: la superficie coperta dalla figura che deve essere proporzionale, non la lunghezza30Acausadegliinconvenienti,idiagrammisimbolicioafiguresonousatimoltoraramentenellepubblicazioni specializzate e mai in quelle scientifiche. Sono riservati a pubblicazioni divulgative,quando pi importante limpressione della precisione, cio occorre evidenziare limportanza delfenomenoapersonechenonconosconoesattamenteilproblema.Glispecialistipreferisconoidati, poich da essi sanno valutare il fenomeno.Moltedisciplinericorronoarappresentazionigrafichespecifiche,chepossonoessereutiliallambientalista.Perrappresentareilnumerodisoggettipresentiinvarilocalit,ingeografiasiricorre al cartogramma.Figura 13b.Esempio tratto da un quotidiano sulle manovre finanziarie in Italia, dal 1992 al 2000 Notare come i numeri diano uninformazione differente dai volumi rappresentati.31Ilcartogrammaevidenziadistribuzioniterritorialimediantecartegeografiche,incuinellelocalit interessate sono riportati cerchi proporzionali alle frequenze. E il caso delle citt segnatesucartegeograficheconcerchididimensioniproporzionalialnumerodiabitanti.Questicerchispessosonosolosimboli,illustratinelledidascalie:percuiunsolocerchiobiancospessoindicauna quantit di base (es.: 1.000 persone), due cerchi concentrici indicano una quantit maggiore,ancheinmodononproporzionale(es.:20.000persone),trecerchiouncerchioanneritounaquantitancorasuperiore(es.:100.000persone)ecosvia.Eimportantericordareche,quandocostruitiinmodoproporzionale,anchequesterappresentazionigrafichesonoessenzialmenteareogrammiequindipossonotrarreiningannoseadessereproporzionaleallefrequenzeilraggio.Unaltrarappresentazionegraficachehaunusospecificoperalcuniargomentiildiagrammapolare o diagramma a coordinate polari. Serve per rappresentare le variabili cicliche (mensili,settimanali,giornaliere),comelaquantitdipioggiaelatemperaturamediamensile;oppurelaquantitdiinquinantipresentinellariainunciclodi24ore.Apartiredaunpuntocentrale,chiamatopolo,sitracciaunaseriedicerchiconcentrici,lacuidistanzadalcentromisuralintensit del fenomeno. Per rappresentare la variabile ciclica, si divide langolo giro in tante partiquante sono le modalit (es.: 12 per i mesi, 24 per le ore). Si devono poi collocare punti nei varicerchiconcentrici,perindividuareinsiemelamodalit(es.:ilmeseolora)elintensitdelfenomeno(es.:laquantitdipioggia,latemperatura,lamisuradinquinamentoatmosfericoodiuncorsodacqua).Ildiagrammapolareottenutocongiungendoivaripuntielintensitdelfenomeno rappresentata dalla distanza dal centro.Le figure relative riportano due differenti impostazioni grafiche di costruire un diagramma polaresui valori medi mensili in Italia della radioattivit beta totale nellanno 1993.Perlarappresentazionedidatinumerici,possibilericorrereancheadiagrammicartesiani.Essisarannoillustratinelcapitolodedicatoaidatibivariati;sonoutilizzatiquandoperogniindividuosonorilevaticontemporaneamente2variabili,comeilpesoelaltezza.Mapossonoessereusatiancheperunasolavariabile,collocandoipuntidiunadistribuzionecumulatasuunpianocartesiano:laperpendicolaresullassedelleascissecoincideconilvaloredellavariabileequella sullasse delle ordinate fornisce le corrispondenti quantit o frequenze; i punti sono uniti dasegmentisecondolordinestabilitodalvaloreriportatoinascissa.Ediparticolareutilitildiagramma quantile, che risulta graficamente simile al diagramma cumulato, soprattutto quandosi dispone di poche unit e la variabile di tipo continuo: vengono eliminate le anomale presenzedi classi nulle entro gli estremi.32Figura 14. Valori medi mensili della radioattivit beta totale nellaria a livello del suolo in Italianellanno 1993 (mBq per metro cubo). MesemBq1 Gennaio1.372 Febbraio 1.243 Marzo1.034 Aprile 0.475 Maggio 0.606 Giugno 0.487 Luglio 0.748 Agosto 0.989 Settembre0.8110 Ottobre0.5011 Novembre 0.9712 Dicembre 1.4500.511.512345678910111200.511.512345678910111233Per la scelta del metodo grafico con il quale presentare i dati, si deve prendere in considerazione iltipodidati(qualitativioquantitativi),lamisura(discretaocontinua),ildettagliochesivuoleottenerenellaformadelladistribuzione.Imetodinonaggiungonoalcunainformazionecheginonsiacontenutaneidati;magarantisconounarappresentazionepiefficace,inparticolareapersone non esperte dellargomento trattato.1.6. LE MISURE DI TENDENZA CENTRALELerappresentazionigrafichefornisconounasintesivisivadellecaratteristichefondamentalidelledistribuzionidifrequenza.Rispettoallecifre,lefigurefornisconoimpressionichesonopercepite con maggiore facilit; ma nel contempo hanno il limite di essere meno precise e menoricche di particolari.Pericaratteriqualitativi,latabellaelerappresentazionigraficheesaurisconoquasicompletamente gli aspetti descrittivi, quando sia possibile leggere con esattezza le frequenze dellevarie classi.Per i caratteri quantitativi, si pone il problema di sintesi oggettive che possano essere elaboratematematicamenteequindichesianonumeriche,alfinediun'analisiobiettivachedevecondurre tutti i ricercatori, con gli stessi dati, alle medesime conclusioni.Una serie di dati numerici compiutamente descritta da 3 propriet principali:1) la tendenza centrale o posizione;2) la dispersione o variabilit;3) la forma.Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate-statistiche, quando sono calcolate su un campione di dati,- parametri, quando descrivono la popolazione od universo dei dati.Iricercatoriinecologiaenellescienzeambientalimoltoraramenteconosconotuttalapopolazione;diconseguenza,imetodistatisticidinormautilizzatisonoriferitiquasiesclusivamente alla descrizione, allanalisi e al confronto di campioni.1.6.1Lemisureditendenzacentraleoposizioneservonoperindividuareilvaloreintornoalqualeidatisonoraggruppati;latendenzacentralelamisurapiappropriatapersintetizzare34l'insiemedelleosservazioni,seunadistribuzionedidatidovesseesseredescrittaconunsolovalore; laprima indicazione della dimensione del fenomeno.Le misure proposte sono essenzialmente 3: la media, la moda e la mediana. Pi raramente ed indiscipline specifiche si utilizzano altre misure, come l'intervallo medio.Lasceltadellamisuraditendenzacentralediunaseriedidatidipendedallecaratteristichedelladistribuzione e dal tipo di scala.Lamediaaritmeticasemplicelamisuraditendenzacentralepicomunementeutilizzata.Quando si parla solo di media, si intende la media aritmetica semplice. E' definita come la sommadel valore di tutte le osservazioni, diviso il numero di unit. Con simboli, xx + x + ... + xn1 2 n=e, con una notazione pi generale, diventaxxnii 1n==dove: x = media del campione xi = i-esima osservazione della variabile Xn = numero di osservazioni del campione

i 1n== sommatoria di tutti glixidel campione.La media pu essere vista come il baricentro della distribuzione campionaria, quando ogni singolaosservazione rappresentata da un peso convenzionale, identico per tutte, lungo l'asse che riportai valori su una scala di intervalli o di rapporti.Per dimostrare graficamente che la media aritmetica corrisponde al punto di bilanciamento odi equilibrio dei dati, si supponga di avere 5 misure: 10,911,512,312,815,4.La loro mediaX =+ + + +=10 9 11 5 12 3 12 8 15 4512 58, , , , ,, uguale a 12,58.Larappresentazionegraficadeidatiedellamedia,riportatanellafiguraseguente,mostraotticamentecomelasommadelladistanzadallamediadeivaloricollocatiprimasiaugualeallasomma della distanza dei valori collocati dopo.3510 11 12 13 14 15 16mediav10.9 11.5 12.3 12.815.4 (12.58)Figura 15.Rappresentazione grafica di 5 dati e della loro media aritmetica.In una distribuzione di frequenza raggruppata in classi, come valore rappresentativo di ogni classepresoildatocentrale,nellassunzioneche,entroogniclasse,idatisianodistribuitiinmodouniforme.La media aritmetica di distribuzioni di frequenza raggruppate in classi, detta media aritmeticaponderata, calcolata pi rapidamente conxf xfiiniiin===11dove: x =media della distribuzione in classi,xi =valore medio della i-esima classe di intervallo,fi =numero di osservazioni della classe i-esima classe,n =numero di classi,

= sommatoria per tutte le n classi.ESEMPIO.Da un gruppo di 25 dati, raggruppati nella seguente distribuzione in classiClassexi150-159 160-169 170-179 180-189 190-199Frequenzafi3 5 8 6 3calcolare la media.Risposta.Con la formula della media ponderata(media)x = + + + + + + + += =( ) ( ) ( ) ( ) ( ),155 3 165 5 175 8 185 6 195 33 5 8 6 3438525175 4risulta uguale a 175,4.36Leapplicazionidellamediaaritmeticasempliceediquellaponderatasononumeroseederivanoda alcune loro propriet:- le grandezze additive sono le pi frequenti in natura;- la media aritmetica effettua la correzione degli errori accidentali d'osservazione, per cui essa la stima pi precisa di misure ripetute;- la media aritmetica la pi semplice delle medie algebriche.Quando le quantit od i fattori causali non sono additivi oppure i dati sono ottenuti da rapporti, siricorreadaltritipidimedie;inquesticasi, trovanounusorelativamentefrequentenellescienzeambientali la media geometrica, la media armonica e la media quadratica.Lamediageometricasempliceutilizzataquandolevariabilinonsonorappresentatedavalorilineari, ma ottenuti da prodotti o da rapporti di valori lineari. Serve per il confronto di superfici ovolumi, di tassi di accrescimento o di sopravvivenza, per quei valori appunto che sono espressi darapporti.Per il calcolo della media geometrica, condizione necessaria che le quantit siano tutte positive.Se alcune fossero negative, si deve ricorrere al valore assoluto.Lamediageometricadindatiugualeallaradicediordinen(solopositiva)delprodottodegli n dati: con simbologia matematica xg= x x xnn1 2...e pu essere scritta anche comexg==xiinn1Una propriet importante cheil logaritmo della media geometrica (logx ) uguale alla media aritmetica dei logaritmi dei dati (nxnii =1log):log log xnxiin==1137Eunaproprietcherisultautilequandosidevericorrereallatrasformazionedeidatineilorologaritmi,alloscopodinormalizzareladistribuzioneedapplicareinmodocorrettoitestdiinferenza.(Letrasformazionideidatisonodiscusseampiamentenelcapitolofinaledellanalisidella varianza).La media armonica la stima pi corretta della tendenza centrale, per distribuzioni di dati in cuidevono essere usati gli inversi. E utilizzata quando i valori di X sono espressi come rapporti di untotale costante od in misure di tempi di reazione.La media armonica data damnxhi in==11La media quadratica la radice quadrata della media aritmetica dei quadrati:mxnqiin==21Sottol'aspettomatematicopuesserecalcolatapervaloripositivi,nullionegativi;maessahasenso come misura di tendenza centrale solamente se i valori sono positivi o nulli. E' un indice chetrova applicazioni quando si analizzano superfici.1.6.2 La mediana il valore che occupa la posizione centrale in un insieme ordinato di dati.Eunamisurarobusta,inquantopocoinfluenzatadallapresenzadidatianomali.Lasuautilizzazione indispensabile nel caso di scale ordinali o di ranghi.La sue caratteristiche pi importante sono due:- calcolata sul numero di osservazioni; si ricorre al suo uso quando si vuole attenuare l'effettodivaloriestremiocomunqueprendereinconsiderazionesololinformazionefornitadairanghi;-inunadistribuzioneoseriedidati,ognivaloreestrattoacasohalastessaprobabilitdiessere inferiore o superiore alla mediana.Come la media la misura di tendenza centrale nella statistica parametrica, la mediana lamisura di posizione o tendenza centrale utilizzata in quasi tutti i test non parametrici.Per calcolare la mediana di un gruppo di dati, occorre381 - disporre i valori in una fila ordinata in modo crescente oppure decrescente e contare il numerototale n di dati;2 - se il numero (n) di dati dispari, la mediana corrisponde al valore numerico del dato centrale,quello che occupa la posizione (n+1)/2;3seilnumero(n)didatipari,lamedianastimatautilizzandoiduevaloricentralicheoccupano le posizioni n/2 e n/2+1; con poche osservazioni, come mediana viene assunta la mediaaritmetica di queste due osservazioni intermedie; con molte osservazioni raggruppate in classi, siricorre talvolta alle proporzioni.ESEMPIO. Calcolare la mediana nella serie di 6 dati: 10,1 10,8 13,1 13,9 14,2 14,5 .Risposta:Ilnumerodiosservazioniparieiduevaloricentralisono13,1e13,9;lamedianaindividuata dalla loro media aritmetica e quindi uguale a 13,5.Per meglio comprendere le differenze tra media aritmetica e mediana, con la stessa serie di 6dati (10,1 10,8 13,1 13,9 14,2 14,5 ) in cui-la media 12,85 e-la mediana 13,5larappresentazionegraficaevidenziacomelamediasiailbaricentrodelladistribuzioneelamediana sia collocata tra i valori pi addensati.3910 11 12 13 14 15I I I I I I10.1 10.813.1 13.9 14.2 14.5media (12.85)mediana13.5Figura 16.Rappresentazione grafica della media e della mediana di 6 dati.Nellaprecedentefigura16,ilgraficomostracome,nelcasodidatidistribuitiinmodononsimmetrico, la mediana rappresenti in modo pi adeguato della media laddensamento dei dati, ilvalore normale o tipico della serie. La media infatti maggiormente influenzata dalla presenzadeiduevaloripidistanti,chelaallontananodalgruppodeivaloripifrequentielarendonodiversadaessi.Seiduevalorianomalifosseropivicini(opilontani)rispettoaglialtri4,lamedia cambierebbe mentre la mediana rimarrebbe invariata.1.6.3Lamoda(dettapiraramenteanchedatoprevalente)ilvalorepifrequentediunadistribuzione.Essanoninfluenzatadallapresenzadinessunvaloreestremo;tuttaviavieneutilizzatasolamenteascopidescrittivi,perchmenostabileemenooggettivadellealtremisureditendenzacentrale.Puinfattidifferirenellastessaseriedidati,quandosiformanoclassididistribuzioneconampiezzadifferente.Perindividuarelamodaentrounaclassedifrequenza,nonconoscendocomeidatisonodistribuiti,siricorreall'ipotesidellauniformeripartizione.Oltrealledistribuzionidifrequenzachehannounasolamodaechesichiamanodistribuzioniunimodali,sitrovanodistribuzionidifrequenzachepresentanodueopimode;sonodenominate distribuzioni bimodali o plurimodali.Ledistribuzioniplurimodalipossonoessereilrisultatodellascarsitdiosservazioniodellarrotondamento dei dati; di norma, sono dovute alla sovrapposizione di pi distribuzioni contendenza centrale differente. Per esempio, misurando le altezzediungruppodigiovaniincuilapartemaggioresiaformatadafemmineelaminoredamaschisiottieneunadistribuzionebimodale, con una moda principale ed una secondaria, come la seguente.4000.050.10.150.20.250.30.350.40.450.5-3.98 -1.98 0.02 3.38Figura 17.Distribuzione bimodaleQuandoladistribuzionedeidatievidenziadueopimode,ilricercatoredevequindisospettare che i dati non siano omogenei, ma formati da altrettanti gruppi con differenti tendenzecentrali. E pertanto errato fondare le analisi sulla media generale della distribuzione, poichnonveralassunzionefondamentalechesianodatitrattidallostessouniversoopopolazione con una sola tendenza centrale.Lamediadiunadistribuzionebimodale,formatainquotaparidamaschiedafemmine,sarebbeun valore assurdo che non descrive n i maschi n le femmine, ma un individuo inesistente, nonessendo n maschio n femmina.L'intervallomediosemplicementelamediaaritmeticatrailvaloreminimoequellomassimo.Ha il grande vantaggio di essere calcolato molto rapidamente, anche con un numero molto elevatodi dati. Deve essere utilizzato con estrema cautela e solamente quando non esistono valori erraticio anomali: la presenza di un solo dato che si differenzia sensibilmente da tutti gli altri determinaun valore dell'intervallo medio molto distorto, come misura della tendenza centrale.In questi casi, pu essere usata con maggiore correttezza la media interquartile, definita come lamediafrail1eil3quartile,cherisenteinmisuramoltopiridottadellapresenzadivaloriestremi.Nelle scienze che studianolambiente,l'intervallomedioerautilizzatoinalcunedisciplinecomelameteorologia.Potevaessereutilenelcasodiunaseriedidatisullatemperatura,ovenonesistonomaivalorianomali;infattisupponendocheinunagiornatalatemperaturaminimasiastatadi10gradiequellamassimadi20gradi,ilcalcolodellamediarapidissimo(15)edilvaloresiavvicinanotevolmenteallamediaaritmetica,cherichiederebbeunnumeroelevatodiosservazioni e un disegno sperimentale accurato.41Peranalogia,inmeteorologiasoventequestometodostatoutilizzatoancheperilcalcolodellaprecipitazione media mensile. E un procedimento criticabile, addirittura errato: in questo caso sitrattadiunfenomenoconelevatissimavariabilit,conlapresenzadivalorichepossonoessereanomali e che influenzano fortemente sia lintervallo medio che lamedia interquartile.Oltre alla media, alla mediana e alla moda, insieme all'intervallo medio e alla media interquartiletralemisureditendenzacentralepuesserericordataanchelatrimediapropostadaTuckeyecalcolata comeT = (Q1 + 2Q2+ Q3)/4dove Q2 la mediana, Q1 e Q3 sono rispettivamente le mediane della prima met e della secondamet dei dati ordinati, detti anche primo e terzo interquartile.E' un metodo che potrebbe essere utile quando si dispone di materiale molto variabile o con unadistribuzionemoltoasimmetrica.Peresempio,lemisuredell'inquinamentoatmosfericopresentanovaripicchianomali;latendenzacentralepotrebbeessereespressadallatrimediadiTuckey. Ma anche questa misura rientra tra le proposte che hanno avuto scarso seguito.Lemisureclassiche,presentiinquasitutteledisciplineedutilizzatesenzasollevareobiezioni,sono media (aritmetica), mediana e moda.1.7. MISURE DI DISPERSIONE O VARIABILITA'La dispersione o variabilit la seconda importante caratteristica di una distribuzione di dati.Essadefiniscelaformapiomenoraccoltadelladistribuzioneintornoalvalorecentraleefornisce indicazioni sul tipo di test da applicare; nei capitoli successivi verr dimostrato come perconfrontare le medie di due o pi campioni sia richiesta lomogeneit della varianza.1.7.1Laprimamisuraadesserestatastoricamenteutilizzataperdescrivereladispersioneovariabilitdeidatiilcampoointervallodivariazione,definitocomeladifferenzatrailvalore massimo e quello minimo.Intervallo di variazione = Valore massimo - valore minimoHa il grande vantaggio di essere un metodo intuitivo e molto semplice, in particolare quando i datisono ordinati.Tra gli inconvenienti di questa misura sono da prendere in considerazione:-l'incapacit di sapere come i dati sono distribuiti entro l'intervallo, in particolare di dedurrela presenza di valori anomali;42- la sua dipendenza dal numero di osservazioni.Allaumentare del numero dei dati, cresceanche la probabilit di trovare unvalore minore del minimo precedenteedunomaggiorediquello massimo precedente.Lintervallodivariazionequindiunamisurapocoefficientedelladispersionedeidati:perunconfronto omogeneo tra distribuzioni, sarebbe necessario avere campioni delle stesse dimensioni,una condizione operativa eccessivamente limitante per la ricerca e lanalisi dei dati.1.7.2 La differenza interquartile (figura 18), la differenza tra il 3 (Q3) ed il 1 (Q1) quartile hailvantaggiodieliminareivaloriestremi,ovviamentecollocatinellecodedelladistribuzione.Tuttavialeproprietdiquestasemi-differenza,chiamataanchescartointerquartile,nonsonosostanzialmente differenti da quelle del campo di variazione.014123411 2 3Q Q QFigura 18.Differenza interquartile = 3quartile (Q3) - 1quartile (Q1)Come misure di posizione non-centrale, ma con finalit esclusivamente descrittive, sono spessousati i quantili, chiamati anche frattili, in quanto ogni sottogruppo contiene la stessa frazione diosservazioni. Quelli pi comunemente usati sono i decili, che classificano i dati ordinati in decine,ed i percentili, che li suddividono in centesimi. Con i quantili, si possono individuare quali sono ivalorichedelimitano,nelmargineinferioreosuperioredelladistribuzione,unapercentualeofrazionestabilitadivaloriestremi.Peresempio,nellostudiodell'inquinamento,comediqualunquealtrofenomeno,puessereutilevederequalisonolezoneoiperiodicherientranonell1,nel5onel10percentodeivalorimassimiominimi.Avaloricosrari,facilmentecorrispondonocauseanomale,chedinormainteressanteanalizzareinmodopidettagliato.Nellostudiodiqualunquefenomenobiologicoodecologico,lemisureparticolarmentepiccoleoeccezionalmentegrandirispettoaivalorinormaliquasisempreevidenziano cause specifiche, meritevoli di attenzione.Quandolaformadelladistribuzioneignotaorisultafortementeasimmetrica,l'usodeiquantilifornisceindicazionioperativesemplicierobusteperindividuareivaloripifrequenti,daritenersi normali e quelli meno frequenti od anomali.43Gli scarti dalla media sono la misura pi appropriata della variabilit di uninsiemedidati.Mapoichlalorosommasemprenullaperdefinizione,inquantolamediailbaricentrodelladistribuzione, necessaria una trasformazione che potrebbe essere attuata in due modi:a) gli scarti assoluti dalla media;b) i quadrati degli scarti dalla media.1.7.3 Lo scarto medio assoluto( ) Sm dalla media ( )xper dati semplici dato daSx xnmi=e per raggruppamenti in classi ottenuto conSx x nnmi i= dovexi = valore delli-esimo dato in una distribuzione semplice,x=valore centrale della classe in una distribuzione di frequenza,n = numero totale di dati,ni = numero di dati della classe i in una distribuzione di frequenza.Unindiceanalogo,usatonelledisciplinesocialiedeconomichepervalutareladiversittraduedistribuzioni di frequenze relative, lindice semplice di dissomiglianza (D)D = 212 1 =kii if fdove 1 e 2 sono i due gruppi e k sono le classi.Dugualea0quandoleduedistribuzionidifrequenzarelativasonoidenticheeugualea1quando la prima distribuzione tutta concentrata in una classe e laltra distribuzione in una classediversa.1.7.4Inalcunitestdistatisticanonparametrica,comemisuradidispersioneutilizzatoloscartomedioassolutodallamediana,chelamediadegliscartiassolutideisingolidatidallaloro mediana; le formule sono uguali alle due precedenti, sostituendo la mediana alla media.Eproprietspecificadellamedianarendereminimalasommadegliscartiassoluti.Diconseguenza, lo scarto medio assoluto dalla mediana sempre inferiore allo scarto medio assolutodallamedia;iduevalorisonougualisolamentequandoladistribuzionesimmetricaequindimedia e mediana coincidono.441.7.5LaDevianzaoSommadeiQuadrati(SQ)degliscartidallamedia(SS=SumofSquares,ininglese)labasedellemisuredidispersionedeidati,utilizzateintuttalastatisticaparametrica.Tuttalastatisticaparametricafondatasulladevianzaesullemisuredaessa derivate.(1 )( )( )devianza SQ x xi= 2L'equazioneprecedentelaformuladidefinizioneodeuristica.Spessopocopratica,inparticolare quando la media un valore frazionale, con vari decimali. Diviene allora convenientericorrereaun'altraformula,algebricamenteequivalente,chepermettedieffettuareicalcolimanuali in tempi pi brevi e con una sola approssimazione finale, chiamata formula empirica odabbreviata:(2) ( )devianza SQ xxn( ) = 22dove:x2=sommatoria dei valori dopo che ogni osservazione stata elevata al quadrato,( )x2 =sommatoria di tutti i dati, elevata al quadrato,n=numero di osservazioni sulle quali stata calcolata la somma.ESEMPIO. Calcolare con la formula euristica (1) e con quella abbreviata (2)la devianza (SQ)dei 6 numeri seguenti: 5, 6, 7, 7, 8, 10.Risposta.1.Con la formula euristica, si deve calcolare dapprima la media:x =+ + + + += =5 6 7 7 8 1064367 16 ,ed in seguito la devianza (SQ),intesa come Somma dei Quadrati degli scarti di ogni valore dalla media:( )8356 , 14 0656 , 8 7056 , 0 0256 , 0 0256 , 0 3456 , 1 665 , 4) 6 1 , 7 10 ( ) 6 1 , 7 8 ( ) 6 1 , 7 7 ( ) 6 1 , 7 7 ( ) 6 1 , 7 6 ( ) 6 1 , 7 5 () (2 2 2 2 2 22= + + + + + == + + + + + == =x x SQ devianzai2.Conlaformulaabbreviata,calcolaredirettamenteilvaloredelladevianza(SQ),dopoaverfattosialasommadeidatiprecedentementeelevatialquadrato,siailquadratodellasommadeidati, secondo lannotazione algebrica seguente45( )devianza SQ xxn( )( ) , ,= == + + + + + = = =22225 36 49 49 64 10043632318496323 30816 14 84Iduevaloridelladevianzaspessononrisultanoidentici,inparticolarequandostimaticonpicifredecimali,acausadellapprossimazioneconlaqualecalcolatalamedia,senonrisultaunvaloreesatto.Inquesticasi,daritenersicorrettalastimafornitadallaformulaabbreviata,chenon richiede approssimazioni nei calcoli intermedi.Eutilericordareche,perdistribuzionididatiraggruppatiinclassi,laformulaeuristicadiventa( )i in x x SQ devianza2) ( =doveix il valore centrale di ogni classe ex la media generale della distribuzione.Ilvaloredelladevianzadipendeda2caratteristichedelladistribuzione:gliscartidiognivaloredalla media ed il numero di dati. La prima una misura della dispersione o variabilit dei dati ed leffettochesiintendestimare;lasecondaunfattorelimitanteperlusodelladevianza,inquantounconfrontotra2opidevianzerichiederebbecampioniconlostessonumerodidati.Pertanto, per una misura di dispersione dei dati che sia indipendente dal numero di osservazioni,si ricorre alla varianza.1.7.6 La varianza o Quadrato Medio (QM, in italiano; MS da Mean Square, in inglese) unadevianza media o devianza rapportata al numero di osservazioni.La varianza di una popolazione (1), il cui simbolo 2, ottenuta dividendo la devianza per n,il numero di osservazioni.(1)( )22=xniLa varianza di un campione (2), il cui simbolo s2, ottenuta dividendo la devianza per n-1, ilnumero di gradi di libert.(2) ( )s221=x xniOvviamente,quandongrandeledifferenzetravarianzadellapopolazioneevarianzadelcampione sono minime; quando n piccolo, le differenze sono sensibili.46E'importantericordarechequandosiparladiinferenza,cioquandosiutilizzanoidatidiuncampioneperconoscerelecaratteristichedellapopolazione,siusasemprelavarianzacampionaria.Legiustificazionilogichedell'usodidividereladevianzapern-1,dettaanchecorrezionediStudent,sonolungheecomplesse:lapisemplicesibasasulfattochen-1ilnumerodiosservazioniindipendenti,chiamatogradidilibert,abbreviatoabitualmenteingdl(degreefreedomininglese,abbreviatoindf).Poichlasommadegliscartidallamediaugualea0,l'ultimovalorediunaserieconosciutoapriori,nonliberodiassumerequalsiasivalore,quando siano gi noti i precedenti n-1 valori.Comeconcettogeneraleintroduttivo,sipudirecheilnumerodigradidilibertugualealnumero di dati meno il numero di costanti che sono gi state calcolate o di informazioni chesianogistateestrattedaidati.Nelcasospecificodellavarianza,lacostanteutilizzatapercalcolare gli scarti la media: quindi i gradi di libert sono n-1.Mentre la media un valore lineare, la varianza un valore al quadrato; perstimeassociateallamedia o per confronti con essa, necessario ricondurla a un valore lineare.1.7.7Loscartoquadraticomedioodeviazionestandard,ilcuisimbolonelcasodellapopolazioneedsnelcasodiuncampione,laradicequadratadellavarianza.Ilterminestandard deviation e il suo simbolo (la lettera greca sigma minuscola) sono attribuiti al grandestatisticoingleseKarlPearson(18671936)chelavrebbeconiatonel1893;inprecedenzaerachiamatomeanerror.InalcunitestidistatisticaabbreviatoancheconSDedchiamatorootmean squaredeviation oppure root mean square,E una misura di distanza dalla media e quindi ha sempre un valore positivo. E' una misura delladispersione della variabile casuale intorno alla media.Nel caso di un campione, a partire da una serie di dati la deviazione standard, il cui simbolo s,pu essere calcolata come:deviazione standard (s)=( )1 nx xn1 i2i=indovexi = valore del dato in una distribuzione semplice,x= valore centrale della classe in una distribuzione di frequenza,ni = numero di dati della classe i in una distribuzione di frequenza,n = numero totale di dati.471.7.8 Lerrore standard (standard error, in inglese) indicato cones e misura la dispersionedelle medie calcolate su n dati, come la deviazione standard serve per la dispersione dei dati.Lerrore standardes es = nsESERCIZIO. Calcolare media, devianza, varianza e deviazione st. e errore st. di : 9 6 7 9 8 8.Risposta:media=7,833;devianza=6,8333;varianza=1,367;deviazionest.=1,169;errorestandard=0,477Perlusodellavarianza,chesarfattoneicapitolidedicatiallinferenza,importantecomprenderechelavarianzatraunaseriedidatirappresentaunamisuradimutuavariabilit tra di essi.Essa pu essere calcolata in tre modi:1 - come la met della media aritmetica del quadrato di tutti gli n(n-1)/2 scarti possibili tracoppie di osservazioni,2 - mediante gli scarti tra i dati e la loro media,3 - mediante la formula abbreviata.1-Ilprimometodoutilizzagliscartitratuttelepossibilecoppiedidati;unaproceduramoltolunga, che serve per comprendere il reale significato della varianza tra dati o tra medie:sx x f fn ni j i jj iJiJ221 111212= = + = ( )( )2-Ilsecondometodorappresentalaformulaeuristica,quellachedefiniscelavarianza,comeconfronto con il valore medio:sx x fnj ijJ2211= =( )483-Ilterzometodounadellevarieversionidellaformulaabbreviata,quellacheservepersemplificare i calcoli manuali e ridurre i tempi per il calcolosx fx fnnj jj jjnjn221211===ESEMPIO. Calcolare la varianza di 6 dati (5,6,7,7,8,10) mediante le 3 formule proposte,per dimostrare empiricamente la loro equivalenza (ricordando che, in questo esempio, fi = 1).Risposta:1.Utilizzandogliscartiassoluti(j-i)tratuttelepossibilicoppiedidati,riportatinellamatrice triangolare sottostante:j\i 5 6 7 7 8 105 06 1 07 2 1 07 2 1 0 08 3 2 1 1 010 5 4 3 3 2 0si ottienes22 2 2 2 2 2 2 2 2 2 2 2 2 2 2121 2 2 3 5 1 1 2 4 0 1 3 1 3 21590303 = + + + + + + + + + + + + + += =2. Mediante gli scarti dalla media ( X = 716 , )si ottienes22 2 25 716 6 716 10 7166 11553 = + + + = =( , ) ( , ) ( , ) L3.Ricorrendo alla formula ridottasi ottiene49s22 2 226 104366 1323 30816 14 8352 96 =+ + + == =(5 ), ,,L1.7.9Ilcoefficientedivariazione(coefficientofvariationoppurecoefficientofvariability)unamisurarelativadidispersione,mentreleprecedentieranotuttemisureassolute.E'quindiparticolarmenteutilericorrereadesso,quandosiintendeconfrontarelavariabilitdidueopigruppi con medie molto diverse oppure con dati espressi in scale diverse.Consideriamocomeesempioilconfrontotralavariabilitdiduespecieanimalicondimensionimedie sensibilmente diverse, come tra i cani e i cavalli. La varianza tra cavalli di razze diverse superioreaquellaesistentetraicani,perchgliscartiassolutidallamediadellaspeciesonomaggiori.Maspessoilproblemaconsistenelfareunconfrontorelativotravariabilitedimensioni medie delle due specie; allora il rapporto tra il cane di dimensioni maggiori e quello didimensioni minori risulta superiore a quello esistente nei cavalli.Il Coefficiente di Variazione (CV oppure semplicemente con V in molti testi recenti) misura ladispersione percentuale in rapporto alla media.Per una popolazione:0 10 CV = dove = deviazione standard della popolazione=media della popolazionePer un campione:0 10 CV =Xsdoves = deviazione standard del campioneX= media del campioneQuandocalcolatosudaticampionari,inparticolareseilnumerodiosservazionilimitato,ilcoefficientedivariazioneCVdeveesserecorrettodiunaquantit1/4N,doveNilnumerodiosservazioni del campione. Di conseguenza,il coefficiente di variazione corretto V diventa+ =NCV CV411 '50Lafigurasuccessiva(trattadapag.16diGeorgeW.Snedecor,WilliamG.Cochrandel1974,StatisticalMethods,IowaUniversityPressAmes,Iowa,U.S.A.sixthedition,seventhprinting,pp. XIV + 593) utile per spiegare i concetti gi presentati:-conlalineatratteggiatadescrivelaltezzamediadigruppidiragazzeda1a18annidet,chevariadacirca70cm.adoltre170cm.;lascaladiriferimentoriportatasullasinistraevaria da 60 a 200 centimetri;-con la linea formata da tratti e punti alternati descrive la deviazione standard dellaltezza diogni gruppo det; la scala riportata sulla destra (parte superiore) e i valori variano da 0 a 7;-con la linea continua descrive il coefficiente di variazione; la scala riportata a destra nellaparte inferiore pi esterna ed i valori variano da 2 a 5.Eimportanteosservarecomelamediaelasuadeviazionestandardaumentinoinmodoquasicorrelato, mentre il CV resta costante intorno al 4%:Il coefficiente di variazione un numero puro, svincolato da ogni scala di misura e dalla tendenzacentraledelfenomenostudiato.Secondomolti,appuntoperchunrapporto,avrebbesignificatosolamente se calcolato per variabili misurate con una scala di rapporti.51In natura, il coefficiente di variazione tende ad essere costante per ogni fenomeno, con valori cheabitualmente oscillano tra il 5% e il 15%. Valori esterni a questo intervallo possono fare sorgere ilsospettodiessereinpresenzadiunerroredirilevazioneodicalcolo;sitrattacomunquedisituazioninonusualicheoccorrerebbespiegare,individuandonelacausa.Nellesempioprecedente, si tratta di individui della stessa et.Se il materiale biologico in esameha un CV troppo basso (2-3 %), si pu sospettare l'esistenza diunfattorelimitantecheabbassanotevolmenteodeliminalavariabilit,comelapresenzadiomogeneitgeneticacongiuntaadunasituazioneambientaleuniforme;viceversa,unCVmoltoalto (50%) indice della presenza di condizioni anomale o molto differenti contemporaneamenteper pi fattori.Perl'uomo,ilcoefficientedivariazionedellaltezzastatocalcolatotrail40%eil45%,testimoniandol'esistenzanellaspeciedigrandidifferenze,dovutesiaacausegenetichecheambientali (alimentazione, condizioni sanitarie, ecc.).Quandopermisurarelostessofenomenosiutilizzanoscaledifferenti,adesempiolaltezzamisurata in centimetri o in pollici, la media e la deviazione standard cambiano, ma il CV restauguale.Esso pu essere calcolato anche per campioni; ma quando il numero di dati limitato, la sua stimapu indurre in errore.Inlaboratoriopervalutarelaqualitdeireagenti,spessosiricorrealC.V.:ireagentichedeterminanoilCVminoresonoquellidiqualitsuperiore,poichfornisconorispostemenovariabili in rapporto ai valori medi.1.7.10 La varianza in dati raggruppati: correzione di SheppardLa varianza calcolata in una distribuzione di frequenza di misure continue approssimata; la suastima fondata sullipotesi di distribuzione uniforme entro ogni classe e quindi si presume che ilvalorecentralediogniclassecorrispondaallasuamedia.Inrealt,lavarianzacalcolatasuidatireali e quella stimata a partire dal raggruppamento in classi non sono uguali.Quandoladistribuzionedeidatinormale,entroogniclasseivaloripiviciniallamediagenerale sono sempre pi numerosi di quelli pi distanti, collocati verso gli estremi.Come gi evidenziato, per il calcolo della media, le approssimazioni nella parte sinistra del valorecentralecompensanoleapprossimazionifattenellapartedestra:lamediacalcolatadirettamentedai dati e quella calcolata con il raggruppamento in classi hanno solo differenze casuali, di solitodi entit ridotta.52Per il calcolo della varianza, le approssimazioni di segno opposto nelle due parti della media sonoelevate al quadrato: di conseguenza, non si compensano, ma si sommano. In una popolazione conunnumeromoltoaltodidati,lavarianzacalcolatadalraggruppamentoinclassisistematicamentemaggiorediquellareale,quellacalcolatadirettamentedaidatioriginari.Ledifferenzecresconoall'aumentaredellamisuradell'intervallodiogniclasse,poichaumenta limprecisione.Pertanto si deve apportare una correzione, dettacorrezione di Sheppard, proposta appunto da W. F. Sheppard nel 1898 sulla rivista ProceedingLondonMathematicalSocietyeriportatainvaritesti,tracuiStatisticalMethodsdiGeorgeW.Snedecor e William G. Cochran (1967, Iowa State University Press).Consiste nel sottrarre alla varianza calcolata un valore pari ah212per cui 2 22reale calcolata =h12dove-h l'ampiezza delle classi e-12 una costante.ESEMPIO.Inunadistribuzionedifrequenza,incuileclassihannoampiezzacostanteconintervallo h = 10, stata calcolata una varianzas2 = 50; la varianza corretta, quella che si sarebbeottenuta utilizzando i singoli valori, secondo Sheppard dovrebbe essere22reale= 0 1125050 8 33 41 66 = = , ,uguale a 41,66 come risulta dal calcolo mostrato.Questa relazione ritenuta valida per le popolazioni.Concampioniformatidapochidati,nonfacile,spessononpossibile,verificareseladistribuzione sperimentale utilizzata rispetti le tre condizioni fissate da Sheppard per applicare lacorrezione:-essere continua;-avere un intervallo di ampiezza finito;53-tendere a zero in modo graduale nelle due code della distribuzione.Quando si dispone solo di piccoli campioni, la correzione potrebbe essere non adeguata alla formadella distribuzione e determinare un errore maggiore.Di conseguenza, per piccoli campioni come quelli usati nella ricerca ambientale, la quasi totalitdeiricercatoripreferiscenonapplicarequestacorrezione,mausaredirettamentelavarianzacalcolatadalladistribuzionedifrequenza,inqualunquemodosiastatofattoilraggruppamento in classi.1.8. INDICI DI FORMA: SIMMETRIA E CURTOSIGli