Volume Primo

download Volume Primo

of 223

Transcript of Volume Primo

COSIMO D. VITALE INTRODUZIONE ALLA STATISTICA PER LE APPLICAZIONI ECONOMICHE Volume primo STATISTICA DESCRITTIVA Edizioni Scientifiche Italiane MANLIO ROSSI-DORIACollana a cura del Centro per la Formazionein Economia e Politica dello Sviluppo Ruralee del Dipartimento di Economia e Politica AgrariadellUniversit di Napoli Federico II4N ella stessa collana:1.Qualitevaloriz z az ionenelmercatodeiprodottiagroalimentaritipici,acuradiF. de Stefano, 2000.2.L economiaagrobiologicainCampania:undifficilepercorso,acuradiF.deStefano, G. Cicia e T. del Giudice, 2000.3.Istituz ioni,capitaleumanoesviluppodelMez z ogiorno,a cura di M.R. Carrilloe A. Zazzaro, 2001.4.Introduz ioneallastatisticaperleapplicaz ionieconomiche.V ol.I, S tatisticadescrittiva, C. Vitale 2002.In preparaz ione:O.W.MAIETTA,L analisiquantitativadellefficienz a.T ecnichedibaseedestensioni recenti.COSIMO VITALEINTRODUZIONEALLA STATISTICAPER LE APPLICAZIONIECONOMICHEVolume primoSTATISTICA DESCRITTIVAEdizioni Scientifiche ItalianeVITALE COSIMOIntroduzioneallastatisticaperleapplicazionieconomiche.Vol.IStatistica descrittiva.Collana:ManlioRossi-Doria,acuradelCentroperlaFormazionein Economia e Politica dello Svilupppo Rurale e del Dipartimento diEconomia e Politica Agraria dellUniversit di Napoli Federico II, 4Napoli: Edizioni Scientifiche Italiane, 2002pp. X+ 210; cm 24ISBN 2002 by Edizioni ScientificheItaliane s.p.a.80121 Napoli, via Chiatamone 700185 Roma, via dei Taurini 27Internet: www.esispa.comE-mail: [email protected] diritti di traduzione, riproduzione e adattamento totale o parziale econ qualsiasi mezzo (compresi i microfilm e le copie fotostatiche)sono riservati per tutti i Paesi.INDICEPremessaCAPITOLO 1Rilevazioni statistiche e distribuzioni di frequenza1.1I ntroduz ione11.2L aclassificaz ionedellerilevaz ionistatistiche 2R ilevaz ionedipopolaz ioniR ilevaz ionepercampione1.3L edistribuz ionidifrequenz asemplici 71.4L arappresentaz ionegraficadelledistribuz ionidifrequenz a 12L erappresentaz ioniadasteL erappresentaz ionicontorteL erappresentaz ionianastriGliistogrammidifrequenz e1.5 Frequenz erelativeefrequenz erelativecumulate 18L afunz ionediripartiz ioneCAPITOLO 2Indici statistici descrittivi2.1I ntroduz ione 252.2 A lcuniindicidiposiz ioneolocaz ione 26L amediaaritmeticaL amediatroncataL amedianaI quartiliL amodaL amediageometrica2.3A lcuniindicidivariabilit 57L ' intervallodivariaz ioneL avarianz aImomentidiordinerIndice VIIlcoefficientedivariaz ioneL oscostamentosemplicemedioL oscostamentosemplicemedianoL adifferenz atraquartiliL ' entropiadiS hannonL ' indicedimutabilitdiGini2.4A lcuniindicisullaforma71A lcuniindicidiasimmetriaL ' indicedicurtosiCAPITOLO 3La concentrazione3.1I ntroduz ione833.2Ilconcettodiconcentraz ione84Ilcasodiscretoodiscretiz z atoIlcasoperclassidimodalit3.3A lcuniindicidiconcentraz ione91L ' indicediconcentraz ionediGiniIlrapportodiconcentraz ioneL ' indiceddelGini3.4A lcuneconsideraz ionisullaconcentraz ionedeiredditi 96CAPITOLO 4Le distribuzioni di frequenza doppie4.1I ntroduz ione1034.2D istribuz ionisempliciderivatedaunadoppia 105L emarginaliL econdiz ionate4.3L ' indipendenz afracaratteri 110Indipendenz aassolutaIndipendenz ainmedia4.4L acorrelaz ionelineare 124L acovarianz aL adisuguaglianz adiSchwarzIlcoefficientedicorrelaz ioneCAPITOLO5Introduzione all'analisi delle serie storiche5.1I ntroduz ione1395.2A lcunerappresentaz ionigrafichedelleseriestoriche141R appresentaz ionesultempoR appresentaz ionegambo-foglieIndiceVIIR appresentaz ionebox -plot5.3A lcunetrasformaz ionidelleseriestoriche 147L aseriedegliindiciL aseriedelledifferenz e5.4Gliindicideiprez z i 165Indicideiprez z icompostioponderatiL adeflaz ionedelleseriemonetarieCAPITOLO 6Linterpolazione lineare6.1 I ntroduz ione1756.2 Ilmodellolinearesemplice 1776.3 L astimadeiparametridelmodello 179MisuradellabontdiadattamentoA nalisideiresidui6.4 Modellononlineare 201ModellononlinearenelleesplicativeModellononlinearemalineariz z abileModellononlineariz z abile Bibliografia 205 Indice analitico 207 PREMESSA Questelezioni,dedicateagliallievidelsecondoannodeicorsidilaurea in Economia e Commercio e in Economia Aziendale, forniscono i primi rudi-menti di quella disciplina che va sotto il nome di Statistica. Raccoglie, rielabora-te e corrette, le lezioni tenute negli anni accademici 1990-98 presso la Facolt di Economiadell'UniversitdiSalerno.Intalsensosonograto agli studenti che, autonomamente, e con grande dispendio di energia, hanno seguito, registrato e trascritto quelle lezioni. Il corso si compone di tre parti: (a)laprimaimmediatamenteapplicabileafenomenirealidedicataallastati-sticadescrittivaefornisceglistrumentiedi metodi pi noti e semplici da utilizzareinmoltepraticheapplicazioni.Questapartecompostadalpri-mo dei due volumi; (b)la seconda, di tipo essenzialmente strumentale nella economia generale del corso, presenta alcuni elementi di calcolo delle probabilit e di variabili ca-suali. A questa parte sono dedicati i capitoli del secondo volume; (c)laterzariportaelementidiinferenzastatistica(stimeetestdelle ipotesi) e di regressione lineare ed coperta dai rimanenti capitoli del secondo volu-me. Ho cercato di esporre il tutto in modo semplice e discorsivo e di corre-darlo con esempi riferiti a fenomeni di tipo socio-economico in modo da ren-derepifacilel'apprendimentoepiimmediatal'applicabilitdeglistrumenti presentati. Fisciano, febbraio 2002L'Autore Capitolo 1 RILEVAZIONISTATISTICHEEDISTRIBUZIONIDI FREQUENZA 1.1 Introduzione Lastatisticastudianonisingolifenomeniinquantotali,mainsiemidi fenomeni, collettivi statistici, all'interno dei quali cerca di individuare eventuali re-golarit. Inoltre, si interessa della raccolta e della catalogazione delle informazio-niedell'analisiditaliinformazionitramitestrumentielaboratidallastatistica stessa. La raccolta di informazioni con procedure elaborate dalla statistica per-mette di ottenere le informazioni di base: le rilevazioni statistiche. Unarilevazionestatisticalaraccoltadiinformazioni,suunoopifeno-meni, in un dato tempo ed in un dato luogo, con metodi forniti dalla statistica e su cui possono essere usati, per la relativa analisi, strumenti statistici. Da questo punto di vista la statistica una disciplina strumentalea tutte le altre. In pratica, non vi campo dell'umano sapere in cui non si raccolgono ed elabo-rano informazioni con gli strumenti forniti dalla statistica. Le rilevazioni statistiche possono essere classificate in diverse categorie. Naturalmente, esistono differenti modi di raggrupparle, qui di seguito verranno proposte alcune classificazioni (fra le tante possibili) che tengano conto dei di-versistrumentianaliticiacuirilevazioniappartenentiaclassidiversepossono essere diversamente sottoposte. In altri termini, dato che rilevazioni con carat-teristichequalitativediversepossonoessereanalizzateconstrumentistatistici differenti, si cercher di presentare una classificazione che tenga conto di questi aspetti. Capitolo 12 1.2 La classificazione delle rilevazioni statistiche A seconda della estensione delle rilevazioni statistiche si pu distinguere fra: rilevazione di popolazioni rilevazione di campioni RILEVAZIONE DI POPOLAZIONI Il fenomeno di interesse viene osservato sull'intera popolazione, ove per popolazione si intende l'insieme, definito in un dato luogo ed in un determi-natotempo,dielementiqualsiasi(persone,animali,coseecc.)chehannoin comune una o pi caratteristiche prefissate. Naturalmente, prima di effettuare una rilevazione di una popolazione bi-sognadefinireglioggetti(persone,animali,coseecc.)sucuivengono raccolte le informazioni, questi oggetti prendono il nome di unit di rilevazione. Una volta definita l'unit di rilevazione necessario definire gli aspetti, i caratteri, i feno-menidell'unitdirilevazionesucuisivuoleraccogliereinformazioneeduna scala di misura delle caratteristiche di interesse. Di solito si suppone che i fenomeni che si analizzano siano indipendenti dalla scala di misura utilizzata. Cos, se si interessati all'altezza di date persone misurarlainmetrioincentimetri,amenoditrascurabiliproblemidiarroton-damento,dovrebbefornirerisultatisimili.Inrealt,questaassunzionevera solo per fenomeni regolari. Infatti, negli anni settanta si scoperto che esistono molti fenomeni in natura per cui questa supposizione falsa. Cos se si misura la lunghezza del sistema vascolare di dati individui si ottengono risultati molto diversi a seconda che si utilizzi, come unit di misura, il millimetro o il micron e questo dipende, essenzialmente, dal fatto che il carattere considerato molto "irregolare"ha,interminipiprecisi,unastrutturafrattale.Nelseguito,per semplicit di esposizione, non terremo conto di questa ulteriore complicazione e supporremo che i fenomeni da noi analizzati siano invarianti rispetto alla sca-la di misura utilizzata. Rilevazioni statistiche e distribuzioni di frequenza3 Esempio di popolazione. I vari punti rappresentano le unit di rilevazioni da cui costituita la popo-lazione. Daquestopuntodivistaunapopolazionepu,anche,esseredefinita come l'insiemeditutteleunitdirilevazioneinundeterminatomomentoedinun dato luogo. Siosservichepossonoesseredefiniteanchedellepopolazionifittizie, ipotetiche. Esempio 1 Tuttiipossibiliredditicheunadatapersonaavrebbepotutoguadagnareinun determinato anno. Quandosirilevauninterapopolazionesieffettuaquellochevienechiamato censimento. Naturalmente, non possibile effettuare censimenti per popolazioni ipotetiche o per popolazioni costituite da infinite unit di rilevazione. RILEVAZIONE PER CAMPIONE Le rilevazioni campionarie sono rilevazioni parziali, pi precisamente: percampionesiintendeunsottoinsiemediunitdirilevazionescelte,conun definito criterio, da una data popolazione. Leinformazionivengono,naturalmente,acquisitesolosulleunitdella popolazione che fanno parte del campione selezionato.Esistono diversi modi per scegliere un campione da una popolazione ci Capitolo 14 d luogo a differenti tipi di campioni, in particolare distinguiamo fra: campione ragionato campione casuale. Icampioniragionatisonoottenutifissandounabendefinitaregolaesce-gliendo tutte le unit di rilevazione della popolazione che soddisfano quella re-gola. Naturalmente,intalcaso,ripetendol'operazionedicampionamentoa paritdicondizioni(stessaregolaedidenticapopolazione),siottienesempre un campione costituito esattamente dalle stesse unit di rilevazioni. Esempio 2 Supponiamo di avere la popolazione costituita da tutte le famiglie (questa l'unit di rilevazione) residenti in Campania al 31/12/1992. Come regola di estrazione fissiamo la seguente: tutte le famiglie residenti in Campania al 31/12/1992 con pi di sei componenti. Si ottiene in tal modo il campione (sotto insieme della popolazione data) costituito da tutte le famiglie residenti al 31/12/1992 in comuni della Campania costituite da sette o pi com-ponenti. Come facile intuire, se si ripete l'estrazione dalla stessa popolazione utilizzando la stessa regola si ottiene sempre lo stesso risultato. Unaspettonegativodiquesto tipo di campioni che i risultati ottenuti non sono, in generale, estensibili all'intera popolazione e questo perch i cam-pioniragionatinonsonodisolitorappresentatividellapopolazionedacuisono stati estratti. Icampionicasualisonoottenutiscegliendodallapopolazioneleunitdi rilevazione con un meccanismo casuale. Cio affidandosi ad un arbitro neutrale quale la sorte, il caso di modo che ogni unit di rilevazione ha la stessa pro-babilit di far parte del campione. Inqueste condizioni, se si ripete l'operazione di campionamento non si ottiene lo stesso risultato, in altre parole il risultato dell'estrazione incerto, so-lo probabile. Ma proprio perch nella scelta delle unit di rilevazioni si utiliz-zatounarbitroneutrale,qualeilcaso,irisultatiottenutidaquesticampioni Rilevazioni statistiche e distribuzioni di frequenza5 possono essere estesi, entro certi limiti, all'intera popolazione. Il numero delle unit di rilevazione che compongono il campione viene detto numerosit campionaria. Esempio 3 Assegniamo a ciascuna delle unit di rilevazione della popolazione definita nell'esem-pio2unnumeroprogressivo. Scriviamo detti numeri su dei foglietti che vengono immessi in un'urna. Mescoliamo i biglietti nell'urna cos costituita e quindi scegliamo un bigliettino. Ri-petiamol'estrazionenvolte.Siottienecosuncampionecasualedinfamigliedellapopola-zione data. Notiamo che se si ripete l'operazione di campionamento non c' certezza di otte-nere le stesse famiglie. Nel seguito, non verr trattato il delicato problema del piano di campio-na-mento, cio di come costruire un campione che sia il meno costoso ma il pi rappresentativo possibile della popolazione. Di queste problematiche se ne occu-pa in modo sistematico una branca della statistica che va sotto il nome di Teoria dei Campioni. Fino ad ora abbiamo visto che le rilevazioni statistiche si classificano in rilevazioni su popolazioni (i noti censimenti ne sono un esempio) e rilevazioni su campioni. Ma le rilevazioni statistiche possono anche essere distinte in: rilevazione semplice rilevazione multipla. Una rilevazione statistica detta semplice quando per ogni unit di rileva-zione si assumono informazioni su un solo carattere. Esempio 4 Se sulla popolazione (o sul campione) di cui abbiamo trattato negli esempi 2 e 3 rile-viamoinformazionisuunsolocarattere,peresempiolaprofessioneoiltitolodistudiodel capofamiglia, si ottiene una rilevazione semplice. La stessa cosa se della famiglia rileviamo il numero dei componenti, o il reddito annuo familiare, o il luogo di residenza. Una rilevazione statistica detta multipla quando per ogni unit di rileva-zione si assumono informazioni simultaneamente su pi di un carattere. Capitolo 16 Esempio 5 Se sulla popolazione (o sul campione), di cui abbiamo trattato negli esempi 2 e 3, ri-leviamocontemporaneamenteinformazionisullaprofessionedelcapofamiglia,ilnumerodei componenti e il reddito annuo familiare si ottiene una rilevazione statistica tripla. Nelseguitoparticolarerilievo,fralerilevazionimultiple,verrdatoa quelledoppie,cio a quelle rilevazioni in cui le informazioni si raccolgono (su popolazione o campione) su coppie di caratteri di ciascuna unit di rilevazione. L'importanza delle rilevazioni multiple che queste, oltre a fornire informazio-ni sui singoli caratteri, forniscono informazioni sui possibili legamiesistenti fra i diversicarattericonsideratiequindipermettonodicapireseesistonoedi che natura ed entit sono le relazioni fra i diversi caratteri presi in considerazione. Le rilevazioni statistiche (siano esse relative a popolazioni o a campioni) possono essere anche classificate in rapporto al tipo di carattere che viene rile-vato. Si hanno cos le rilevazioni che generano: variabili mutabili. Una rilevazione statistica prende il nome di variabile se il carattere su cui si raccolgono informazioni misurabile. Si noti che i caratteri misurabili, cio le variabili, possono essere sempre ordinati in modo "naturale" e che detti caratteri si riferiscono a delle quantit in questo senso si parla anche di carattere quantitativo. Inoltre, le variabili posso-no essere sia discrete che continue a seconda che il carattere pu assumere, teori-camente, una infinit continua di valori o solo un numero finito o numerabile. Una rilevazione statistica prende il nome di mutabile se il carattere su cui si raccolgono informazioni non misurabile. Siosservichelemutabilisiriferisconoaqualitdelcaratterepresoin considerazione.Sitengaconto che le mutabili, a differenza delle variabili, non necessariamenteammettonounordinamentonaturale.Seunamutabilenon ammette un ordinamento naturale viene detta sconnessa. Rilevazioni statistiche e distribuzioni di frequenza7 Esempio 6 Nella rilevazione dell'esempio 4 i caratteri professione del capofamiglia e titolo di studio del capofamiglia danno luogo a mutabili, la prima sconnessa, la seconda ordinabi-le. Viceversa, i caratteri numero di componenti per famiglia e reddito annuo fami-liare danno luogo a variabili la prima discreta e la seconda continua. Lemutabili,adifferenzadellevariabili,sonosempre discrete. Esiste un solocaratterequalitativoche misurabile, continuo e quindi ordinabile ed il tempo.Loschemadella classificazione qui proposta riportato nella figura che segue: Una classificazione delle rilevazioni statistiche Un diverso modo di classificare le rilevazioni statistiche tiene conto della dinamicitneltempo,nellospazioonellospazio-tempo,odellastaticitdella rilevazione. Nel seguito analizzeremo alcune rilevazioni statiche riportate sotto forma di distribuzioni di frequenza e delle rilevazioni dinamiche di tipo quantitati-ve che evolvono nel tempo dette anche serie storiche. 1.3 Le distribuzioni di frequenza semplici Inquestaprimapartedelcorsoconsideriamoquellerilevazionistatisti-che che riguardano intere popolazioni per cui i risultati che si ottengono, a me-nodierroridimisurazionecheconsidereremotrascurabili,sonocerti.Inaltri termini, in questa prima parte del corso supporremo di muoverci in un mondo Capitolo 18 deterministico,ununiversoincuituttocertoancheseincognitopernostra ignoranza. Questo il mondo della Statistica descrittiva. Data una rilevazione statistica riguardante un determinato carattere pos-sedutodalleunitdirilevazionediunadefinitapopolazione,lediversedeter-minazioni (o modi) che il carattere assume nelle unit di rilevazione prendono il nome di modalit del carattere. Il numero, di solito indicato con N, delle unit dirilevazionedellapopolazioneconsiderataprendeilnomedinumerositdella popolazione. Esempio 7 Nel caso dell'esempio 2 in cui la popolazione era costituita dalle famiglie residenti in Campaniaal31/12/1992,seilcaratterepresoinconsiderazionefosselaprofessionedel capofamiglia, le modalit sarebbero costituite dalle diverse posizioni professionali dei residenti inCampania(esempio:contadino,artigiano,operaio,impiegato,professionista,ecc.);seil carattere preso in considerazione fosse la numerosit della famiglia allora le modalit sarebbe-rocostituitedallediversenumerositdiquellefamiglie(esempio:1,2,3,....,k,ovekil numero dei componenti della famiglia pi numerosa della popolazione); se il carattere fosse il titolo di studio del capo famiglia allora le modalit sarebbero i diversi titoli di studio di quei capifamiglia (esempio: senza titolo, licenza elementare, licenza media, licenza media superio-re, laurea). Esempio 8 Supponiamo che la nostra popolazione sia costituita da N=16 persone e che il carat-tere dinteresse sia l'altezza di queste persone espressa in centimetri; inoltre, supponiamo che le 16 misurazioni delle altezze abbiano dato luogo ai 16 numeri seguenti: 173154165160160155165173 170180165160154180173165 In tal caso le modalit del carattere altezza nella popolazione data sono costituite dai seguen-ti sette numeri: 154155160165170173180 Se il carattere di interesse della nostra popolazione fosse il colore degli occhi edalla no-stra rilevazione risultasse: NVMVVNVM MMNVMVMM Rilevazioni statistiche e distribuzioni di frequenza9 ove si posto N=colore nero, M=colore marrone, V=colore chiaro, allora le modalit della rilevazione sarebbero date dai seguenti tre simboli: N,M,V. Secontiamoquantevoltesipresenta,nellapopolazionedata,ciascuna modalitaognunadiquestevieneassociatounnumerointeropositivodetto frequenza. In altri termini: le modalit di una distribuzione di frequenze sono le diverse determinazioni che il carattere di interesse assume nella popolazione, le frequenze sono il numero di volte che si presentano le diverse modalit. Nel seguito indicheremo con una delle ultime lettere maiuscole dell'alfabe-tolatinolagenericarilevazionestatisticaquantitativaeconlacorrispondente lettera minuscola la generica modalit. Cos se indichiamo con X una rilevazio-nestatisticaquantitativaavremochexi indicherlasuamodaliti-esima.Seil fenomeno una qualit utilizzeremo una delle prime lettere dell'alfabeto latino. Cos se si indica con A la generica rilevazione qualitativa, la sua i-esima modali-t sar indicata con ai. In ogni caso useremo il simbolo ni, i=1, 2, ..., k, per in-dicarelafrequenzaassociataallai-esimamodalitsiaessaunaquantitouna qualit. Naturalmente sar sempre N = n1+ n2 + ... + nk =

kiin1 Se l'ordine con cui le osservazioni vengono acquisite irrilevante ai fini dell'analisi che si vuole condurre si dice che vi scambiabilit fra le unit di rile-vazione del fenomeno. In tal caso esiste una corrispondenza biunivoca fra rile-vazionestatisticaedistribuzionedifrequenzanelsensochetutteleinforma-zionicontenutenellaprimasonoconservatenellasecondaeviceversa.Lage-nerica distribuzione di frequenza quantitativa X assumer le modalit x1, x2, ..., xk conrispettivefrequenzen1,n2,...,nk,mentrelagenericadistribuzionedifre-quenzaqualitativaAassumerlemodalita1,a2,...,akconsimilifrequenze. Entrambe possono essere indicate con una tabella composta da due colonne e precisamente: Capitolo 110 VariabileMutabile xiniaini x1n1a1n1 x2n2a2n2 xknkaknk NN ove si suppone che le xi siano state ordinate in modo crescente per cui risulta x1 < x2 < ... < xk. Esempio 9 Riprendendo i casi riportati nell'esempio 8, le relative distribuzioni di frequenza sono date rispettivamente da: xiniaini 1542N3 1551V6 1603M7 165416 1701 1733 1802 16 Nelprimocasoilcarattereunaquantitequindiordinabile,nel secondo caso una qualit sconnessa e quindi l'ordinamento presentato del tutto soggettivo. Siosservichelagenericafrequenzanisempreunnumerointeronon negativo visto che indica quante volte si presenta ciascuna modalit. Al contra-rio, come gi detto, le modalit possono essere sia delle quantit, sia delle quali-t.Quandolemodalitdelcaratteresonodellequalitsidicechenellarileva-zione del fenomeno si usata una scala nominale dato che le modalit sono nomi oaggettivi.Ricordiamocheicaratteriquantitativipossonoesseresiadiscreti checontinuianche se quando vengono effettivamente misurati la misurazione avviene sempre nel discreto. I caratteri qualitativi possono essere sia non ordi-nabili ( la maggior parte dei casi) che ordinabili. Negliesempi8e9abbiamoderivatoduedistribuzionidifrequenza ot-Rilevazioni statistiche e distribuzioni di frequenza11 tenute da una popolazione molto piccola dato che era composta solo da 16 u-nit di rilevazione. In molti fenomeni socioeconomici spesso si analizzano po-polazioni composte da migliaia, se non da milioni, di unit di rilevazione e non ha molto senso, da un punto di vista pratico, riportare la lista di tutte le modali-t che il dato fenomeno assume. In questi casi, anche se sono noti i dati relativi a tutte le modalit assunte nella popolazione, le modalit vengono raggruppate conunqualchecriteriodisolitosoggettivoperformarequellechevengono chiamate classi di modalit. Esempio 10 Distribuzione di frequenza della popolazione residente (dati in migliaia di unit) in Calabria al 31 dicembre 1981 per classi diet (fonte ISTAT) Classi di etResidenti (in migliaia) xi |xi+1 ni 0 |15 587 15 |25 350 25 |45 511 45 |65 390 >65241 2079 Nellaprimarigadellatabellailsimbolo0|15staadindicarechei residenti in Calabriaal31/12/81conunaet,inannicompiuti,da0(escluso)a15anni(incluso) erano587.000,quellicheavevanounaetda15(escluso)a25anni(incluso)erano 350.000ecosvia.Osserviamochel'ultimaclasse,quellaindicataconilsimbolo>65, una classe aperta superiormente cio una classe in cui non indicato l'estremo superiore. In questo caso quell'ultima classe sta ad indicare che coloro che avevano pi di 65 anni di et erano 241.000. Le classi aperte si possono incontrare sia come classe finale, il caso del-l'esempio riportato, che come classe iniziale o per entrambe. Osserviamo che il simboloxi|xi+1staasignificarecheinquellaclasseleunitdirilevazione che hanno un carattere minore o uguale ad xi sono escluse mentre sono incluse immediatamentedopoxifinoadxi+1compreso.Inaltritermini,l'estremoinfe-rioreesclusomentrequellosuperioreincluso.Naturalmente,seavessiutilizzatola scrittura xi|xi+1 sarebbe stato incluso l'estremo inferiore della classe, mentre Capitolo 112 sarebbe stato escluso quello superiore. Le classi di modalit vengono utilizzate non solo per scrivere in modo pi compatto distribuzioni di frequenza con ca-ratterecontinuo,maanchequelleconcaratterediscreto come, per esempio, il numero dei figli per famiglia, oppure il numero di aziende per addetti, o il nu-mero di comuni per provincia. Abbiamo gi sottolineato che quando una rilevazione statistica viene tra-sformata in una distribuzione di frequenza si distrugge l'ordine in cui le osser-vazioni vengono acquisite e questo fa, in generale, perdere informazioni a me-no che le unit di rilevazione non siano scambiabilirispetto al problema in ana-lisi.Latrasformazionediunarilevazionestatisticainunadistribuzionedifre-quenzaperclassidimodalitdistruggeancora di pi informazioni e la perdita diinformazionitantopielevataquantopiampiesonolerispettiveclassi; questo particolarmente vero se vi sono classi aperte. Infatti, non mai possi-bilerisaliredalladistribuzionedifrequenzaperclassidimodalitaquellacon tuttelemodalitdistinte,mentre,ovviamente,semprepossibilefareilvice-versa. 1.4La rappresentazione grafica delle distribuzioni di frequenza Lerappresentazionigrafiche,ingeneraleequelledellerilevazionistati-stiche in particolare, servono solo a dare unidea sintetica e complessiva del fe-nomeno. Fenomeni a volte anche molto complessi per numerosit di variabili o di osservazioni o di entrambi possono essere efficacemente sintetizzati con una adeguata rappresentazione grafica. Da questo punto di vista i grafici non dico-nonulladipidicichegicontenutonelleosservazioni.Perquantoci ri-guarda, le varie rappresentazioni grafiche delle distribuzioni di frequenza fanno solocogliereaspettiglobalidelfenomenoanchesesiperdonoalcunidettagli. Da questo punto di vista se i grafici sono ben fatti sono un utile strumento di sintesi dei fenomeni in studio. Data la seguente distribuzione di frequenza: xini x1n1 x2n2 xknk N in cui il carattere si supposto ordinabile per cui risulta x1 < x2 < ... < xk, esi-stonovarimodiperrappresentarlagraficamente, qui di seguito ne presentere-mo alcune di largo uso ma semplici da costruire. Rilevazioni statistiche e distribuzioni di frequenza13 LE RAPPRESENTAZIONI AD ASTE In questo caso si considera un sistema di assi cartesiani e si riportano su diessolecoppiedipunti(xi,ni).Disolitolascalasuidueassidiversaedi punti cos ottenuti spesso si uniscono con una spezzata. Si ottiene cos un gra-fico come quello riportato nella figura che segue: Esempio 11 Riprendiamo la prima distribuzione di frequenza riportata nell'esempio 9. Il relativo grafico ad aste riportato nella figura seguente. LE RAPPRESENTAZIONI CON TORTE In questo caso la rappresentazione fatta su un cerchio che viene diviso Capitolo 114 in tanti settori quante sono le modalit. L'ampiezza di ciascun settore propor-zionaleaciascunafrequenzanelsensocheamodalitconfrequenzadoppia rispetto ad un'altra modalit sar attribuito un settore circolare doppio rispetto all'altroecosvia.Nellafigurachesegueriportatounesempiogenericodi una tale rappresentazione. Esempio 12 Consideriamo la prima distribuzione di frequenza dell'esempio 9 la sua rappresenta-zione a torta riportata nella figura Nellafigurachesegueriportiamolarappresentazionea torta della seconda distribuzione di frequenza dell'esempio 9. Rilevazioni statistiche e distribuzioni di frequenza15

Dall'esempioprecedenteseguechelerappresentazioniatortepossono essere utilizzate per qualsiasi tipo di distribuzioni di frequenza siano esse quan-titative o qualitative, con modalit distinte o per classi di modalit. In altri ter-mini, questo tipo di rappresentazione abbastanza generale da poterlo utilizza-re per qualsiasi tipo di distribuzioni di frequenza. LE RAPPRESENTAZIONI A NASTRI Si tratta di una rappresentazione simile a quella ad aste con la differenza che le barre vengono ordinate secondo l'ampiezza delle frequenze ci vuol dire chequestotipodirappresentazionepuessereutilizzatoperqualsiasitipodi distribuzione di frequenza indipendentemente dal fatto che il carattere sia ordi-nabile, misurabile, sconnesso. Esempio 13 Consideriamo la seconda distribuzione riportata nell'esempio 9 il cui carattere, come abbiamo sottolineato, una qualit non ordinabile, in tal caso la relativa rappresentazione a nastri riportata nella figura Come si pu notare da questa rappresentazione, la larghezza dei nastri la stessa per le tre modalit, il loro ordinamento fatto sulla base dell'ammontare delle frequenze e l'unica cosa che varia la lunghezza delle barre che funzione dell'ammontare delle frequenze. Esempio 14 Consideriamo la seguente distribuzione di frequenze rappresentante i laureati in Ita-Capitolo 116 lia nel 1990 distinti per gruppo disciplinare Gruppo disciplinare laureatiN Scientifico11.607 Medico11.167 Ingegneria11.740 Agrario2.642 Economico12.556 Politico-sociale4.571 Giuridico13.666 Letterario17.862 Diplomi3.670 Totale89.481 La relativa rappresentazione a nastri riportata nella figura seguente GLI ISTOGRAMMI DI FREQUENZA Questo tipo di rappresentazione viene costruito nel caso in cui la distri-buzione per classi di modalit. Infatti, nel caso in cui il carattere per classi di modalit e si voglia tener conto nella rappresentazione grafica della diversa am-piezza delle classi non pi possibile rappresentarle con barre come stato fat-to nell'esempio 11. In una situazione del genere non si sa in quale punto della classe va posizionata la relativa barra. Per superare questo inconveniente si so-stituiscono le barre con dei rettangoli che hanno per base l'ampiezza di ciascu-Rilevazioni statistiche e distribuzioni di frequenza17 na classe e per area l'ammontare della relativa frequenza. Per calcolare l'altezza, tenendocontodellaformuladelleareedeirettangoli:A=bh,ericordando che nel nostro caso per il generico rettangolo relativo alla classe xixi+1, risulta Ai = ni, bi = xi+1 - xi,avremo che la relativa altezza, detta anche intensit della classe, hi = nibi. In conclusione, gli istogrammi di frequenza si utilizzano per le distribu-zioniilcuicarattereperclassidimodalit.Sicostruisconotantirettangoli quante sono le classi. Detti rettangoli hanno per base le ampiezze delle relative classi, per area l'ammontare delle corrispondenti frequenze e per altezza il rap-porto fra la frequenza della relativa classe e l'ampiezza della stessa classe. Quan-to fino ad ora detto chiarito nell'esempio che segue. Esempio 15 Supponiamo di avere la seguente distribuzione di frequenza il cui carattere per classi di modalit: xi |xi+1nibi = xi+1 - xihi=ni/bi 0 |232-0=23/2=1.500 2 |545-2=34/3=1.333 5 |10510-5=55/5=1.000 10|20320-10=103/10=0.300 Totale15 i valori di bi ed hi sono riportati nella stessa tabella mentre il relativo istogramma riportato nella figurache segue Capitolo 118 1.5Frequenze relative e frequenze relative cumulate Dataunagenericadistribuzionedifrequenza,ilnumeronidivolteper cui si verifica la i-esima modalit o classe di modalit detta anche frequenza as-soluta . Dalle frequenze assolute possibile derivare le frequenzerelative,indicatedisolitocon fi,definitecomeilrapportofraciascuna frequenza assoluta e la somma di tutte le frequenze assolute: fi = niN. Si osservi che mentre le frequenze assolute sono dei numeri interi posi-tivi quelle relative sono delle percentuali: fi rappresenta la percentuale delle uni-t di rilevazione che appartengono alla i-esima modalit o classe di modalit. E' facile verificare che la somma delle frequenze relative pari ad uno, infatti: f1 + f2 + ... + fk = n1N+ n2N+ ... + nkN =n1+n2+...+nkN = NN= 1. Una caratteristica fondamentale delle frequenze relative di essere indi-pendenti dalla numerosit del fenomeno (numero delle unit di rilevazione ap-partenentiallapopolazionechesianalizza)equindipossonoessereutiliper confrontare distribuzioni di frequenza con le stesse modalit o classi di modali-trilevatein luoghi o tempi diversi. Le frequenze relative di una distribuzione difrequenzapossonoessere sempre calcolate indipendentemente dal carattere chesianalizzasiaessodiscretoocontinuo,siaquantitativooqualitativo.La rappresentazione grafica di una distribuzione di frequenze relative ha lo stesso andamento di quella in cui si utilizzano le frequenze assolute dato che nella de-Rilevazioni statistiche e distribuzioni di frequenza19 rivazione delle fi non si fatto altro che un cambiamento di scala (divisione per una costante). Nellatabellaseguenteriportataunatipicadistribuzionedifrequenza, derivatadaunaqualcherilevazionestatistica,incuisonoindicatesialefre-quenze assolute che quelle relative: xinifi x1n1 f1 = n1N

x2n2 f2 = n2N

x3n3f3 = Nn3 xknk fk = nkN

N1 Dallefrequenzerelativepossibilederivarelefrequenzerelativecumulate. Perchabbiasensoderivarequestotipodifrequenzenecessarioordinarepreventi-vamente le modalit del carattere della distribuzione di frequenza; questo implica che tale frequenze ha senso calcolarle solo se il carattere ordinabile. In parti-colare, nel caso di variabili l'ordinamento fatto in senso crescente. Le frequenze relative cumulate, indicate di solito con Fi, sono definite come il rapporto fra la somma delle prime i frequenze assolute e la somma di tutte le frequenze assolute: Fi =Nn n ni+ + + ...2 1. Si noti che sempre Fk = f1 + f2 + ... + fk = 1e risulta0 F1 F2 ... Fk= 1 in altri termini, le frequenze relative cumulate sono non decrescenti. Capitolo 120 Supponiamo che il carattere considerato sia una variabile e che le relative modalitsianostateordinatepercuirisulta:x1 xk) e calcolare la media aritmetica sulle classi centrali evidenziate nella tabella precedente. Naturalmente, se risulta f1 > fk si elimina l'ultima classe, mentre la prima rimane ma con una frequenza pari a f1- fk. Nel caso in cui sia fk > f1 si elimina la prima e l'ultima classe ed inoltre la frequenza della seconda classe si riduce a f2 -(fk-f1) facendo attenzione che sia f2 -(fk-f1) 0; se risulta f2 -(fk-f1) < 0 allora si eliminano le prime due classi e l'ul-timamentrelafrequenzadellaterzaclassesiriduceaf3-(fk-f1-f2)facendo attenzione che sia f3 - (fk - f1 - f2) 0, e cos via. Si osservi che la media troncata pu essere calcolata, ovviamente, anche Capitolo 238 per distribuzioni di frequenze il cui carattere quantitativo e non diviso in clas-si. Inoltre, tale indice robusto dato che elimina per costruzione le modalit o classidimodalitchesitrovanoagliestremi(piccoleegrandi).Naturalmente, come avviene per la media aritmetica, la media troncata non pu essere calcola-ta per distribuzioni di frequenze il cui carattere una qualit anche se ordinabi-le. Esempio 3 Consideriamo il caso riportato nell'esempio 2 e calcoliamo la media troncata ponendo come condizione l'eliminazione dell'ultima modalit. Visto che risulta fk = 1 < f1 = 2 per fare in modo che le frequenze eliminate siano bilanciate, la distribuzione troncata diviene xini 11 23 45 54 13 e la relativa media troncata, che indichiamo con T risulta pari a T =) ( 4 5 5 4 3 2 1 1131 + + + = 4713 3.615 Un altro indice di posizione molto utilizzato nelle pratiche applicazioni la mediana. LA MEDIANA Adifferenzadellamediaaritmetica,cheinvariaterispettoall'ordina-mento delle modalit o classi di modalit, per poter calcolare la mediana ne-cessario ordinare in modo crescente le modalit o le classi di modalit del carat-tere. La mediana quella modalit che bipartisce la distribuzione di frequenza il cui carattere stato ordinato in senso crescente. Cio quella modalit tale che il 50% delle frequenze stanno al di sopra ed il 50% al di sotto. Indici statistici descrittivi39 Di solito la mediana si indica con i simboli Me oppure e. Nel seguito utilizze-remo il primo di questi. Esempio 4 Supponiamo che nella rilevazione del numero dei componenti di 15 famiglie si sia a-vuto il risultato seguente: 1;3;5;2;4;3;2;1;4;4;3;1;5;4;2. Per poter calcolare la mediana necessario ordinare il carattere, che in questo caso dato dal numero dei componenti di ciascuna delle 15 famiglie, in sensonondecrescente ottenendo: 1 1 1 2 2 2 3 3 3 4 4 4 4 5 5Modalit che bipartisce la distribuzione Comesipunotare,lamodalitchebipartisceladistribuzionequellachestata racchiusa in un cerchio dato che al di sotto ed al di sopra di tale valore cadono lo stesso nume-ro di modalit. Questo vuol dire che in tal caso Me = 3. Le15osservazionilepossiamoriscriveresottoformadidistribuzionedifrequenza ottenendo la tabella seguente ove nell'ultima colonna sono state riportate le frequenze cumulate indicate con Ni xiniNi 133 236 339 4413 5215 15 Osserviamo che la mediana, per definizione, quella modalit che stacca alla sua si-nistra il 50% delle frequenze, cio N2% . In questo caso si haN2= 152= 7.5 e la me-Prima frequenza cumulata che supera 7.5 Capitolo 240 diana sar data dalla prima modalit xi la cui relativa frequenza cumulata supera 7.5. Nel nostro esempio, come indicato dalla freccia, tale modalit pari a 3 per cuirisulta Me = 3. Nel caso precedente il calcolo della mediana risultato piuttosto sempli-ce dato che la numerosit N era dispari. Vediamo ora cosa succede se N pari. Il tutto illustrato nell'esempio che segue. Esempio 5 Supponiamochelefamiglieintervistatesiano14echeirisultatiottenuti sullampiezza del loro nucleo familiare siano i seguenti 1;3;5;2;4;3;2;4;4;4;1;5;4;2 ordinando questi numeri si ottiene Come si vede, le modalit centrali della distribuzione sono due:quella di posto2N e quella di posto2N+1. In questo caso la modalit di posto 2N pari a 3 mentre quella di posto2N+1paria4elamediana,perconvenzione,siponepariallamediadiquestedue modalit, cio: Me = 3+42= 3.5 In definitiva, data la generica distribuzione di frequenza modalit centrali della distribuzione 11222334444455 34 2N12+N Indici statistici descrittivi41 xiniNi x1n1N1= n1 x2n2N2=n1+n2 x3n2N3=n1+n2+n3 .................. xknkNk=N N si distinguono due casi: 1)N dispari: in tale caso la mediana la prima modalit la cui frequenza cumulata su-pera N2 ; in altri termini la mediana quella modalit che, dopo averle ordi-nate in senso non decrescente, occupa il posto 21 + N-esimo. Osserviamo che essendo N dispari, N+1 sempre divisibile per due; 2)N pari: intalcasopercalcolarelamedianabisognaindividuarelamodalitche occupailposto 2N-esimo,lamodalitsuccessivacheoccupailposto (2N+1)-esimoedottenerelamedianacomesemisommadiquestidue valori: Me = xi + xi+12

In molti casi pu accadere che sia xi = xi+1 e naturalmente risulta Me = xi. Esempio 6 Supponiamodi avere osservato un qualche fenomeno che ha dato luogo alla seguente distribuzione di frequenza ove nelle ultime due colonne sono state riportate, rispettivamente, le frequenze cumulate e le frequenze relative cumulate Capitolo 242 xiniNiFi 2220.1 3460.3 54100.5 76160.8 104201.0 20 In questo caso, essendo N2=202= 10, le due modalit di riferimento sono xi = 5 individuato in corrispondenza di Ni = 10 edil successivo xi+1 = 7. Avremo cos Me = 5+72= 6. Questo uno dei pochi casi in cui la mediana non coincide con una delle modalit del fenome-no analizzato. Se la distribuzione fosse stata la seguente xiniNiFi 2220.1 3460.3 56120.6 76180.9 102201.0 20 allora avremmo avuto xi = xi+1 = 5 dato che la prima modalit che uguale o supera N/2 data proprio dal valore 5. Avremmo cos Me = 5. Ovviamente,invecechelefrequenzecumulate,possonoessereprese comemezzoperindividuarelamedianalefrequenzerelativecumulateintal caso il termine di riferimento non pi N/2 ma 0.5. Osserviamo ancora che la medianaunparticolarecaso di media troncata: si ottiene quando nel calcolo dellamediatroncatasieliminanoil50%deivaloripiccolied il 50% dei valori Indici statistici descrittivi43 grandi. Lamediana,alcontrariodellamediaaritmetica,unindicerobustonel sensocherisentemolto poco dell'esistenza di valori eccezionalmente grandi o piccoli nella distribuzione. Tutto questo illustrato nell'esempio che segue. Esempio 7 Riprendiamo la distribuzione dell'esempio 2 xiniNi 122 235 4510 5414 100115 15 ed essendo N/2 = 15/2 = 7.5 segue immediatamente che Me = 4. Se dalla distribuzione eliminiamo la modalit anomala x5 = 100otteniamo xiniNi 122 235 4510 5414 15 e risulta ancora Me = 4 che dimostra la robustezza di questo indice. E' interessante osserva-re che la media aritmetica di questa seconda distribuzione = 3.83 che vicino alla me-diana ed alla media troncata calcolata nell'esempio 3. Mostriamo ora come si calcola, anche se in via approssimata, la mediana quando il carattere per classi di modalit. In tal caso necessario individuare in primoluogolaclassemediana,cioquellaclassechecontieneil50%dellefre-quenzerelativecumulate.Questaclassesiindividuafacilmente.Infatti,basta considerare la prima classe per cui la rispettiva frequenza relativa cumulata su-pera o uguaglia 0.5. Se supponiamo che la prima classe per cui Fi0.5 la (xi; xi+1] evidente che la mediana cadr in questa classe Capitolo 244 Questo vuole dire che la mediana uguale ad xi pi qualcosa. Se si formula l'ipo-tesi semplificatrice che le frequenze della classe (xi; xi+1] si distribuiscono uni-formemente in essa, possibile impostare la seguente proporzione (Me - xi) : (xi+1 - xi) = (0.5 - Fi-1): (Fi - Fi-1) ed ottenere un valore approssimato per la mediana Me xi +(xi+1 - xi) 0.5 - Fi-1Fi - Fi-1

Quanto detto pu essere illustrato graficamente nella figura che segue Si osservi che nel caso particolare in cui Fi = 0.5 allora risulta Me = xi+1 co-me si pu anche derivare dalla formula sopra presentata per il calcolo della me-diana. Il calcolo della mediana pu anche essere fatto utilizzando al posto delle frequenze relative cumulate Fi le frequenze assolute cumulate Ni utilizzando la corrispondente formula Me = xi + (xi+1 - xi) 12 N - Ni-1Ni - Ni-1

Siosservichequestaformulaottenutadallaprecedentemoltiplicandoilnu-meratore ed il denominatore della frazione per N, notare che Ni la prima fre-Indici statistici descrittivi45 quenzacumulatachesupera 2N.Illustriamo quanto abbiamo detto con un e-sempio. Esempio 8 Consideriamolaseguentedistribuzionedifrequenzailcuicarattereperclassidi modalit ed in cui abbiamo riportato le frequenze relative fi e le corrispondenti frequenze rela-tive cumulate Fi e le frequenze assolute cumulate Ni: xi | xi+1nifiFiNi 0 | 130.200.203 1 | 550.330.538 5 | 740.270.8012 7 | 1530.201.0015 151 La prima frequenza relativa cumulata che supera 0.5 F2 = 0.53 in corrispondenza della quale vi la classe mediana 1 | 5 al cui interno si trover la mediana che, utilizzando la formula sopra riportata e ricordando che in questo caso xi = 1, xi+1 = 5, Fi = 0.53, Fi-1 = 0.2,

sar data approssimativamente da: Me 1 + (5 - 1) 0.5 - 0.20.53 - 0.2= 4.6. Utilizzando la seconda formula, tenuto conto che in questo caso risulta N2= 7.5, Ni = 8, Ni-1 = 3, avremo ovviamente lo stesso risultato: Me 1 + (5 - 1) 7.5 - 38 - 3= 4.6 Capitolo 246 Esempio 9 SupponiamodiavererilevatounfenomenoXottenendolaseguentedistribuzione di frequenza xi nifiFiNi 220.10.12 340.20.36 540.20.510 760.30.816 1040.21.020 201.0 Dato che N = 20 pari si ha immediatamente che la mediana compresa fra la 10 e la 11 posizione e quindi fra le modalit 5 e 7, per convenzione si pone Me = 5 + 72= 6. Lafunzione di ripartizione di questa distribuzione di frequenza riportata nella figura se-guente da cui emerge ancora che la mediana un valore indeterminato fra 5 e 7 che per con-venzione pu essere posto pari allamedia di queste due modalit. Indici statistici descrittivi47 Supponiamo ora di avere ottenuto la seguente distribuzione di frequenza xi nifiFiNi 120.150.152 230.210.365 330.210.578 440.280.8512 520.151.0014 141.0 Anche in questo caso N=14 pari per cui la mediana compresa fra la 7 e la 8 posizione a cui corrisponde la stessa modalit 3, pertanto avremo Me = 3 + 32= 3. Tutto questo si evince immediatamente dalla relativa funzione di ripartizione riporta-ta qui di seguito. Abbiamovistocheunaproprietdellamedianadiessererobustari-Capitolo 248 spetto alla presenza di valori eccezionali, un'altra propriet, che non dimostre-remo,chelasommadegliscartiinvaloreassolutodallamediana,ponderati con le relative frequenze, un minimo rispetto a qualsiasi altro valore reale, in simboli: i=1k|xi - Me|ni i=1k|xi - a|ni per qualunque a reale. Con la stessa logica con cui stata calcolata la mediana possibile calco-lare altri indici che prendono il nome di quartili. I QUARTILI

Ilprimoquartile,disolitoindicatoconQ1,quelvalorealdisottodel quale cade il 25% delle frequenze ed al di sopra il 75%; il terzo quartile, di solito indicato con Q3, quel valore al di sotto del qua-le cade il 75% delle frequenze ed al di sopra il 25%. Perquantodettolamediana,chesarsemprecompresafraQ1eQ3, prendeancheilnomedisecondoquartileevieneancheindicatapersimilitudine con Q2. I tre indici Q1, Q2, Q3, per come sono costruiti, dividono una distribu-zione di frequenza in quattro parti uguali da cui il nome di quartili. Un modo operativo per calcolare i quartili si basa sul fatto che la media-na, Me = Q2, divide una distribuzione di frequenza in due sotto distribuzioni in ciascuna delle quali ricade, per costruzione, lo stesso numero di unit di rileva-zioni.Ebbene,Q1nonaltrochelamedianadellaprimasottodistribuzione (da x1 incluso a Me escluso) e Q3 la mediana della seconda sotto distribuzione (da Me escluso a xn incluso). Il calcolo pratico dei quartili si effettua con la stes-sa tecnica usata per la mediana solo che per Q1 il termine di riferimento N4 e perQ3 3N4.Naturalmente,seperilcalcolodeiquartilisiutilizzanolefre-quenze relative cumulate i valori di confronto sono 0.25 per Q1 e 0.75 per Q3 cos come 0.50 lo per la mediana. Una distribuzione di frequenza pu essere sintetizzata con cinque numeri notevoli: Indici statistici descrittivi49 x1:minima modalit della distribuzione Q1:primo quartile della distribuzioneQ2 = Me:mediana della distribuzione Q3:terzo quartile della distribuzione xk:massima modalit della distribuzione. Questi cinque numeri possono anche essere usati per costruire un parti-colare grafico che prende il nome di box-plot(grafico a scatola) come illustrato nella figura seguente Ilbox-plotunmodoalternativoperrappresentareecontemporanea-mentesintetizzare,vistochesibasasolosucinquenumericaratteristici,una distribuzionedifrequenzaepuesserecostruitoseilcarattereunaquantit sia esso riportato in classi di modalit o meno. Spesso il box-plot molto utile per confrontare distribuzioni di frequenze relative allo stesso fenomeno rileva-tointempioluoghidiversi.Intalecasoidiversibox-plotvengonoaffiancati per poterne dare una lettura d'insieme (box-plot paralleli). Esempio 10 Calcoliamo i quartili della distribuzione di frequenza di cui all'esempio 5 e costruia-mo il relativo box-plot. xi niNiFi 2220.10 3460.30 55110.55 75160.80 104201.00 20 Capitolo 250 Da questa distribuzione si ricavano immediatamente i cinque valori caratteristici: x1 = 2 Q1 = 3Q2 = 5Q3 = 7xk = 10 che permettono di ottenere il relativo box-plotriportato nella figura seguente. Vediamo ora come possono essere utilizzati i quartili per individuare l'e-sistenza di eventuali valori eccezionali presenti in una distribuzione di frequen-za. A tale proposito definiamo i seguenti due valori cardine: h1= Q1 - 1.5(Q3 - Q1); H2 = Q3 + 1.5(Q3 - Q1). Tuttelemodalit,seesistono,pipiccoledih1sonovalorieccezionalmente piccoli; tuttelemodalit,seesistono,pigrandidiH2sonovalorieccezionalmente grandi. Icardinisonoparteintegrantedelbox-plotevannosemprecalcolatied indicatiseh1pigrandedix1edH2pipiccolodixk.Nellastessafigura vannoindicatisempreglieventualivalorieccezionali.L'esempiocheseguemo-stra come va costruito un box-plot. Esempio 11 Supponiamo di avere la seguente distribuzione di frequenza e quindi235718 24662 xi ni Indici statistici descrittivi51 x1 = 2Q1 = 3Q2 = 5Q3 = 7xk = 18 h1 = 3-1.5(7-3) = -3 H2 = 7+1.5(7-3) = 13 Comesipotevaintuire,nelladistribuzionedata non vi sono valori eccezionalmente piccoli,mavenesonodueeccezionalmentegrandiconmodalitparia18.Questomesso chiaramente in luce nel relativo box-plot ove sono indicati i due valori eccezionali con due a-sterischi. Notare che in questo caso si riportato solo il cardine superiore H2 . * Unindicechepuesserecalcolatoperqualsiasidistribuzionedifre-quenzaindipendentementedallecaratteristichedelcarattererilevato,ciosia esso una variabile o una mutabile ordinabile o sconnessa, la moda. LA MODA Di solito tale indice viene indicato con il simbolo Mo e pu essere defini-to come segue: lamodaquellamodalitdelcarattereacuicorrispondelamassima frequenza della distribuzione: Mo = {xi:ni = max) Naturalmente, dato che la moda un indice molto generale, le informa-zioni che fornisce su una distribuzione di frequenza sono poche. Esempio 12 Supponiamochelarilevazionediunparticolarecarattereinunapopolazioneabbia dato luogo alla seguente distribuzione di frequenza Capitolo 252 xinixiniNiFi 732130.143 854080.380 15460120.570 187126190.905 21242211.000 21289 La moda, la mediana e la media di questa distribuzione sono date rispettivamente da: Mo = 18;Me = 15; = 13.7619. Come si pu notare, in questo caso, i tre indici sono abbastanza differenti fra di loro, come d'altra parte era da attendersi dato che ciascuno di loro mette in rilievo particolari aspet-ti della distribuzione in studio. Se il carattere per classi di modalit bisogna porre l'attenzione non sul-lefrequenzenimasulleintensitdiciascunaclassehi(lealtezzedeirettangoli nell'istogrammadelladistribuzione)individuandocoslarelativaclassemodale all'interno della quale cade la moda, questa verr ottenuta solo in via approssi-mata. La classe modale di una distribuzione, il cui carattere per classi di modali-t, data da: classe modale = { xi | xi+1: hi = max}. dove hi l'intensit della classe e, come abbiamo visto, data da hi = nibi = nixi+1 - xi

Se la classe modale individuata xi | xi+1 risulter xi Mo xi+1. Un metodoutilizzatoperottenere,ancheseinviaapprossimata,unvaloreperla moda di considerare il valore centrale della classe modale: Mo xi + xi+12

Indici statistici descrittivi53 Questaapprossimazionesibasasull'ipotesichelefrequenzesidistribuiscano uniformementenellaclassemodaleedilsuovalorecentralelerappresenta,in media, molto bene. Esempio 13 Supponiamo di avere rilevato un fenomeno il cui carattere, quantitativo, sia riportato per classi di modalit ottenendo la seguente distribuzione di frequenza xi | xi+1nihi 1 | 321.000 3 | 751.250 7 | 1570.875 15 | 2081.600 22 da cui si ha immediatamente che, essendo l'intensit massima del carattere pari a h4 = 1.6, la classe modale data da 15 | 20 e la moda sar approssimativamente pari a Mo 15 + 202= 17.5. Supponiamo ora che la distribuzione sia data da xi | xi+1nihi 1 | 321.000 3 | 751.250 7 | 1570.875 15 | 2281.143 22 Come si pu notare, questa nuova distribuzione molto simile alla precedente l'unica differenzafraleduel'estremosuperioredell'ultimaclasseche nella prima era pari a 20 e nellaseconda22.Questalievedifferenzaimplicaperchelaclassemodaledellaseconda distribuzione data da 3 | 7per cui sar 3 < Mo < 7 e la relativa moda sar data, approssimativamente, da Mo 3 + 72= 5. che un valore molto diverso dal precedente. Questo esempio ci mostra come la moda sia un Capitolo 254 indice poco robusto e sensibile al modo in cui le classi di modalit vengono costruite. Un ultimo indice di locazione che tratteremo in questo corso, ma di in-dici di locazione ne esiste una larga schiera spesso dimenticati ed inutilizzati, la media geometrica. LA MEDIA GEOMETRICA E' un indice che viene utilizzato, essenzialmente, quando il carattere del-la distribuzione un tasso (tasso di interesse, di produzione, di sviluppo ecc.) e viene indicato con G. Questo indice ha senso utilizzarlo solo se il fenomeno, oltre ad essere una quantit, strettamente positivo per le ragioni che vedremo pi innanzi. Data la generica distribuzione di frequenza X le cui modalit quan-titative sono tutte distinte e strettamente positive: xini x1n1 x2n2 xknk N lamediageometricadelladistribuzionedifrequenzasoprariportatadefinita nel modo seguente: G = Nxn11 xn22 ... xnkk

Lamediageometricapuessereanchescrittainterminidifrequenze relative, infatti G = Nnkn nkx x x ...2 12 1=( )Nnkn nkx x x/ 12 1...2 1= x11fx22f... xkfk= = i=1kxfii

La media geometrica ha una serie di caratteristiche alcune delle quali so-no qui di seguito illustrate: Indici statistici descrittivi55 1) seunadellemodalitfossepariazero,lamediageometricasarebbe sempre pari a zero indipendentemente dal valore assunto dalle altre mo-dalit. Inoltre, se una delle modalit fosse negativa ed N dispari la radice nonesisterebbenelcampodeinumerireali.Perquestimotivilamedia geometricavieneutilizzatapercaratterimisurabilipositivi.Osserviamo ancora che questa media, come gi visto per la media aritmetica e la mo-da, indipendente dall'ordinamento delle modalit del carattere. 2)Mentre la media aritmetica pu essere definita come quel valore che so-stituito a ciascuna modalit xi ne lascia immutata la somma, cio: i=1kxi ni = i=1k ni= N la media geometrica quel valore che sostituito a ciascuna modalit xi ne lascia immutato il prodotto, cio: i=1kxnii= i=1kniG= NG

3)Si pu dimostrare che sempre x1 G xk 4) Si pu dimostrare che (caso particolare della disuguaglianza di Jensen) G con l'uguaglianza se e solo se risulta x1 = x2 = ... = xk = . 5)Lamediageometrica,coscomeabbiamovistoperlamediaaritmetica, non un indice robusto e quindi fortemente influenzata dalla presenza di valori eccezionali. 6)Fra la media aritmetica e quella geometrica esiste un altro rilevante lega-me: il logaritmo della media geometrica uguale alla media aritmetica dei logaritmi: log(G)= i=1kfi log(xi) Infatti, risulta immediatamente Capitolo 256 log (G) = log ]]],,

ifikix1=i=1klog( )ifix = i=1kfi log(xi) Comesipunotare,l'ultimaespressionepropriolamediaaritmetica, non degli xi, ma del loro logaritmo. Quest'ultimaproprietsuggeriscedicalcolarelamediageometricacomel'espo-nenziale della media aritmetica dei logaritmi: G =)ix log(ifkie1 Esempio 14 Supponiamo che nella rilevazione di un carattere di una popolazione di 14 unit sia stata ottenuta la seguente distribuzione di frequenze: xiniNixi nilog(xi)ni log(xi) 22240.69311.3863 33591.09863.2958 549201.60946.4378 6312181.79175.3753 8214162.07944.1589 146720.6541 da cui si ricava immediatamente i=1kfi lg(xi) = 1N

i=1kni lg(xi) = 20.654114= 1.4753 e quindi G = exp ((,\,,(j

) x lg( fi iki 1= exp(1.4753) = 4.3723 Per gli altri indici di locazione si ottiene: = 6714= 4.7857 Indici statistici descrittivi57 Me = 5 Mo = 5 Si osservi che, come previsto dalla teoria, risultaG < . Se la distribuzione per classi di modalit, la media geometrica pu esse-re calcolata in via approssimata sostituendo a ciascuna classe il suo valore cen-trale, ci, e quindi utilizzando la formula: G exp ((,\,,(j

) c log( fi iki 1 2.3 Alcuni indici di variabilit Abbiamo visto che gli indici di posizione individuano il valore o la mo-dalitchepuessereconsideratapirappresentativadelladatadistribuzionedi frequenza. Una volta calcolato un indice di posizione necessario anche elabo-rareunqualcheindicechecidiainformazionesulgradodirappresentativit del-l'indicedilocazioneconsiderato.Questoaspettolegatoallavariabilitdelfe-nomeno preso in considerazione, ove: la variabilit di una distribuzione di frequenza X la sua attitudine ad assumere differenti modalit. Data la generica distribuzione di frequenza X: xini x1n1 x2n2 xknk N essa tanto pi variabile quanto pi diverse e distantifra di loro sono le moda-lit che assume. Da questo punto di vista gli indici di variabilit devono essere tutti non negativi ed aumentare all'aumentare della variabilit del fenomeno. Il massimodellavariabilitsihaquandoicaratterisonopolarizzatiaidueestremi, cio una parte delle unit di rilevazione assume la modalit pi piccola possibile Capitolo 258 x1, e le restanti unit di rilevazione assumono la massima possibile xk. L'assenza divariabilitsiottienequandotuttelemodalitdelcaratteresonougualifradi loro, cio se x1 = x2 = ... = xk = . Di indici che misurano la variabilit di un caratterenesonostatielaboratiunalargaclasse,quidiseguitoverrannopre-sentati quelli pi noti ed usati nelle pratiche applicazioni. L'INTERVALLO DI VARIAZIONE E' il pi semplice e, per molti aspetti, grossolano indice di variabilit. Di solitovieneindicatoconilsimboloIV,piprecisamentequestoindicepu essere definito nel modo seguente:

l'intervallodivariazione(range)datodalladifferenzafralapigrandeelapi piccola modalit del carattere: IV = xk - x1 E' sempre IV 0 ed nullo se e solo se x1 = xk che equivale a dire che tuttelemodalitsonougualifradiloro.Comeabbiamogi sottolineato, un indice molto grossolano perch nel suo calcolo tiene conto solo delle due mo-dalitestremedisinteressandosidicicheavvienenelcorpodelladistribuzio-ne.Perquestomotivodistribuzionianchemoltodiversefradiloropossono presentare lo stesso valore di IV come illustrato nella figura seguente. Da que-sta si evince che le due distribuzioni, pur avendo un andamento molto diverso e quindi una variabilit nettamente differente, hanno lo stesso valore di IV. L'indice IV un indice assoluto, funzione dell'unit di misura utilizzata per rilevare il fenomeno, e quindi non pu essere usato per confrontare la va-riabilitdidistribuzionimisurate con differente unit di misura. Un modo per Indici statistici descrittivi59 relativizzare tale indice, cio renderlo indipendente dall'unit di misura, IVr = xk - x1|x1| Un secondo e pi usato indice di variabilit la varianza. LA VARIANZA Piprecisamente,questoindicevieneindicatoconunodeiseguenti simboli2,var(X),E[(X-)2],S2,s2.Disolito,isimboli2,var(X),E[(X-)2] vengonousatiperindicarelavarianzainunapopolazione,mentreS2,s2 sono usati per indicare la varianza di campioni casuali.

La varianza di una distribuzione di frequenza X data: 2 = var(X) = 1N i=1k (xi - ) 2ni Comesipunotare,lavarianzadiXnonaltrochelamediadeiqua-drati degli scarti, per questo motivo si ha che 2 0 e risulta 2 = 0 se e solo se tutte le modalit sono uguali fra di loro e quindi coincidenti con la media: x1 = x2 = ... = xk = . La varianza, non solo misura la variabilit del fenomeno, ma indica fino a che punto rappresentativo della distribuzione data. Perpotercalcolarelavarianzanecessarioinprimoluogocalcolarela media e, da un punto di vista pratico, pu essere utile costruire una tabella del tipo: xinixini(xi-)2(xi-)2ni x1n1x1n1(x1-)2(x1-)2n1 x2n2x2n2(x2-)2(x2-)2n2 ............... xknkxknk(xk-)2(xk-)2nk N xini (xi-) 2ni Capitolo 260 ove la terza colonna permette di calcolare la media (dividendo la somma di tale colonnaper N)el'ultimalavarianza(dividendolasommadi tale colonna per N). La varianza pu essere espressa sotto una diversa forma: 2 = 1N (xi-) 2ni = 1N (x2i - 2xi + 2) ni = = 1Nx2i ni - 2 1Nxini + 2 1Nni = = 1Nx2i ni- 22 + 2 = 1Nx2i ni- 2 Se indichiamo 1Nx2i ni= 2 la varianza si pu anche ottenere come 2 = var(X) = 2 - 2 L'indice 2 detto momento secondo della distribuzione di frequenza ed la mediaaritmeticadeiquadratidellemodalit,essoanche indicato con E(X2). In definitiva varianza = media dei quadrati - quadrato della media = =2 - 2 = E(X2) - [E(X)]2 Notiamo che, essendo per costruzione 2 0, si avr 2 2 laquantit2vieneanchechiamatamediaquadraticaedutilizzatacomeuno degli indici di posizione. Da un punto di vista pratico la varianza di una distribuzione X pu an-cheesserecalcolatautilizzandolaformula2=2 - 2 e quindi adottando lo Indici statistici descrittivi61 schema seguente: xinixini x2i ni x1n1x1n1 x21 n1 x2n2x2n2 x22 n2 ............ xknkxknk x2k nk N xini x2ini ove la terza colonna permette di calcolare la media (somma della colonna divi-so N) e l'ultima il momento secondo (somma della colonna diviso N). Generalizzandoilconcettodimomentosecondopossibiledefinirei momenti di ordine r. I MOMENTI DI ORDINE r

Il momento di ordine r, che di solito si indica con il simbolo r o con E(Xr), la media delle potenze r-esime delle modalit: r = E(Xr) = 1N i=1kxri niper r=1,2,.... Si osservi che se r=1 si ottiene la media aritmetica, se r=2 si ottiene il momentosecondoutile,comevisto,perilcalcolodellavarianza.Daquesto punto di vista la media aritmetica viene detta anche momento primo. Naturalmente,affinchlavarianzapossaesserecalcolatanecessario che il carattere sia misurabile e quindi dia luogo ad una variabile. Se il carattere per classi di modalit la varianza pu essere calcolata solo in via approssimata sostituendo a ciascuna classe di modalit il suo valore centrale cied ottenendo: 2 1N i=1k (ci - ) 2ni. Vediamo alcune caratteristiche della varianza: Capitolo 262 1)Dato che la varianza definita come media degli scarti al quadrato, un indicechedipendedall'unitdimisuraalquadrato.Inaltritermini,se per esempio il fenomeno misurato in quintali la sua varianza espressa in quintali al quadrato, se il fenomeno misurato in centimetri la sua va-rianzamisurataincentimetriquadriecosvia.Perevitarequestoin-conveniente come misura della variabilit si considera lo scarto quadratico medio definito come la radice quadrata (positiva) della va-rianza: =2= 1N i=1k (xi - )2ni =2 - 2

Questoindiceespressonellastessaunitdimisuradelfenomenoe viene anche chiamato deviazione standard (standard deviation). 2)La varianza, come pure lo scarto quadratico medio, sono indici poco ro-busticiofortementeinfluenzatidall'esistenzadivalorieccezionaliesi-stenti nella distribuzione. 3)DataladistribuzioneXconmediaxevarianza2xsecostruiamola nuova distribuzione Y = a +bX si ha che 2y= b22x Infatti, ricordando che in questo caso risulta y = a +bx, avremo 2y= 1Ni=1k (yi - y) 2ni = 1Ni=1k (a+bxi - a - bx) 2ni = 1N i=1k (bxi - bx) 2ni = b21N i=1k (xi - x) 2ni = b22x che dimostra quanto abbiamo affermato. DaunadistribuzionedifrequenzaXconmediaxevarianza2x semprepossibilederivareunanuovadistribuzione,chiamiamolaZ, con media Indici statistici descrittivi63 zero e varianza pari ad uno. Questa distribuzione prende il nome di standardizzata ed definita come Z = X - xx

Facciamo vedere che effettivamente Z ha sempre media zero e varianza uno. Notiamo che Z si pu anche scrivere come Z = -xx+ 1xX Questo vuole dire che Z una particolare trasformazione lineare della X con le costanti a e b date rispettivamente da a = -xx;b =1x e quindi per quanto detto in precedenza risulta: z = a + bx = -xx+1xx = 0 2z= b22x= 12x 2x= 1 OsserviamocheladistribuzioneZ,percomestatacostruita,indi-pendente dall'unit di misura utilizzata per rilevarla ed proprio per questo che viene chiamata standardizzata. Questo vuole dire che se vogliamo confrontare duedistribuzionicondifferenteunitdimisurasipuricorrereallerispettive standardizzate.Nell'esempiocheseguemostriamocomedaunadistribuzione data si ottiene la sua standardizzata. Esempio 15 Deriviamo la distribuzione standardizzatadalla seguente Capitolo 264 xinixini x2i ni 0100 2248 341236 531575 1031119 da cui x = 3.1 x=11.9 - 9.61= 1.5133 E quindi la standardizzata della distribuzione considerata data da: zini 0-3.11.5133= - 2.04851 2-3.11.5133= - 0.72692 3-3.11.5133= - 0.06614 5-3.11.5133= 1.25555 10 Osserviamo che la media e la varianza di Z risultano rispettivamente pari a z = -0.0002 2z= 0.9999 invecechezeroedunocomeattesoequestoperleinevitabiliapprossimazionidicalcoloche bisogna in generale fare. Se la distribuzione data per classi di modalit e si vuole derivare la rela-tivastandardizzata,questapuesserericavatasoloinviaapprossimatacalco-landolamediaeloscartoquadraticomediosostituendoaciascunaclasseil proprio valore centrale e quindi standardizzando gli estremi di ciascuna classe. Cossexexsonomediaescartoquadraticomedioottenutiinmodoap-prossimato come sopra detto, la generica classe xi | xi+1 si trasformer nella standardizzata zi | zi+1 ove si semplicemente posto: Indici statistici descrittivi65 zi = xi - xx zi+1 = xi+1 - xx

Questa operazione verr ripetuta per ciascuna delle k classi della distribuzione. Esempio 16 Supponiamo di avere osservato un fenomeno X su una popolazione di 12 unite de-rivato la distribuzione, per classi di modalit, riportata qui di seguito. xi | xi+1nicicini c2i c2i ni 0 | 120.51.00.250.50 1 | 342.08.04.0016.00 3 | 755.025.025.00125.00 7 | 1018.58.572.2572.25 1242.5213.75 Da cui si ottiene immediatamente: = 42.512= 3.5417 2 = 213.7512= 17.8125 2 = 2 - 2 = 17.8125 - (3.5417)2 = 5.2689 =5.2689= 2.2954 La relativa standardizzata sar ottenuta standardizzando gli estremi di ciascuna classe: zi | zi+1ni -1.542 | -1.1072 -1.107 | -0.2364 -0.236 | 1.5075 1.507 | 2.8141 12 Osserviamocheinquestocasorisultaz0.0054e2z0.9923invecechegliattesi valori di zero ed uno teorici e ci per le inevitabili approssimazioni che si costretti a fare nei calcoli. Capitolo 266 Abbiamovistochesialavarianzacheloscartoquadraticomediosono degli indici assoluti, cio dipendenti dall'unit di misura del fenomeno, e quindi non possono essere utilizzati per confrontare la variabilit di distribuzioni con differente unit di misura. Per ovviare a questo inconveniente si definisce il co-efficiente di variazione. IL COEFFICIENTE DI VARIAZIONE Questo un indice di variabilit relativo, viene di solito indicato con CV e definito nel modo seguente: il coefficiente di variazione dato dal rapporto fra lo scarto quadratico medio ed il valore assolutodella media: CV = Percomestatocostruito,l'indicesemprenonnegativoedindipen-dente dall'unit di misura utilizzata per rilevare il fenomeno. Non per un in-dicerobustodatochefunzionedidueindicichesonosensibiliall'esistenza dei valori eccezionali nella distribuzione. Inoltre, non definito se la media del fenomenozeroetendeadessereinfinitamente grande se la media del feno-meno tende ad essere molto piccola. LO SCOSTAMENTO SEMPLICE MEDIO Un differente indice di variabilit, poco usato nelle applicazioni, indicato di solito con il simbolo S, lo scostamento semplice medio definito come la media degli scarti, in valore assolu-to, dalla media: S = 1N i=1k|xi - |ni Questo indice espresso nella stessa unit di misura del fenomeno con-siderato. Non un indice robusto ed funzione, come detto, dell'unit di mi-Indici statistici descrittivi67 sura del fenomeno. L'indice pu essere relativizzato nel modo seguente: Sr = S||

LO SCOSTAMENTO SEMPLICE MEDIANO Anche questo indice poco usato nelle pratiche applicazioni, di solito indicato con SM ed definito nel modo seguente: loscostamentosemplicemedianolamediadegliscarti,invaloreassoluto,dalla mediana: SM = 1N i=1k|xi - Me|ni E' un indice non robusto ed funzione dell'unit di misura del fenome-no. L'indice pu essere relativizzato considerando SrM = SM|Me|

Inoltre, per quanto abbiamo detto sulla mediana, risulta sempre SM S LA DIFFERENZA TRA QUARTILI Un indice di variabilit legato ai quartili di una distribuzione di frequen-za, e quindi robusto rispetto all'esistenza di valori eccezionali, :

la differenza tra quartili definita da DQ = Q3 - Q1 Questo indice espresso nella stessa unit di misura del fenomeno ed Capitolo 268 dato dall'ampiezza del box nella rappresentazione box-plot. L'indice pu essere facilmente relativizzato in modo da poter confrontare agevolmente la variabili-t di distribuzioni rilevate con differente unit di misura: DQr = Q3 - Q1|Q2|

Naturalmente, l'indice DQr robusto rispetto all'esistenza di valori eccezionali. Esempio 17 Consideriamo la distribuzione di frequenza dell'esempio 11. Abbiamo gi visto che Q1 = 3Q2 = Me = 5 Q3 = 7 inoltre = 6.6Si ottiene cos: DQ = 7 - 3 = 4; DQr = 7 - 35= 0.8 Inoltre: xinixini |xi - |ni |xi -Me|ni 2249.26 341214.48 55258.00 75352.010 102206.810 1823622.826 2013263.260 e risultaS = 3.16SM = 3.0 per cuiSr = 0.479SrM = 0.6. Seilcaratteredelladistribuzioneunaqualitgliindicisopradefiniti nonpossonoessereutilizzatipermisurarelavariabilitesistentenelcarattere. In questi casi sono stati definiti una serie di indici che misurano la diversitdelle modalit del carattere prendendo in considerazione le frequenze della distribu-Indici statistici descrittivi69 zioneetenendocontodelfattocheuncaratteretantopivariabilequanto pinumeroseediversesonolemodalit.Seilcaratteresiriduceadunasola modalit vuole dire che vi la minima diversit nella popolazione data rispetto a quel carattere. La variabilit tanto pi elevata quanto pi numerose sono le modalit.Gliindicicosdefinitivengonodisolitochiamatiindicidimutabilit perchapplicabiliacaratterinonquantitativi(lemutabili).Naturalmente,vo-lendo, questi indici possono essere utilizzati per misurare la variabilit anche di distribuzioni di frequenza il cui carattere una variabile. L'ENTROPIA DI SHANNON Questo indice misura il disordine, l'eterogeneitesistente in un sistema ed statoripresodaunconcettofisicolegatoalsecondoprincipiodellatermodi-namica. L'indice di entropiadi Shannon di una data distribuzione di frequenzaX definito da: H = - i=1kfi log(fi) Comefacileverificare,risultaH=0setuttelemodalitsonouguali; infatti, in tal caso si ha che una sola frequenza relativa, diciamo per semplicit laf1,pariadunomentrelealtrek-1sonopariazeroquestovuoledireche l'indice, ricordando che log(1) = 0,diviene H = - 1 log(1) = 0. Viceversa, l'indice massimo se tutte le frequenze sono uguali fra loro: fi = 1kper i=1,2,...,k, e l'indice di Shannon diviene H = - k 1 klog(,\,(jk1= log(k) Questo ci permette di definire un indice di entropia relativo dato da Capitolo 270 0 Hr = - ) k log() f log( fi ik1 i

1 Pi Hr vicino a zero minore la disomogeneit del carattere, pi vicino ad uno maggiore la disomogeneit del fenomeno. L'INDICE DI MUTABILITA' DI GINI Anche questo un indice che viene utilizzato per misurare la disomoge-neit di un carattere qualitativo. L'indice di mutabilit del Gini di una data distribuzione X dato da: MG = 1- i=1kf 2i Ilvaloreminimodiquestoindicevalezeroesiottieneseilcarattereassume unasolamodalitpercuituttelefrequenzerelativesononulleeccettoquella dell'unica modalit assunta che vale uno: MG = 1 - 12 = 0. Viceversa,l'indicemassimoselemodalitassumonotuttelestesse frequenze (caso di equipresenza delle diverse modalit): fi = 1kper i=1,2,...,k, e l'indice di Gini diviene MG = 1 - k 1k2= k-1k

Questocipermettediottenereunindicedimutabilitrelativadatosemplice-mente da 0 MGr = ]]],,

2111ikifkk 1 Indici statistici descrittivi71 Pi MGr vicino a zero minore la disomogeneit del carattere, pi vicino ad uno maggiore la disomogeneit del fenomeno. Esempio 18 Supponiamo che la distribuzione di una popolazione di 25 adulti rispetto al titolo di studio conseguito sia la seguente: Titolo di studionifi Nessun titolo10.04 Elementare30.12 Media Inferiore110.44 Media Superiore60.24 Laurea40.16 251.00 si ha immediatamente Hr = - 1log(5)[0.04 log(0.04) + 0.12 log(0.12) + 0.44 log(0.44) + 0.24 log(0.24) + 0.16 log(0.16)] = 1.380141.60944= .8575 MGr = 54 [1- (0.04)2 - (0.12)2 - (0.44)2 - (0.24)2 - (0.16)2]= 54 0.7072 = 0.884 2.4Alcuni indici sulla forma Nelle pagine precedenti abbiamo illustrato alcuni indici di posizione e di variabilit, in questo paragrafo tratteremo di indici che forniscono informazioni sintetichesualcuniaspettidellaformadiunadistribuzionedifrequenza.In particolare, tratteremo della: asimmetria di una distribuzione di frequenza rispetto al suo centro di gravit che abbiamo visto coincidere con la media aritmetica; curtosidiunadistribuzionedifrequenza,cioilsuomaggioreo minore ap-piattimento rispetto ad una distribuzione tipo detta normale. Capitolo 272 ALCUNI INDICI DI ASIMMETRIA E' noto che una generica funzione g(x) simmetrica rispetto ad un valo-re se risulta: g( - x) = g( + x) perognixnell'insiemedidefinizionedig(x).Nelnostrocaso,comeabbiamo sopraaccennato,ilparametro lamediaaritmetica.L'importanzadisapere se una data distribuzione pi o meno vicina al caso di simmetria misurandola condegliindicidovuto,fral'altro,alfattocheseunadistribuzionedifre-quenza perfettamente simmetrica allora, come facile capire, risulta: = Me ciomediaemedianacoincidono.Se la distribuzione, oltre ad essere perfetta-mente simmetrica anche unimodale (cio possiede una sola moda) allora si ha = Me = Mo In altri termini, una distribuzione simmetrica una distribuzione molto regolare. Inpratica,per,difficiletrovaredistribuzionichesianoesattamentesimme-triche per cui diventa importante individuare indici che misurano quanto la di-stribuzione data si discosta dal caso idealedi simmetria. Naturalmente esistono diversi indici di asimmetria, qui di seguito ne presenteremo solo alcuni. C' da dire che tutti gli indici qui presentati possono essere utilizzati solo se il carattere del fenomeno una variabile. Un primo indice di asimmetria : la differenza interquartile data da DIr = (Q3 - Q2) - (Q2 - Q1)(Q3 - Q2) + (Q2 - Q1). E'unindicedifacilecalcolo,robusto,relativocioindipendente dall'unit di misura utilizzata per rilevare il fenomeno oggetto di studio. SeDIr>0vuoledirecherisulta(Q3-Q2)>(Q2-Q1)equindiilbox-plot assume una forma tipo quella riportata nella figura seguente ed in tal caso Indici statistici descrittivi73 sidicecheladistribuzionehaunaasimmetriapositiva: la coda di destra della di-stribuzione pi lunga, marcatadella coda di sinistra. Ilgraficodelladistribuzionedifrequenzaassumeralloraunaformacome quella della figura che segue. SeDIr 0 la distribuzione asimmetrica positiva, se 1 < 0 la distribuzione asimmetrica negativa, se la distribuzione simmetrica risulta 1 = 0, ma non vero il viceversa. L'indice1puessereespressointerminideiprimitremomentidella distribuzione: 1 = 13N i=1k (xi - ) 3ni = 13N i=1k[x3i - 3x2i + 3xi2 - 3]ni

=]]],, + ikii ikii ikii ikinNn xNn xNn xN1312 213131 13131 1 =[ ]3 32 333 31 + = [ ]32 332 31 + L'indice 1 pu essere calcolato anche nel caso in cui il carattere per classi di Indici statistici descrittivi75 modalit sostituendo a ciascuna classe il relativo valore centrale. Se osserviamo che 3i3i33izx ) x ( (,\,(j

risulta immediatamente 1 =) x (Niki1313ni = 1N i=1kz3ini = E(Z3) e quindi il coefficiente di asimmetria non altro che il momento terzo della di-stribuzionestandardizzata.Notiamocheseunadistribuzioneperfettamente simmetrica allora tutti i momenti di ordine dispari della sua standardizzata sono nulli. Il primo di questi momenti sempre nullo, qualsiasi sia la distribuzione di partenza, per la propriet della media aritmetica che la somma degli scarti dalla media sempre pari a zero. Questo vuol dire che per verificare se una distribu-zioneasimmetricabastacontrollarecosasuccedealmomentoterzodella connessa standardizzata cio a 1.Un terzo modo per misurare l'asimmetria in una distribuzione si basa sul fatto che mentre la media aritmetica fortemente influenzata dalla presenza di valorimoltograndiomoltopiccoli(checadonorispettivamentenellacodadi destraedinquelladisinistradelladistribuzione),lamedianapocosensibile alla presenza dei valori eccezionali. Questo vuole dire che un indice di asimme-tria relativo pu essere dato da: ASr = - Me|Me|

Infatti,sela distribuzione simmetrica allora si ha che =Me e quindi ASr ri-sultapariazero;seladistribuzioneasimmetricapositivavuoledirechele modalit grandi (sono nella coda di destra) hanno una preponderanza su quelle piccole(chesononellacodadisinistra)questoimplicacheattrattanella coda di destra per cui tende ad essere > Me e l'indice ASr risulta essere posi-tivo.Unrisultatoinversosiottieneseladistribuzioneasimmetricanegativa cio ASr tende ad essere negativo. L'INDICE DI CURTOSI La curtosi un secondo aspetto caratterizzante la forma di una distribu-Capitolo 276 zionedifrequenza.Questoaspettoriguardala pesantezza,lospessimento o pi o menomarcatodellecodediunadistribuzionerispettoadunatipicadettanor-male,odiGauss,odeglierroriaccidentali.Diquestadistribuzionetratteremo pi approfonditamente nell'ambito della parte del corso che riguarda il Calcolo delleProbabilitel'Inferenza.Quiosserviamocheunadistribuzionenormale assume tutti i valori della retta reale, perfettamente simmetrica ed unimodale intornoalpropriocentrodiasimmetriache la sua media. Questo vuole dire che per una normale risulta = Me = Mo Ha un unico asintoto che coincide con l'asse delle x e due flessi nei punti: x1 = - ;x2 = + Ladistribuzionenormalehaununicomassimoperx=edintalepuntola distribuzione vale 122

Infine, nell'intervallo [-; +] cadono circa il 68% dei casi, nell'intervallo [-2;+2]cadonocircail95%deicasi,nell'intervallo[-3;+3]cadono circail99%deicasi.Questovuoledirecheanche se teoricamente la distribu-zione pu assumere valori nell'intervallo (-; +) in realt quasi tutti i casi ca-dononell'intervallo[-4;+4]equasinullacadenellecodealdifuoridi questo intervallo. In altri termini, la distribuzione normale ha code molto sottili, pocospesse.Naturalmente,dalladistribuzionenormalesipuderivarelanor-malestandardizzatache,percostruzionehamediazeroevarianzaunitaria. Nella figura che segue riportata la distribuzione di due normali: quella a sini-stra la normale standardizzata (ha = 0 e = 1) quella a destra ha = 2 e = 1. Dato che le due normali hanno la stessa varianza, hanno anche una forma esattamenteugualel'unicadifferenzachelaprimacentratasullozeroela seconda sul due. Indici statistici descrittivi77 Per stabilire il tipo di curtosi che una distribuzione osservata X possiede si standardizza ottenendo la distribuzione osservata Z e si confronta il suo gra-fico con quello della normale standardizzata. Pi precisamente: ladistribuzioneXdettaleptocurticaselasuastandardizzataZhacode pi spesse di quelle della normale standardizzata; la distribuzione X detta platicurtica se la sua standardizzata ha code me-no spesse di quelle della normale standardizzata; ladistribuzioneXdettamesocurticaselasuastandardizzatahacodedi uguale spessore di quelle della normale standardizzata. Nelleduefigurecheseguonosonoriportatiduecasitipici:rispettiva-mente di distribuzione leptocurtica eplaticurtica. Capitolo 278 Una volta chiarito il concetto di curtosi, definiamo un indice che misuri fino a che punto una distribuzione pi o meno lontanadal caso di normalit. L'indice di curtosi di una distribuzione di frequenza X dato da 2 = 1 N 4i=1k (xi - ) 4 ni- 3. L'indice 2 viene anche chiamato di disnormalitperch misura fino a che punto una distribuzione osservata distantedal caso di normalit. La costante 3 figurante nella formula di 2 deriva dal fatto che per la normale si dimostra che il momento quarto standardizzato vale esattamente 3. L'indice 2 pu anche essere scritto come: 2 = 1 N 4

i=1k (xi - ) 4 ni- 3 = (,\,(j

ikixN114ni- 3 = = 1N i=1kz4i ni - 3 = E(Z4) - 3 Il coefficiente di curtosi non altro che il momento quarto della standardizzata osservatamenola costante 3, che il momento quarto della normale standar-Indici statistici descrittivi79 dizzata; pertanto: 2 = momento quarto della standardizzata osservata - momento quarto della normale standardizzata L'interpretazione di questo indice la seguente: se risulta 2 > 0 allora la distribuzione X leptocurtica, se risulta 2 < 0 allora la distribuzione X platicurtica. SeinunadistribuzioneosservataXsihacontemporaneamente10, 2 0 allora X pu essere approssimata abbastanza bene da una distribuzione normale con media e varianza pari a quella della distribuzione osservata. L'indice di curtosi pu essere espresso anche in funzione dei primi quat-tro momenti della distribuzione osservata X. Infatti, dato che 1N i=1k (xi - ) 4 ni = 1N

i=1k (x4i - 4x3i + 6x2i2 - 4xi3 + 4) ni = = 4 - 43 + 622 - 44 + 4 = 4 - 43 + 622 - 34 avremo: 2 = 14[4 - 43 + 622 - 34] - 3 L'indice 2 indipendente dall'unit di misura del fenomeno visto che basato sulladistribuzionestandardizzata,mapocorobusto. Se il carattere per classi di modalit l'indice di curtosi pu essere calcolato solo in via approssimata so-stituendo a ciascuna classe il relativo valore centrale. Esempio 19 Mostriamoconunesempiocomesicalcolanoidueindici1e2definitiinquesto paragrafo. Capitolo 280 xinixini x2i nix3i nix4i ni 010000 22481632 341236108324 5315753751875 10311194992231 Nella tabella le ultime quattro colonne sono state ottenute a partire dalle prime due e permet-tono di calcolare: = 3110= 3.1Q1 =2Q2=3Q3=5 2 = 11910= 11.93 = 49910= 49.94 = 223110= 223.1 da cui si ricava: 2 = 2.29 = 1.51327 ASr= 0.13= 0.033DIr = 2-12+1= 0.333 1 = 13.465399[49.9 - 110.67 + 59.582] = - 0.3428 come si pu notare i tre indici di asimmetria danno risultati contraddittori e questo dovuto al fatto che la distribuzione vicina al caso di simmetria; 2 = 15.2441[223.1 - 618.76 + 686.154 - 277.0563] - 3 = - 0.4375 che vuole dire che la distribuzione osservata leggermente platicurtica. Se indichiamo con{r, r=1,2,...} tutti i momenti di una distribuzione X, si pu dimostrare che fra X e {r, r=1,2,...} esiste, in generale, una corrispon-denzabiunivocanelsensoche,sottocondizionimoltogenerali,da{r, r=1,2,...} si pu risalire ad X e viceversa. Questo vuol dire che se di X conside-Indici statistici descrittivi81 riamosolo i suoi primi quattro momenti non conosciamo tutto della struttura di X, ma molte delle sue caratteristiche dato che avremo informazioni su: la sua localizzazione tramite 1, la sua variabilit tramite 2, la sua asimmetria tramite 1, la sua curtosi tramite 2. In genere, il vettore (1, 2, 1, 2) viene chiamato vettore caratteristicodella distribuzione X. Capitolo 3 LA CONCENTRAZIONE 3.1 Introduzione Unimportanteaspettodiunarilevazionestatistica,equindidellacon-nessa distribuzione di frequenza, con carattere quantitativo quello della concen-trazione. Un fenomeno tanto pi concentrato quanto pi una piccola frazione delle unit di rilevazione della popolazione possiede una elevata quantit del caratte-re. Da un punto di vista logico ha senso parlare di concentrazione solo per fenomeni trasferibili da una unit di rilevazione all'altra. Il concetto di concentra-zione, infatti, legato a quello di possesso di beni. Questo vuole dire che ogni qual volta vengono applicati gli strumenti che descriveremo in questo capitolo necessario in primo luogo verificare che il carattere di cui si tratta sia trasferibi-le,ciochequotedicaratterepossonoesseretolte,almenoteoricamente,ad una unit di rilevazione ed assegnate ad altre. In genere, un carattere trasferibile una quantit positiva e nel seguito supporremo che, non solo la distribuzione di frequenza una variabile, ma che sia non negativa e che il relativo carattere posseggalecaratteristichedellatrasferibilit.Sonotrasferibilicarattericomeil reddito,lapopolazione,ilpossessoditerra,gli investimenti, mentre non sono trasferibili,generalmente,lequalitcomelaprofessione,titolodistudioecc., ma anche quantit strettamente connesse alle unit di rilevazione come il peso, l'altezza, l'et. La concentrazione pu variare fra due casi estremi: assenza di concentrazione massima concentrazione Capitolo 384 3.2 Il concetto di concentrazione Questicasiestremisono,inpratica,soloteoricidatochebendifficil-mentesipossonoriscontrarenellepraticheapplicazioni.Servonopercome termine di paragone per stabilire se un caso concreto si avvicina all'uno o all'al-tro estremo. Si ha concentrazione nulla quando tutte le unit di rilevazione della popola-zione posseggono lo stesso ammontare del carattere Quando la concentrazione nulla tutte le N osservazioni sono uguali fra di loro e si ottiene semplicemente: x1 = x2 = ... = xN = In questo caso si parla anche di equiripartizione del carattere dato che tutti gliNsoggettiloposseggonoconlastessaintensit.Adesempio,sihaequiri-partizione del reddito in una data popolazione se tutti i soggetti hanno lo stesso ammontaredireddito;siparladiequiripartizionedelpossessoditerrainuna datapopolazionesetuttiicomponentidiquellapopolazioneposseggonola stessaestensionediterreno.Lequiripartizioneequivalenteadassenzadiva-riabilit,comefacilmentesiverifica.Daquestopuntodivistavisonochiare connessioni fra variabilit e concentrazione di un carattere. Nelcasodiequiripartizioneladistribuzionedifrequenzaassociataalla rilevazione diviene semplicemente: xini N N Si ha massima concentrazione quando una sola unit di rilevazione della po-polazione possiede tutto l'ammontare del carattere e le rimanenti unit non ne posseggono: x1 = ... = xN-1=0, xN = N. Se la media della popolazione, nel caso di concentrazione massima la distribuzione di frequenzaderivata da quella rilevazione statistica diviene La concentrazione85 xini 0 N-1 1 N Come si pu vedere, nel caso di concentrazione massima, le modalit del carattere si polarizzano sui due valori 0 ed N =

kii in x1 questo vuole dire che anche la variabilit del fenomeno elevata e risulta 2 = N2 - 2 = (N-1)2. Come abbiamo gi sottolineato, nelle pratiche applicazioni ben diffici-le,senonimpossibile,trovarefenomenilacuiconcentrazioneesattamente nulla o esattamente massima. In genere, si hanno casi con distribuzioni com-prese fra questi due estremi. Si pone, pertanto, il problema di misurare la con-centrazione esistente in una data distribuzione relativa ad un carattere trasferibi-le. Consideriamo, perci, una generica rilevazione statistica relativa ad un carat-teretrasferibilediscretoodiscretizzatoriferibileadunapopolazionecompostada N unit di rilevazione in cui le osservazioni x1, x2, ..., xN siano state ordinate in senso crescente ottenendo x(1) x(2), .... x(N) ove con x(i) abbiamo indicato la rilevazione che occupa il posto i-esimo nell'or-dinamentoinsensonondecrescente.Vogliamoelaboraredegliindicicheper-mettano di misurare il grado di concentrazione esistente in questa generica rile-vazione. Inoltre, vogliamo che tale indice sia relativo di modo che possa essere facilmente confrontabile con quello derivato da rilevazioni espresse con diversa unit di misura e differente numerosit. Per rendere gli indici indipendenti dalla numerosit N della popolazione siconsideranoalpostodellefrequenzeassolutelefrequenze relative cumulate che,permotivistorici,nell'ambitodellaconcentrazionevengonoindicatecon pi: pi = 1N

j=1i1 = iNi=1, 2, ..., N Si osservi che fra le pi (nei due capitoli precedenti e nei seguenti indicate con Fi) esiste la seguente relazione Capitolo 386 pi = pi-1 + 1N = pi-1 + fi e dato che sempre 1N 0 si ha 0 p1 p2 ... pN = 1. Come gi sappia-mo, pi una percentuale: la percentuale cumulata dei primi i possessori del carattere e risulta indipendente dalla numerosit N della popolazione. Perrenderegliindiciindipendentidall'unitdimisuradelfenomeno,al posto delle x(i) consideriamo le percentuali cumulate del carattere dei primi i possessori che si indicano di solito con qi qi = 1N j=1ixj= x1 + x2 +...+ xiN i=1,2,...,N Fra le qi esistono le seguenti relazioni: qi = qi-1 +xiN = qi-1 + fi xi

e dato che Nxi 0 risulta immediatamente 0 q1 q2 ... qN = 1. Si os-servi che sempre pN = qN = 1. Da un punto di vista operativo, al posto della rilevazione di partenza con modalit xi si ha una nuova rilevazione composta dalle coppie qi e pi xix(i)piqi x1x(1) 1N x(1)N

x2x(2) 2N x(1)+x(2)N

x3x(3) 3N

x(1)+x(2)+x(3)N

xNx(N)11 VediamooracosasuccedealleNcoppie(pi,qi)neiduecasiestremidi concentrazione nulla e di concentrazione massima. Nel caso di concentrazione La concentrazione87 nulla abbiamo visto che xi = x(i) = per i=1,2,...,N questo vuole dire: qi =1N j=1ix(j) =N j=1i1 =1N j=1i1 = pi i=1,...,N. In conclusione: nel caso di concentrazione nulla si ha sempre pi = qi , i=1,2,...,N Nel caso di massima concentrazione avremo x(1) = x(2) = ... x(N-1) = 0 e questo vuole dire qi =1N j=1ix(j) =1N j=1i0 = 0i=1,2,...N-1. In conclusione nel caso di concentrazione massima si ha qi = 0per i=1,2,...,N-1, mentre qN = 1 In generale, fra le pi e le qi esiste la seguente relazione pi qi che equi-valente a pi - qi 0, per i=1,2,...,N. Infatti, pi - qi =

ijN111 -

ij) j (xN11 =

((,\,,(jij) j (xN111= =

ij) j () x (N11 Ricordiamo che: Capitolo 388 1) la somma di tutti gli N scarti dalla media sempre nulla: i=1N (xi - )= i=1N ( - xi) = i=1N ( - x(i)) = 0 cio scarti positivi e scarti negativi si compensano; 2) le x(i) sono ordinate in senso non decrescente; 3) il carattere della distribuzione, perch sia trasferibile, sempre non negativo, il che implica > 0. Leprimeduecaratteristichefannosichegliscartinonnegativisiano sempreaiprimiposti,mentrequellinegativiagliultimiquestoimplicachesia sempre j=1i ( - x(j)) 0 datochenellasommatoriavisonoosoloscartinonnegativi,otuttigliscarti non negativi e solo alcuni di quelli negativi che non possono compensare tutti i positivi.Laterzacaratteristicafasichesiasempre1/N>0tuttoquestodi-mostra che pi qi. Seilfenomenorilevatoperclassidimodalitrisultainevitabilmente raggruppato in k0,peresempioperaumentidistipendiincifra fissa) o diminuite (se risulta a < 0, per esempio per l'introduzione di una tassa in cifra fissa) della stessa quantit. Ci implica che dalla rilevazione X si passati alla Y e precisamente X:x1, x2, ...., xN Y:a+x1, a+x2, ..., a+xN In altri termini, se prima un individuo aveva reddito xi, dopo il suo red-dito diventato yi = a+xi, pertanto se risulta a > 0 vi una diminuzione della concentrazione,viceversasea00db sedb sexyxy Inaltritermini,unatrasformazionelinearenoncambia,amenodelsegno,il coefficiente di correlazione. Nelcasoincuiunooentrambiicaratteri,puressendoquantitativi,sonoper classi di modalit, la covarianza, e quindi il coefficiente di correlazione, pu essere ottenuto in modo approssimato sostituendo, come al solito, a ciascu-na classe il relativ