Accesso Economia e Management - Dispense Statistica

141
L.Bollani e L.Bottacin Appunti di statistica descrittiva 1 [email protected] Materiale ad uso didattico. E‟ vietata la riproduzione e la vendita. Luigi Bollani Luca Bottacin Appunti di statistica descrittiva ad uso del Corso di Statistica Marzo 2013

description

management

Transcript of Accesso Economia e Management - Dispense Statistica

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    1

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Luigi Bollani Luca Bottacin

    Appunti di

    statistica

    descrittiva

    ad uso del Corso di Statistica

    Marzo 2013

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    2

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Contenuti

    1. Primi elementi ...............................4

    1. Introduzione ......................................... 4

    1. Il metodo statistico ................................ 4 2. Aree di interesse della statistica .................. 4 3. Fasi dellindagine statistica ....................... 5 4. Fonti dei dati ...................................... 7 5. Serie e distribuzioni ............................... 8 6. Rapporti statistici ................................ 10 7. Cenni storici sulla statistica ..................... 17

    2. Caratteri, modalit e frequenze ..................... 20

    8. Tipologie di carattere ............................. 20 9. Frequenze semplici ................................. 22 10. Frequenze cumulate ................................ 24 11. Grafici di distribuzioni di frequenza ............. 27 12. Frequenze congiunte ............................... 33

    2. Misure di un carattere statistico ...........39

    3. Misure di posizione ................................. 39

    13. Media aritmetica .................................. 39 14. Mediana e quantili ................................ 46 15. Moda (o norma) .................................... 55

    4. Misure di variabilit ............................... 57

    16. Misure di variabilit ............................. 58 17. Misure di dispersione ............................. 61 18. Misure di concentrazione .......................... 66

    5. Misure di forma ..................................... 71

    19. Asimmetria ........................................ 71 20. Disuguaglianza di Thcebyceff ...................... 73

    3. Studio congiunto di due caratteri statistici 76

    6. Metodi per la perequazione .......................... 76

    21. Retta dei minimi quadrati ......................... 81 22. Covarianza e correlazione ......................... 87 23. Parabola dei minimi quadrati ...................... 97

    7. Studio della connessione ...........................103

    24. Tabelle di contingenza ...........................106 25. Tabelle di tipo misto ............................114 26. Tabelle di correlazione ..........................118

    4. Analisi di una serie di tempo ............. 125

    27. Movimenti di una serie di tempo ..................125 28. Tassi di incremento ..............................129

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    3

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    29. Analisi delle componenti di una serie di tempo ...130

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    4

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    1. Primi elementi

    1. Introduzione

    1. Il metodo statistico

    La statistica studia i fenomeni collettivi, fenomeni che

    possono essere osservati o posseduti da una pluralit di

    individui presso i quali si manifestano con differenti

    modalit o intensit. La finalit di studio di un fenomeno

    collettivo raggiunta osservando con metodo scientifico i

    singoli individui che costituiscono la popolazione di

    riferimento in cui il fenomeno si manifesta. I metodi di

    analisi, essenzialmente di tipo quantitativo, sono

    impiegati per sintetizzare i dati rilevati, scoprire

    regolarit statistiche e descrivere relazioni.

    La statistica descrittiva quando si rilevano le

    caratteristiche di un fenomeno collettivo desumendole

    dallosservazione di tutte le unit della popolazione;

    inferenziale quando si analizzano le caratteristiche di un

    fenomeno collettivo osservando un campione di unit

    selezionate allo scopo. Sulla base dei risultati di questa

    analisi, mediante il calcolo delle probabilit si possono

    formulare delle ipotesi sulle caratteristiche del fenomeno

    nel suo complesso.

    2. Aree di interesse della statistica

    La statistica metodologica linsieme delle possibili

    metodologie utilizzate nello studio dei fenomeni

    collettivi. La statistica applicata linsieme delle

    applicazioni delle metodologie di analisi allo studio dei

    diversi fenomeni sociali, economici e demografici oggetto

    di indagine. Nellambito della statistica applicata sono

    presenti numerosi campi di indagine:

    Statistica sociale: si occupa della formulazione di metodi

    statistici per le scienze del sociale, affrontando le

    problematiche che riguardano ad esempio la progettazione e

    la gestione dei sondaggi di opinione, la programmazione e

    la valutazione dei servizi sociali e sanitari e, pi in

    generale, lanalisi dei comportamenti della collettivit.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    5

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Statistica economica: si occupa di sviluppare analisi

    quantitative legate a temi tipici della macroeconomia.

    Sulla base dei dati forniti della contabilit nazionale e

    dai maggiori istituti di ricerca pubblici privati, consente

    di formulare previsioni sullandamento delleconomia,

    verificando limpatto delle decisioni e, pi in generale,

    delle scelte politiche del governo sul sistema economico.

    Statistica aziendale: si occupa della realt aziendale,

    fornendo analisi ottenute elaborando sia dati di fonte

    interna contabile o gestionale, sia dati attinti

    dallambiente sociale ed economico in cui lazienda opera.

    I temi tipici di questa disciplina sono le ricerche di

    mercato, il controllo statistico della qualit dei

    prodotti, la statistica per il management, la statistica

    per l'auditing1 e, in campo attuariale, la statistica per le

    compagnie di assicurazione.

    Statistica sanitaria: si occupa di formulare metodi

    statistici legati alla sperimentazione clinica. L'ambiente

    di riferimento naturalmente quello medico, ma le analisi

    si estendono al contesto sociale e lavorativo per quanto

    riguarda lo studio della prevenzione delle malattie, le

    analisi sullo stato di salute della popolazione, la

    verifica dei livelli di inquinamento e, pi in generale, la

    tutela dell'ambiente.

    Demografia: studia la popolazione umana al fine di metterne

    in luce le caratteristiche strutturali e ne descrive la

    distribuzione geografica e levoluzione nel corso del

    tempo. La demografia impiega t specifiche per lo sviluppo

    di statistiche sulla popolazione e questa peculiarit la

    rende una disciplina fortemente autonoma e caratterizzata

    da propri metodi di analisi.

    3. Fasi dellindagine statistica

    Lindagine statistica un processo che si articola nelle

    fasi seguenti:

    Definizione degli obiettivi della ricerca: si individuano i

    soggetti dello studio, definendo quali informazioni si

    intendono ottenere e con quali modalit tecniche. Le

    indagini possono essere estese ad una collettivit di

    individui, oppure concentrarsi su di un campione di dati.

    Formulazione delle ipotesi: l'ipotesi una spiegazione

    provvisoria su una certa caratteristica di un fenomeno

    1 Funzioni interne allazienda preposte al controllo ispettivo.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    6

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    statistico. Lipotesi sar confermata oppure rigettata in

    conseguenza degli esiti dellindagine che si intende

    compiere.

    Elaborazione del piano di ricerca: in questa fase si decide

    come studiare le variabili che descrivono il fenomeno,

    estendendo eventualmente lanalisi alle relazioni con altri

    fenomeni collegati ed oggetto di interesse.

    Raccolta dei dati: si procede operativamente alla

    rilevazione dei dati. Si distingue tra rilevazione diretta

    se il fenomeno osservato l dove nasce oppure indiretta

    se sia desunto dallosservazione di altri fenomeni ad

    esso collegati. La rilevazione diretta garantisce

    certamente una migliore affidabilit rispetto a quella

    indiretta, ma pu risultare pi difficile da realizzare. La

    rilevazione pu inoltre essere occasionale se riferita a un

    certo istante o a una certa data, oppure periodica se tende

    a ricercare landamento del fenomeno nel corso del tempo.

    Spoglio dei dati: in questa fase si procede alla

    classificazione dei dati raccolti, che possono presentarsi

    sotto forma di schede, questionari, moduli o altro

    supporto. Il materiale raccolto va esaminati per mettere in

    luce eventuali omissioni o incongruenze e in seguito

    immesso in un file per le successive elaborazioni.

    Elaborazione dei dati: il processo prosegue con la

    trasformazione dei dati in altri pi espressivi del

    fenomeno studiato. In questa fase si calcolano rapporti, si

    tracciano grafici e si realizzano tabelle descrittive degli

    aspetti pi significativi di quanto emerso nel corso delle

    elaborazioni.

    Analisi dei dati e verifica delle ipotesi: sulla base dei

    risultati finali si traggono le considerazioni utili per

    confermare oppure rigettare le ipotesi inizialmente

    formulate.

    Si riporta uno schema riassuntivo del processo descritto,

    che si conclude con la conferma oppure con la rimozione

    dellipotesi di partenza.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    7

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Le fasi del processo di elaborazione dei dati

    4. Fonti dei dati

    La raccolta, lanalisi e la diffusione dei dati statistici

    sono da tempo ritenuti un indice di democrazia per ogni

    paese del mondo e il patrimonio informativo statistico

    nazionale ovunque considerato un bene da regolamentare e

    tutelare per legge. In Italia, la Costituzione riconosce il

    valore dei dati statistici come patrimonio della

    collettivit e riserva allo Stato il compito di

    coordinamento dellinformazione statistica relativa ai dati

    dellamministrazione statale, regionale e locale.

    Sono da tempo fissati a livello internazionale i requisiti

    necessari per raggiungere la necessaria qualit

    dellinformazione statistica prodotta dagli Stati. I dati

    statistici devono essere completi, affidabili e accurati.

    Gli enti incaricati di elaborare dati statistici ufficiali

    devono possedere il necessario rigore metodologico al fine

    di fornire informazioni rilevanti, coerenti e tempestive

    sui fenomeni di interesse sociale.

    Le fonti dei dati statistici possono essere di tre tipi:

    Dirette: i dati sono rilevati direttamente da chi conduce

    lindagine;

    Secondarie: si utilizzano dati provenienti da altre fonti

    dirette oppure indirette;

    Indirette: i dati provengono da raccolte e pubblicazioni di

    enti ed istituzioni pubbliche e private che mettono a

    disposizione dati ed altro materiale con finalit di

    informazione statistica.

    Gli enti e le istituzioni che si occupano di fornire

    informazioni a carattere statistico si distinguono in:

    Enti ufficiali: preposti a tale funzione dalla normativa

    vigente;

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    8

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Enti privati: istituti di ricerca, aziende e fondazioni che

    producono in modo organizzato dati e informazioni

    statistiche di vario tipo.

    Tra gli enti ufficiali lIstat e, pi di recente, il Sistan

    sono tra le istituzioni italiane incaricate di elaborare,

    conservare e divulgare i dati statistici sulla popolazione

    e sul territorio. Il Sistema Statistico Nazionale (Sistan)

    nasce con il decreto legislativo 322 del 6 settembre 1989,

    ed costituito da una rete di soggetti pubblici e privati

    incaricati di fornire linformazione statistica ufficiale

    nel nostro Paese. Ne fanno parte lIstituto nazionale di

    statistica (Istat), gli uffici di statistica delle

    amministrazioni centrali dello Stato, gli uffici di

    statistica di Regioni, Province, Comuni, Aziende Sanitarie

    locali e Camere di Commercio e, infine, gli uffici di

    statistica di soggetti privati che svolgono funzioni di

    interesse pubblico.

    Il Sistan coordina lattivit di rilevazione, elaborazione,

    analisi, diffusione e archiviazione dei dati statistici

    garantendo luso razionale delle risorse e dei flussi di

    informazione statistica a livello sia locale sia centrale.

    Controlla che linformazione statistica sia

    qualitativamente e quantitativamente rispondente ai bisogni

    del Paese e che sia in linea con gli standard

    internazionali di settore.

    LIstituto nazionale di statistica (Istat) un ente di

    ricerca pubblico nato nel 1926. Ha il compito di produrre e

    diffondere informazioni capaci di descrivere le condizioni

    sociali, economiche e ambientali del Paese e i cambiamenti

    che lo hanno riguardato nel corso del tempo. Un aspetto

    particolarmente rilevante della sua attivit la

    realizzazione dei censimenti decennali generali della

    popolazione e abitazioni, industria e servizi e

    agricoltura.

    Allinterno del Sistan, lIstat si occupa di coordinare

    lattivit di tutti gli enti incaricati della raccolta e

    della pubblicazione di dati statistici a livello nazionale

    e locale. Le pubblicazioni dellIstat riguardano oggi una

    molteplicit di settori. Tra quelle a carattere generale si

    citano in particolare le seguenti: Noi Italia, Italia in

    Cifre, il Rapporto Annuale, lAnnuario Statistico Italiano

    e il Compendio Statistico Italiano.

    5. Serie e distribuzioni

    Serie

    Le informazioni raccolte in fase di rilevazione dei dati

    sono sistemate in tabelle, che rappresentano la base di

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    9

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    partenza per le successive analisi. Una tabella contiene la

    serie statistica delle osservazioni compiute.

    Serie statistica. Una serie statistica linsieme di

    coppie iia, che rappresentano il risultato del processo

    di osservazione di un fenomeno collettivo: il primo

    elemento individua loggetto di esame, il secondo registra

    il risultato dellosservazione compiuta.

    Con riferimento alla tipologia di carattere osservato, le

    serie si distinguono in serie (in senso stretto) se

    riferite ad un carattere qualitativo, sconnesso oppure

    ordinato; seriazioni se riferite ad un carattere

    quantitativo, discreto o continuo. E una serie la tabella

    che contiene le modalit di un carattere e il numero dei

    casi (frequenza assoluta) osservati per ciascuna modalit.

    E detta serie dei dati individuali la registrazione dei

    risultati dellosservazione del collettivo statistico, in

    cui la prima informazione rappresenta il soggetto

    esaminato, la seconda la modalit del carattere rilevata

    sul soggetto. E una seriazione la tabella in cui la prima

    informazione lintensit del carattere osservato e la

    seconda informazione un valore associato alle unit

    statistiche raccolte per ciascuna modalit. Le serie si

    distinguono in:

    Serie di tempo: riportano le intensit osservate in

    corrispondenza del tempo;

    Serie di spazio: riportano le intensit osservate in

    relazione ad una partizione di un territorio;

    Serie di fatto: tutti gli altri casi.

    Distribuzione

    A seguito delle operazioni di spoglio si ottengono tabelle

    in cui la prima informazione della serie costituita dalle

    possibili modalit del carattere, la seconda dal numero

    (frequenza) dei casi per ciascuna modalit. Rispetto al

    tipo di fenomeno osservato, si distinguono le

    Le seriazioni pi comuni riguardano tabelle in cui sono

    riportate la frequenza oppure lammontare del carattere dei

    casi riferiti a ciascuna intensit del carattere osservato.

    Le seriazioni di frequenza o di quantit sono dette

    distribuzioni:

    Distribuzione. La distribuzione di frequenza del carattere

    la serie iin, che rappresenta linsieme costituito dalle

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    10

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    modalit del carattere i

    e dalla frequenza oppure dalla

    quantit di carattere.

    Si distingue tra distribuzione di frequenza se riporta il

    numero di casi in associati ad ogni modalit del carattere e

    distribuzione di quantit se riporta la quantit di

    carattere associata ad ogni rispettiva modalit.

    La distinzione tra i diversi tipi di serie non sempre

    facile. Ad esempio, una tabella che contiene un elenco di

    capitali con il numero di abitanti di ciascuna capitale, da

    un punto di vista formale pu essere classificata sia come

    una serie di spazio, sia come una distribuzione di

    frequenza. In casi come questi per risolvere lambiguit si

    deve tenere presente lintento della ricerca. Nellesempio

    proposto, la tabella contiene una serie di spazio se

    interessa mettere in luce limportanza di ogni capitale

    (unit statistica) rispetto alle altre. E invece una

    distribuzione di frequenza se interessa sapere come gli

    abitanti (unit statistiche) si distribuiscono rispetto

    alla citt di residenza (modalit del carattere).

    6. Rapporti statistici

    I rapporti statistici pongono a confronto due fenomeni, uno

    almeno dei quali di tipo statistico. Sono strumenti di

    indagine di grande utilit per lindagine statistica, oltre

    che di grande diffusione.

    I rapporti statistici possono essere raggruppati in

    tipologie. Si citano quelle principali:

    Rapporti di composizione

    Si confronta la numerosit di un sottoinsieme di soggetti

    con la numerosit del collettivo a cui il sottoinsieme

    appartiene. Se n un sottoinsieme di individui

    appartenenti ad un collettivo di N elementi, il rapporto di

    composizione vale Nn . Se moltiplicato per 100, il

    rapporto indica il numero di soggetti del sottoinsieme per

    100 soggetti del collettivo.

    Sono esempi di rapporti di composizione la percentuale di

    polveri sottili nellaria, lincidenza del numero di

    dirigenti sul totale dei dipendenti di una grande industria

    e la percentuale di anziani di una citt.

    Rapporti di coesistenza

    Si confronta la numerosit in di un primo insieme i con la

    numerosit kn di un secondo insieme k , sapendo che

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    11

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    entrambi sottoinsiemi appartengono allo stesso collettivo

    di riferimento: kinn . Se moltiplicato per 100, il

    rapporto esprime quanti soggetti dellinsieme i esistono

    per 100 soggetti dellinsieme k .

    Ad esempio lindice di mascolinit relativa, dato dal

    rapporto tra il numero di maschi e il numero di femmine di

    un collettivo ad una certa data un indice di coesistenza:

    fmNN100 I .

    Rapporti di derivazione

    Si confronta la numerosit di un fenomeno con quella di un

    altro fenomeno che la premessa logica al primo. Se n un

    insieme di soggetti che deriva in qualche modo da un

    collettivo composto da N soggetti, il rapporto di

    derivazione vale Nn . La formula esattamente quella del

    rapporto di composizione, ma la premessa in questo caso

    diversa. I rapporti possono essere di derivazione generica

    se il numeratore dipende in modo generico dal denominatore

    oppure di derivazione specifica se il numeratore legato

    in modo diretto al suo denominatore.

    Ad esempio un indice di derivazione generica il quoziente

    di fecondit, pari al rapporto tra il numero di nati e il

    numero di donne della popolazione nella stessa classe di

    et, moltiplicato in questo caso per 1.000.

    Rapporti di frequenza

    Si confronta la numerosit di un collettivo con una

    dimensione del fenomeno che si intende analizzare.

    Ne un esempio lindice di densit abitativa, pari al

    rapporto tra la popolazione e la superficie del territorio.

    Lindice esprime il numero di individui presenti per unit

    di superficie.

    Rapporto di durata

    Il rapporto di durata pone a confronto lo stock (fondo)

    medio di un fenomeno nel periodo di osservazione con il suo

    flusso medio di rinnovamento:

    periodo nel nesostituzio di Flusso

    medio Fondodurata di R.

    Quando si conoscono solo la consistenza iniziale e finale e

    i flussi di entrata ed uscita, il rapporto di durata pu

    essere stimato in via approssimata dalla formula:

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    12

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    UE

    CC

    UE

    CC

    10

    10

    2

    2durata di R.

    dove la consistenza a numeratore del rapporto data dalla

    semisomma delle consistenze iniziale 0

    C e finale 1C e il

    flusso medio a denominatore dato dalla semisomma del

    totale dei flussi in entrata E e del totale flussi in

    uscita U .

    Il rapporto di durata indica per quanto tempo ununit

    statistica permane in media nel collettivo.

    Esempio. Se in un tubo vi sono 10 palline e il flusso di

    sostituzione medio di 2 palline ogni ora, 10/2=5 indica

    che la pallina permane mediamente 5 ore nel tubo:

    Si osserva che il rapporto di durata quindi espresso

    nella stessa unit di misura del flusso.

    Esempio. Una piccola pensione dispone di 3 camere. Nel

    corso del mese di giugno vengono registrati i seguenti

    movimenti:

    Ingresso h 1

    h 2

    h 3

    h 4

    Uscita h 5

    0C

    1C

    Ospite Dal Al GG Stanze

    Movim. 1 2 3

    A 15/05 04/06 5 5 U B 02/06 04/06 2 2 E/U C 03/06 10/06 7 7 E/U D 06/06 26/06 20 20 E/U E 10/06 15/06 5 5 E/U F 13/06 30/06 17 17 E/U G 16/06 04/07 14 14 E

    Giorni medi 12,5 7 12

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    13

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Si osservi che il cliente A, arrivato il 15 maggio e

    partito il 4 giugno, conta per soli 5 giorni in giugno.

    Allo stesso modo, il cliente G arrivato il 16 giugno ma

    ha lasciato la pensione il 4 luglio e quindi i giorni di

    permanenza in giugno sono solo 14.

    Mediamente in giugno le stanze sono state occupate per

    10232

    2123725,12

    giorni

    Per arrivare ad analogo risultato senza conoscere nel

    dettaglio i movimenti in entrata e uscita della pensione,

    si pu considerare che per 7 volte la pensione ha ospitato

    qualcuno, facendo registrare 6 entrate e 6 uscite nel mese.

    Di conseguenza, in prima approssimazione, gli ospiti si

    sono fermati per

    25,066

    7

    mesi

    Considerando che in un mese ci sono 30 giorni, il risultato

    equivale a 5,73025,0 giorni medi. Si osservi che vi differenza rispetto al risultato esatto (10 giorni) in

    conseguenza dellapprossimazione adottata.

    Numeri indice

    I numeri indice sono utilizzati nellambito delle serie di

    tempo e delle serie di spazio. Si distinguono in:

    Numeri indice a base fissa: rapporto tra lintensit del

    fenomeno tX al tempo t e lintensit del fenomeno

    0X al

    tempo 0 scelto come periodo base: 0

    100X

    XI

    t

    t . Lindice

    esprime la variazione del fenomeno nel periodo t rispetto a

    quello del periodo scelto come base. Assume valori sopra

    100 se il fenomeno cresciuto, sotto 100 se si ridotto.

    La differenza 100% tI tra lindice e 100 pari alla

    variazione percentuale del fenomeno rispetto al periodo

    scelto come base.

    Numeri indice a base mobile: rapporto tra lintensit del

    fenomeno tX al tempo t e lintensit del fenomeno nel

    periodo precedente 1tX :

    1

    100

    t

    t

    tX

    XI . Lindice a base

    mobile esprime la variazione del fenomeno nel periodo t

    rispetto a quello del periodo 1t . Assume valori sopra 100 se il fenomeno cresciuto, sotto 100 se si ridotto. La

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    14

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    differenza 100% tI tra lindice e 100 pari alla

    variazione percentuale del fenomeno rispetto al periodo

    precedente.

    Cambiamento di base. Per passare dalla serie di indici a

    base fissa con base 0

    X alla serie di indici con base fissa

    0XX

    k si deve moltiplicare la prima serie di indici per

    il rapporto tra le due basi

    kX

    X1 . Lo schema il seguente:

    it iX

    Base

    1000X

    Base

    100k

    X

    0 0X 100100

    0

    0

    0

    X

    XI

    kX

    XI

    0

    0100

    1 1X 1000

    1

    1

    X

    XI

    kkX

    XI

    X

    XI

    0

    1

    1

    1

    k kX 1000

    X

    XI

    k

    k 100kI

    1k 1kX 1000

    1

    X

    XI

    k

    k 1001

    1

    k

    k

    kX

    XI

    Per passare dalla serie degli indici a base fissa alla

    corrispondente serie degli indici a base mobile, si devono

    dividere tra loro i due indici a base fissa che precedono e

    moltiplicare il risultato per 100. Lo schema il seguente:

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    15

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    it iX

    Base

    1000X

    Base

    mobile

    0 0X 1001000

    0

    0

    X

    XI n.d.

    1 1X 1000

    1

    1

    X

    XI 1

    0

    1

    1100 I

    X

    XI

    2 2X 1000

    2

    2

    X

    XI

    100

    100

    1

    2

    1

    2

    2

    I

    I

    X

    XI

    k kX 1000

    X

    XI

    k

    k

    100

    100

    1

    1

    k

    k

    k

    k

    k

    I

    I

    X

    XI

    Per passare dalla serie degli indici a base mobile alla

    corrispondente serie degli indici a base fissa 1000X , si

    deve moltiplicare ciascun indice a base mobile che lo

    precede, fino allindice a base mobile che ha a

    denominatore lintensit 0

    X del fenomeno osservato. Lo

    schema il seguente:

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    16

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    it iX

    Base

    mobile

    Base

    1000X

    0 0X n.d. 1001000

    0

    0

    X

    XI

    1 1X 1000

    1

    1

    X

    XI 1

    0

    1

    1100 I

    X

    XI

    3 3X 1002

    3

    3

    X

    XI

    100100100100

    100

    321

    0

    3

    3

    III

    X

    XI

    k kX 1001

    k

    k

    kX

    XI

    100100

    ...100100

    100

    21

    0

    k

    k

    k

    III

    X

    XI

    Esempio. Si calcolano i numeri indice a base mobile e a

    base fissa 1978 della seguente tabella di prezzi di un bene

    di largo consumo:

    Anno Prezzo

    Numeri

    indice

    a base

    mobile

    Numeri

    indice

    a base

    fissa

    1978

    1975 113,00 - 100,893

    1976 151,00 133,628 134,821

    1977 162,00 107,285 144,643

    1978 112,00 69,136 100,000

    1979 111,00 99,107 99,107

    1980 200,00 180,180 178,571

    1981 223,00 111,500 199,107

    1982 234,00 104,933 208,929

    1983 200,00 85,470 178,571

    1984 291,00 145,500 259,821

    1985 300,00 103,093 267,857

    1986 330,00 110,000 294,643

    1987 339,00 102,727 302,679

    1988 390,00 115,044 348,214

    1989 475,00 121,795 424,107

    1990 580,00 122,105 517,857

    Ad esempio, lindice a base mobile del 1982 pari al

    rapporto tra il prezzo del 1982 ed il prezzo del 1981

    moltiplicato 100. Lindice a base fissa del 1982 pari al

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    17

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    rapporto tra il prezzo del 1982 e il prezzo del 1978, anno

    scelto come base, moltiplicato 1002.

    Esempio. Si calcola lindice a base mobile del 1984 sulla

    base degli indici a base fissa 1978. Per calcolare lindice

    a base mobile del 1984, si moltiplica lindice a base fissa

    del 1978 per il rapporto

    500,145571,178

    821,259100

    100100

    1983

    1984

    19781983

    19781984

    P

    P

    PP

    PP

    Esempio. Si calcola lindice a base fissa 1978 per il 1986

    sulla base degli indici a base mobile.

    6,294100

    107,99

    100

    180,180...

    100

    093,103

    100

    00,110100

    ...100

    100

    1978

    1979

    1979

    1980

    1984

    1985

    1985

    1986

    1978

    1986

    P

    P

    P

    P

    P

    P

    P

    P

    P

    P

    Esempio. Sulla base degli indici a base fissa e a base

    mobile calcolati, quanto vale lincremento percentuale del

    prezzo del 1990 rispetto al 1978 ? E rispetto al 1989?

    Lindice a base fissa del 1990 con base 1978 (517,857)

    indica che il prezzo del bene nel 1990 supera del 417,857%

    il prezzo del bene nel 1978.

    Lindice a base mobile del 1990 (122,105) indica che il

    prezzo del bene nel 1990 supera del 22,105% il prezzo del

    bene nel 1987.

    7. Cenni storici sulla statistica

    La nascita della statistica legata al bisogno, espresso

    fin dalle prime organizzazioni sociali stanziali, di

    conoscere il numero di uomini adatti alle armi, il numero

    di capi di bestiame, quanti abitanti sono assoggettabili a

    tributi ed altre notizie sul territorio e sulla

    popolazione. Tracce primordiali di enumerazione a fini

    statistici sono stati scoperti nei nuraghi della Sardegna e

    nei papiri dellantico Egitto, riferiti principalmente ai

    movimenti della popolazione e delle merci. Gli antichi

    2 Lindice a base mobile del 1975 non calcolabile perch non si conosce il prezzo del bene nel 1974.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    18

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Egizi veneravano la dea Sefchet, protettrice dei libri e

    dei conti.

    Anche nellantica Roma il bisogno di dati statistici

    divenne una necessit sempre pi evidente a seguito dello

    sviluppo demografico e territoriale. Furono indetti i primi

    censimenti tra la popolazione, tra i quali quello ricordato

    dalla Bibbia e voluto dal re Davide allepoca della nascita

    di Ges.

    Durante tutto il Medio Evo le comunit religiose e il clero

    in genere si incaricarono di enumerare e catalogare i beni

    della Chiesa, le nascite, i battesimi e le sepolture.

    Questa importante attivit trova la sua definitiva

    collocazione nel 1545 con lintroduzione dei registri

    parrocchiali per volont del Concilio di Trento.

    Nella medesima epoca Francesco Sansovino (1521 1586) e

    Giovanni Botero (1540 1617) danno vita alle prime

    sistematiche raccolte di dati statistici e sono oggi

    considerati dei precursori della nuova disciplina. In

    Germania, a met del XVII secolo, Hermann Conring (1606

    1681) tiene il primo corso universitario finalizzato a

    analizzare le cose notevoli degli Stati. Il suo

    successore alla cattedra, Goffredo Achenwall (1719 1772),

    chiama per primo statistik la nuova disciplina.

    Il termine coniato dallAchenwall rimane tuttavia di

    incerta etimologia per lungo tempo: secondo alcuni deriva

    da status, stato in senso politico; altri gli attribuiscono

    il significato di conditio rerum, stato delle cose,

    situazione attuale. Questo duplice significato del termine

    permea la statistica fino ad anni recenti: alle soglie del

    XX secolo i suoi praticanti che oggi chiamiamo

    statistici erano ancora definiti statisti.

    NellInghilterra del XVII secolo John Graunt chiama

    aritmetici politici gli studiosi delle leggi empiriche

    che riguardano i fatti sociali. Sulla base delle prime

    sistematiche rilevazioni censuarie, gli aritmetici politici

    constatano leccedenza delle nascite maschili su quelle

    femminili, la stagionalit dei delitti, la falsit di

    alcune credenze popolari come quella che attribuiva

    linsorgere di pestilenze al passaggio di meteoriti. La

    loro opera mette in luce limportanza della statistica come

    strumento di indagine, in cui taluni fatti sono posti in

    relazione con altri dei quali possono essere causa oppure

    conseguenza. Ne La peste di Londra, Daniel Defoe cita le

    statistiche parrocchiali sul crescente numero di funerali

    celebrati allinizio del 1665, come prova dal serpeggiare

    del contagio nella popolazione londinese.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    19

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Nel 1838 il belga Adophe Quetelet (1796 1874),

    considerato da molti il fondatore della statistica moderna,

    pubblica il suo Essai de physique sociale, dove giunge ad

    interessanti conclusioni sui fenomeni sociali e dove

    descrive luomo medio, i cui caratteri corrispondono alla

    media aritmetica dei caratteri posseduti da tutti gli

    individui della popolazione. Queste idee lo spingono

    tuttavia a descrivere le dinamiche sociali secondo una

    concezione meccanica che oggi ritenuta del tutto

    superata.

    La progressiva sistemazione ed organizzazione della nuova

    disciplina in differenti aree di studio porta a separare la

    statistica metodologica, che si occupa del metodo per la

    raccolta e lelaborazione matematico-probabilistica dei

    dati, dalla statistica applicata, che a sua volta si divide

    in molteplici aree di interesse tra cui la demografia, la

    psicometria, lantropometria, e leconometria.

    La storia del 900 caratterizzata da una pluralit di

    contributi dei quali si fa un rapido cenno3: Karl Pearson

    (1857 1936), Francis Galton (1822 - 1911) e Ronald Fisher

    (1890 1964) introducono nuovi metodi analitici di

    indagine dei fenomeni sociali. In campo economico si

    ricordano i contributi di F. Y. Edgeworth, A. L. Bowley e

    Vilfredo Pareto. In Italia Roldolfo Benini (1862 1956) si

    distingue per i suoi studi sulla popolazione. Importanti

    figure della cosiddetta scuola italiana di statistica

    sono Corrado Gini (1884 1965), M. Boldrini, L. Livi e A.

    Niceforo.

    3 Per approfondimenti consultare Theodore M. Porter, Le origini del moderno pensiero statistico (1820-1900) a cura di Giorgio Alleva e Enzo Lombardo, La Nuova Italia

    Editrice, Firenze, 1993.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    20

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    2. Caratteri, modalit e frequenze

    8. Tipologie di carattere

    Un fenomeno statistico si manifesta sotto forma di

    propriet o carattere che si articola secondo le rispettive

    modalit. I caratteri qualitativi hanno modalit descritte

    mediante qualit, attributi o modi di essere. Si

    distinguono in sconnessi se le modalit sono prive di un

    ordine naturale intrinseco, ordinati nei restanti casi. I

    caratteri quantitativi hanno modalit (o per meglio dire

    intensit) espresse da numeri. Si distinguono in discreti

    se rappresentati da numeri interi, continui nei restanti

    casi.

    Sono caratteri qualitativi sconnessi il colore dei capelli,

    il sesso (maschio o femmina) oppure la squadra di calcio

    preferita. Sono caratteri qualitativi ordinati i gradi

    dellesercito o il giudizio di preferenza (per nulla, poco,

    abbastanza, molto, moltissimo) di un consumatore nei

    confronti di un bene di largo consumo. Sono caratteri

    quantitativi discreti il numero di esami sostenuti oppure

    il numero di figli in famiglia. Infine, sono caratteri

    quantitativi continui il numero di millimetri di pioggia

    caduti in una certa giornata oppure la statura e il peso

    degli individui.

    Non si deve escludere la possibilit di considerare, a

    seconda dei casi, un medesimo carattere come appartenente a

    due diverse categorie. I colori sono certamente un naturale

    esempio di carattere qualitativo sconnesso. Tuttavia

    nellindustria i colori si ottengono sulla base dei c.d.

    colori semplici, luci costituite da una sola radiazione

    elettromagnetica con differente lunghezza donda.

    Combinando opportunamente le differenti fonti

    elettromagnetiche si generano le diverse tonalit di colore

    che si ritrovano nei vestiti, nelle automobili e negli

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    21

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    altri oggetti di uso comune. In questo specifico caso il

    colore del tutto assimilabile ad un carattere

    quantitativo continuo.

    Talvolta i caratteri possono essere trasformati in

    caratteri di altra categoria. I caratteri qualitativi

    dicotomici, rappresentati da due sole modalit, possono

    diventare caratteri quantitativi discreti attribuendo il

    numero 1 ad una modalit e il numero 0 allaltra. Ad

    esempio, se il carattere osservato il sesso di un

    collettivo, si pu attribuire il numero 1 ai maschi e il

    numero 0 alle femmine. Questa trasformazione conserva le

    informazioni sulla distribuzione del carattere ed

    particolarmente utile nel corso delle elaborazioni al

    computer.

    Definizione operativa del carattere

    Per definire un carattere occorre innanzitutto stabilire in

    che modo una determinata propriet dovr essere rilevata

    nel soggetto esaminato. Ad esempio nel caso di caratteri

    fisici (peso, altezza) la rilevazione del carattere

    determinata dalla sua misurazione. In questo caso si deve

    indicare quale strumento di misurazione adottare, con quale

    unit di misura registrare le rilevazioni, a quale decimale

    arrotondare i numeri ed altri aspetti analoghi. Se il

    carattere da osservare invece lopinione di un collettivo

    nei confronti di una iniziativa del Governo la rilevazione

    pu avvenire mediante intervista o, nel caso di indagini

    strutturate, mediante questionario. In entrambi i casi si

    devono scegliere le domande da porre, il tipo di risposta

    attesa (a risposta aperta oppure chiusa, da scegliere in

    una lista di possibilit).

    Per effettuare la registrazione del carattere osservato, il

    ricercatore deve prevedere la lista degli stati possibili

    (modalit) che rappresentano il carattere nel suo

    complesso. Nel caso di caratteri qualitativi, ad esempio il

    sesso degli individui, si tratta di stendere la lista delle

    sue possibili manifestazioni. Nel caso di un carattere

    quantitativo con infiniti stati possibili, ad esempio la

    statura di un gruppo di individui, occorre prevedere delle

    classi a cui attribuire le intensit osservate. Le modalit

    sono scelte in funzione della conoscenza del fenomeno

    studiato e degli interessi della ricerca; pu comunque

    accadere che alcune di esse non siano presenti nel

    collettivo osservato.

    Infine, il ricercatore deve fissare le regole con cui

    assegnare ogni unit statistica ad una e una sola modalit

    o intensit. Ad esempio, nel caso della statura di un

    gruppo di individui, occorre stabilire se un individuo con

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    22

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    statura rilevata di 180 cm esatti appartiene alla classe

    170 180 oppure alla 180 190 successiva. Nel caso di

    caratteri qualitativi, si pone ad esempio il problema di

    classificare correttamente la risposta aperta fornita da un

    intervistato.

    Variabile e mutabile statistica

    Il processo che conduce losservazione compiuta nel

    collettivo ad una determinata di modalit del carattere

    osservato detta variabile statistica:

    Variabile statistica: assegnazione di una intensit del

    carattere ad ogni individuo osservato.

    Una variabile statistica dunque una funzione in quanto

    definita per lintero collettivo e funzionale, ovvero

    nessun individuo pu possedere due diverse modalit del

    carattere osservato. A stretto rigore la variabile

    statistica attribuisce ad ogni unit statistica un numero.

    Per analogia nel caso di caratteri qualitativi si definisce

    la

    Mutabile statistica: assegnazione di una modalit di un

    carattere qualitativo ad ogni individuo osservato.

    La variabile e la mutabile statistica identificano e

    sintetizzano il processo in precedenza descritto. Le

    elaborazioni statistiche conseguenti alla rilevazione del

    carattere sono basate su queste due definizioni.

    9. Frequenze semplici

    Si consideri un generico collettivo composto da n unit

    statistiche, per ognuna delle quali stata rilevata la

    corrispondente modalit ia del carattere A :

    Individui Modalit

    diA

    1 1

    ~a

    2 2

    ~a

    n na

    ~

    Se una modalit posseduta da pi individui, lelenco

    delle modalit rilevate contiene delle ripetizioni. Inoltre

    vi possono essere modalit non rilevate in quanto non

    possedute da alcun individuo osservato.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    23

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Al fine di ottenere la distribuzione di frequenza degli

    individui del collettivo secondo il carattere esaminato si

    riportano in una nuova tabella le singole modalit del

    carattere con accanto la frequenza di individui per

    ciascuna modalit:

    Modalit

    di A

    frequenza

    assoluta

    1a 1n

    2a 2n

    3a 0

    ka 3n

    n

    In questa nuova tabella le modalit sono riportate in modo

    univoco. Non compaiono le modalit prive di individui ma,

    nel caso di caratteri quantitativi, bene tenerne conto.

    Per questo motivo stato aggiunta a titolo

    esemplificativo la modalit 3a con frequenza pari a zero.

    Nel nuovo schema proposto accanto alle modalit del

    carattere compare la frequenza, ovvero il numero o la

    percentuale di unit statistiche rispettivamente maschio e

    femmina nel collettivo considerato.

    Vale la definizione seguente:

    La frequenza assoluta in il numero di unit statistiche

    che possiedono la modalit ia del carattere.

    La frequenza relativa if la proporzione di unit

    statistiche che possiedono la modalit ia del carattere. Pu

    essere espressa in percentuale (%).

    Lo schema di riferimento per i due casi il seguente:

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    24

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Modalit Frequenza

    assoluta Frequenza relativa

    1a 1n nnf 11

    2a 2n nnf 22

    3a 0 03 f

    ka kn nnf kk

    n 1

    Le frequenze non possono essere negative: 0in e 0if .

    Il totale delle frequenze

    k

    i

    inn

    1

    pari alla numerosit

    del collettivo.

    La somma delle frequenze relative vale 1:

    11

    111

    n

    nn

    nn

    nf

    k

    i

    i

    k

    i

    i

    k

    i

    i

    10. Frequenze cumulate

    Caratteri quantitativi discreti. Dato un carattere

    quantitativo discreto A con intensit 1x , 2x , , rx , si

    pongono a confronto le intensit osservate con un valore

    reale x liberamente scelto. Si indica con xxn i il numero di casi con intensit minore o uguale del valore

    reale x.

    La frequenza cumulata condizionata a x vale

    iinnnxxn ...

    21 .

    La frequenza cumulata funzione del valore scelto x .

    Infatti calcolabile per ogni x (relazione ovunque

    definita). Inoltre, per ogni x si pu ottenere un solo

    valore (relazione funzionale). In particolare quando x

    inferiore alla minima intensit osservata xxn i pari a zero. Quando x superiore alla massima intensit

    osservata, la frequenza cumulata pari alla numerosit del

    collettivo stesso.

    Per quanto evidenziato si pu scrivere semplicemente

    innnxN ...

    21

    dove N indica la sommatoria dei valori della frequenza che

    soddisfano la condizione xxi .

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    25

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    La frequenza pu essere calcolata anche per frequenze

    relative.

    Funzione di ripartizione. La funzione di ripartizione la

    somma

    iifffxxF ...

    21

    Si osservi il disegno sottostante:

    La funzione di ripartizione di un carattere quantitativo

    discreto X indica la frequenza delle intensit del

    carattere minori o uguali ad un qualunque valore in

    ascissa.

    Caratteri quantitativi continui. Nel caso di dati raccolti

    in classi generalmente non si conosce lesatta

    distribuzione dei dati allinterno di ciascuna classe. Si

    ipotizza allora che le intensit osservate si dispongano in

    modo uniforme al suo interno e la funzione di ripartizione

    della classe assume laspetto di una spezzata crescente con

    gradini regolari di altezza pari a in1 per una frequenza di

    classe pari ad in (grafico a). Se la frequenza di classe

    non esigua, la funzione di ripartizione della classe pu

    essere correttamente approssimata con una retta che

    congiunge i valori della funzione di ripartizione tra i due

    limiti della classe (grafico b). La distanza tra la retta e

    i gradini, ovvero lerrore di approssimazione compiuto, non

    pu superare la quantit i

    n21 .

    F(X)

    0 X

    - F monotona non

    decrescente (le frequenze non

    possono essere negative);

    - F ha dei punti di discontinuit in

    corrispondenza con i valori di X.

    La funzione pari a 1 per x > xMax

    La funzione pari

    a 0 per x < xmin1x 2x 3x 4x 5x

    1xf

    4xf

    5xf

    2xf 03 xf

    32 xFxF 43214 xfxfxfxfxF

    15 xF

    11 xfxF

    1min xx 5xx Max

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    26

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    grafico (a)

    grafico (b)

    La funzione di ripartizione per dati raccolti in classi

    assume la forma di una spezzata crescente. Si esamini il

    grafico seguente:

    Propriet della funzione di ripartizione. La funzione di

    ripartizione xF definita sullintero asse reale: XF esiste per ogni x interno oppure esterno ai valori

    Maxxxx

    min del carattere X osservato. In particolare, se

    minxx la funzione di ripartizione vale zero e se

    Maxxx

    la funzione di ripartizione vale 1. La funzione

    crescente: se xx 1 allora xFxF 1 , dove luguaglianza vale nel caso particolare in cui 0xf . La funzione XF continua a destra in ixx : XF vale ixF , cos come in

    0ixx si ha che ii xFxF 0 . E infine discontinua

    nei soli punti nxxx ,...,, 21 : XF discontinua in corrispondenza delle intensit del carattere X osservato.

    Nel punto di discontinuit x il limite da destra xx e

    il limite da sinistra xx della funzione in quel punto

    esistono ma non coincidono.

    F(X)

    Xx x

    1 2

    F(X)

    Xx x

    1 2

    F(X)

    0 X

    - F monotona non

    decrescente (le frequenze non

    possono essere negative);

    - F ha dei punti di discontinuit in

    corrispondenza con i limiti di classe di X.

    La funzione pari a 1 per x > xMax

    La funzione pari

    a 0 per x < xminampiezza della

    classe x2 - x3

    frequenza della

    classe x2 - x3

    1x 2x 3x 4x 5x

    15 xF

    1min xx 5xx Max

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    27

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    11. Grafici di distribuzioni di frequenza

    Un grafico utile a rappresentare le caratteristiche del

    fenomeno studiato ed ha una notevole portata divulgativa.

    Per questo deve essere sempre corredato da un titolo, da

    indicazioni sul significato degli assi, dalle unit di

    misura e dalle scale adottate.

    Nel caso delle distribuzioni di frequenza, il grafico serve

    a rappresentare le frequenze (assolute oppure relative)

    legate alle modalit del carattere osservato.

    Frequenze di caratteri qualitativi. Per rappresentare le

    frequenze delle modalit di un carattere qualitativo

    sconnesso si utilizza un diagramma a barre, indicando in

    ascissa le modalit del carattere (ad esempio il sesso, M e

    F) e in ordinata le frequenze assolute oppure relative

    rilevate per le due modalit.

    Quando si intende mettere in specifica evidenza la

    ripartizione del collettivo rispetto alle modalit del

    carattere osservato, si ricorre a un diagramma a settori

    circolari (o a torta), in cui ciascun settore

    proporzionale alle frequenze delle modalit rappresentate.

    Nel caso di caratteri qualitativi ordinati si pu comunque

    utilizzare il diagramma a barre.

    Diagramma a barre

    Diagramma a torta

    60%

    40%

    M F

    M; 60%

    F; 40%

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    28

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Ortogramma

    Frequenze di caratteri discreti. Nel caso di caratteri

    quantitativi discreti si utilizza lortogramma, diagramma

    caratterizzato da linee che partono dal valore della

    modalit discreta posta in ascissa e che terminano con un

    breve tratto orizzontale.

    Frequenze per dati raccolti in classi. Si ricorre al

    raccoglimento in classi allo scopo di ottenere delle

    frequenze significative con cui descrivere il comportamento

    complessivo di un fenomeno che, per sua natura, si

    manifesta con intensit sempre differenti. Si pu ricorrere

    al raccoglimento in classi delle intensit di un carattere

    quantitativo discreto quando il numero di casi elevato.

    E necessario effettuare il raccoglimento in classi nel

    caso di caratteri quantitativi continui.

    Nel raccoglimento in classi una intensit appartiene alla

    classe se compresa tra i rispettivi limiti di classe. Se

    una certa intensit esattamente pari ad uno dei due

    limiti occorre stabilire in quale classe collocarla. Si

    possono avere classi aperte a destra (simbolo 1 ii xx ) se

    lintensit pari a ix appartiene alla classe e lintensit

    pari a 1ix appartiene alla classe successiva; oppure classi

    aperte a sinistra (simbolo 1 ii xx ) se lintensit pari a ix

    appartiene alla classe che precede e lintensit pari a 1ix

    appartiene alla classe stessa.

    Esempio. Si considerano le seguenti stature (espresse in

    metri) riferite ad un gruppo di 10 individui:

    1,75 1,80 1,68 1,58 1,90

    1,82 1,73 1,75 1,92 1,65

    Il carattere rilevato, quantitativo continuo, richiede il

    raccoglimento in classi. Infatti tutte le intensit hanno

    20% 20%

    30%

    0%

    5%

    10%

    15%

    20%

    25%

    30%

    35%

    0 1 2 3 4 5

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    29

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    frequenza unitaria e sarebbe altrimenti impossibile

    descrivere landamento complessivo delle frequenze.

    Considerando le seguenti classi di intensit:

    1,50 1,60

    1,60 1,70

    1,70 1,80

    1,80 1,90

    1,90 2,00

    Il raccoglimento in classi delle stature porta al seguente

    risultato:

    Classi frequenze

    1,50 1,60 1

    1,60 1,70 2

    1,70 1,80 3

    1,80 1,90 2

    1,90 2,00 2

    10

    Dopo il raccoglimento in classi possibile rilevare una

    certa omogeneit delle frequenze rispetto a ciascuna classe

    di altezza.

    Istogramma. Le frequenze di caratteri quantitativi continui

    raccolti in classi sono rappresentate mediante istogramma4,

    grafico areale nel quale in ascissa compaiono le classi e

    in ordinata le altezze dei rettangoli che rappresentano con

    la loro area la frequenza di classe.

    Per rappresentare listogramma di frequenza si disegnano in

    ascissa gli intervalli di classe scelti per il

    raccoglimento in classi e, in corrispondenza a ciascun

    intervallo, si traccia il perimetro di rettangolo la cui

    area deve essere proporzionale alla frequenza

    dellintervallo. Laltezza del rettangolo calcolata per

    rapporto:

    4 Il termine fu coniato nel XIX secolo dallo statistico scozzese William Playfair, che

    not la somiglianza del nuovo grafico con la sagoma dei telai meccanici in uso allora. In

    Excel non sono presenti n lortogramma, che viene normalmente disegnato mediante un

    grafico a barre, n listogramma, che pu essere rappresentato mediante un diagramma a

    dispersione.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    30

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Esempio. Si disegna listogramma di frequenza per la

    distribuzione seguente:

    Le aree dei rettangoli disegnati corrispondono alle

    frequenze if delle classi. Nellesempio, le aree valgono

    rispettivamente 30, 25, 10 e 2.

    Densit media di frequenza. La densit media di frequenza

    di classe data dal rapporto

    ii

    i

    ixx

    fh

    1

    dove h la frequenza media di casi presenti in un

    qualsiasi punto interno allintervallo di classe ed anche

    laltezza dei rettangoli dellistogramma. Se la

    densit media

    di frequenza

    intervalli

    di classe

    limite inferiore limite superiore

    di classe di classe

    frequenzaii

    i

    ixx

    fh

    1

    Da A fr. h

    0 40 30,0 0,750

    40 60 25,0 1,250

    60 80 10,0 0,500

    80 100 2,0 0,100

    0 8040 60 100100

    0,750

    1,25

    0,5

    0,10-

    X

    30

    25

    10

    2

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    31

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    distribuzione dellintensit del carattere fosse uniforme

    allinterno di ogni classe, in ciascun punto

    dellintervallo la frequenza dei casi sarebbe proprio pari

    ad h.

    La Regola di Sturges. La scelta del numero e dellampiezza

    delle classi dipende dal numero e dalla natura del fenomeno

    studiato. Negli anni 20 fu proposta una regola di natura

    empirica, la c.d. regola di Sturges5, secondo cui per

    calcolare il numero di classi in cui raccogliere un insieme

    di n intensit di un carattere quantitativo continuo,

    occorrono nk 2log1 classi. Riscrivendo la formula con

    il logaritmo in base 10 si ottiene

    nk10

    log3

    101

    In anni recenti questa regola empirica stata oggetto di

    severe critiche a causa della sua scarsa fondatezza

    teorica. E tuttavia ancora oggi spesso utilizzata.

    Esempio. Calcolare le frequenze assolute e relative del

    carattere seguente, ottenuto rispondendo alla domanda con

    chi ha rapporti pi frequenti?:

    genitori amici insegnanti

    estranei insegnanti genitori

    genitori amici amici

    amici estranei amici

    genitori estranei genitori

    amici estranei estranei

    Per fare il calcolo occorre contare quanti casi si

    ottengono per ciascuna modalit:

    modalit fr.

    assolute

    fr.

    relative

    estranei 5 0,278

    amici 6 0,333

    genitori 5 0,278

    insegnanti 2 0,111

    18 1,000

    Esempio. Data la seguente distribuzione di frequenza di X :

    iX in if

    0 1 0,1

    5 Sturges, H. (1926), The choice of a class-interval, J.A.S.A., 21, 65-66.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    32

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    1 5 0,5

    2 2 0,2

    3 1 0,1

    4 1 0,1

    10 1,0

    Si disegna il grafico della funzione di ripartizione:

    Il grafico ha la forma di una scalinata con gradini

    proporzionali alle frequenze di X . I tratti verticali della

    funzione di ripartizione rappresentano le frequenze

    unitarie ed i tratti orizzontali sono dovuti al fatto che

    nulla la frequenza tra due modalit successive.

    La funzione di ripartizione consente di individuare i

    quantili di una distribuzione. Scelto ad esempio il valore

    in ascissa 1,2X , la funzione di ripartizione indica che l80% delle unit statistiche possiede un carattere con

    intensit minore o uguale al valore scelto.

    Esempio. Si considera la distribuzione di frequenza della

    statura degli iscritti alle liste di leva in Piemonte per

    lanno di nascita 1979 (dati in centimetri). Alla tabella

    stata aggiunta una colonna con le altezze dei rettangoli

    che formano listogramma.

    iX %if %iF ih

    150 160 1,10 1,1 1,10/(160-150) = 0,11

    160 170 22,10 23,2 2,21

    170 175 27,90 51,1 5,58

    175 180 26,70 77,8 5,34

    180 190 18,87 96,7 1,89

    190 195 2,22 98.9 0,44

    195 220 1,11 100 0,04

    100,00

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    -1 1 3 5 7

    X

    N

    2,1

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    33

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Listogramma il seguente:

    La funzione di ripartizione la seguente:

    12. Frequenze congiunte

    Si prende in esame il caso di due generici caratteri A e B

    con modalit naaa ,...,, 21 e mbbb ,...,, 21 , presenti in un

    collettivo di n individui. Si indica con ijn il numero di

    individui che possiedono la coppia di modalit ia e jb .

    Linsieme di queste informazioni costituisce la tabella a

    doppia entrata seguente:

    175140 150 160 170 180 190 200 210 220 230

    X

    1,10%

    22,10%

    27,9

    0%

    26,7

    0%

    18,87%

    2,22%

    1,11%

    0%

    25%

    50%

    75%

    100%

    140 150 160 170 180 190 200

    X

    F(X)

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    34

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Modalit di A

    Frequenze

    congiunte 1a 2a 3a Totali

    Modalit

    di B

    1b 11n 12n 13n .1n

    Frequenze

    marginali

    di B

    2b 21n 22n 23n .2n

    3b

    31n

    32n

    33n

    .3n

    4b 41n 42n 43n .4n

    Totali 1.

    n 2.

    n 3.

    n n

    Frequenze marginali di A

    Totale

    frequenze

    Il corpo della tabella raccoglie le frequenze congiunte ijn

    sopra descritte; lultima riga contiene la distribuzione

    univariata (marginale) del carattere A ; la colonna a destra

    contiene la distribuzione univariata (marginale) del

    carattere B .

    Sulla base della tabella delle frequenze congiunte ijn si

    pu ottenere la tabella delle corrispondenti frequenze

    relative dividendo per il totale delle frequenze n:

    Modalit di A

    Frequenze

    congiunte 1a 2a 3a Totali

    Modalit

    di B

    1b 11f 12f 13f .1f

    Frequenze

    marginali

    di B

    2b 21f 22f 23f .2f

    3b

    31f

    32f

    33f

    .3f

    4b 41f 42f 43f .4f

    Totali 1.

    f 2.

    f 3.

    f 1

    Frequenze marginali di A

    Totale

    frequenze

    Esempio. La seguente tabella riporta il numero di esercizi

    ricettivi (alberghi, campeggi, villaggi turistici e altre

    strutture ricettive) presenti nel 2001 nel Nord, Centro e

    Sud Italia (fonte: Istat, LItalia in Cifre 2002):

    Nord Centro Sud Italia

    Alberghi 21.568 6.324 5.536 33.428

    Campeggi e villaggi

    turistici 992 494 885 2.371

    Alloggi agro turistici 3.194 3.392 1.183 7.769

    Altri esercizi e alloggi 57.978 3.334 1.415 62.727

    Totale 83.732 13.544 9.019 106.295

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    35

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    La corrispondente tabella delle frequenze relative la

    seguente:

    Nord Centro Sud Italia

    Alberghi 20% 6% 5% 31%

    Campeggi e villaggi

    turistici 1% 0% 1% 2%

    Alloggi agro turistici 3% 3% 1% 7%

    Altri esercizi e alloggi 55% 3% 1% 59%

    Totale 79% 13% 8% 100%

    Si osserva che la voce Altri esercizi e alloggi

    predominante rispetto al totale ed la soluzione ricettiva

    preferita nel Nord Italia. La voce ricomprende gli ostelli

    per la giovent, le case per ferie, i rifugi alpini, le

    camere e gli appartamenti iscritti al Registro esercenti il

    commercio.

    Profili di riga e profili di colonna

    I profili di riga si ottengono dividendo la frequenza

    congiunta per la frequenza marginale di riga; i profili di

    colonna si ottengono dividendo la frequenza congiunta per

    la frequenza marginale di colonna:

    profili riga:

    ... i

    ij

    i

    ij

    i

    ij

    f

    f

    n

    n

    n

    n

    n

    n

    profili colonna:

    j

    ij

    j

    ij

    j

    ij

    f

    f

    n

    n

    n

    n

    n

    n

    ...

    Tabella dei profili riga

    Modalit di A

    1a 2a 3a Totali

    Modalit

    di B

    1b .111 nn .112 nn .113 nn 1

    2b .221 nn .222 nn .223 nn 1

    3b

    .331nn

    .332nn

    .333nn 1

    4b .441 nn .442 nn .443 nn 1

    Totali nn 1. nn 2. nn 3. 1

    Tabella dei profili colonna

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    36

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Modalit di A

    1a 2a 3a Totali

    Modalit

    di B

    1b 1.11 nn 2.12 nn 3.13 nn nn .1

    2b 1.21 nn 2.22 nn 3.23 nn nn .2

    3b

    1.31nn

    2.32nn

    3.33nn nn

    .3

    4b 1.41 nn 2.42 nn 3.43 nn nn4

    Totali 1 1 1 1

    Media dei profili

    I marginali di riga sono la media ponderata dei profili

    riga ponderati con le frequenze marginali di colonna. I

    marginali di colonna sono la media ponderata dei profili

    colonna ponderati con le frequenze marginali di riga:

    r

    i

    i

    i

    ijr

    i

    iijin

    n

    n

    nfff

    1

    .

    .1

    ..

    p

    j

    j

    j

    ijc

    j

    jijjn

    n

    n

    nfff

    1

    .

    .1

    ..

    Esempio. Con riferimento allesempio precedente, i profili

    riga sono i seguenti:

    Nord Centro Sud Italia

    Alberghi 65% 19% 17% 100%

    Campeggi e villaggi

    turistici 42% 21% 37% 100%

    Alloggi agro turistici 41% 44% 15% 100%

    Altri esercizi e alloggi 92% 5% 2% 100%

    Totale 79% 13% 8% 100%

    E i profili colonna i seguenti:

    Nord Centro Sud Italia

    Alberghi 26% 47% 61% 31%

    Campeggi e villaggi

    turistici 1% 4% 10% 2%

    Alloggi agro turistici 4% 25% 13% 7%

    Altri esercizi e alloggi 69% 25% 16% 59%

    Totale 100% 100% 100% 100%

    Dallanalisi dei profili riga si osserva ad esempio che il

    65% degli alberghi sono al Nord; consultando la tabella dei

    profili colonna emerge invece ad esempio che gli alberghi

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    37

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    sono la struttura ricettiva pi presente al Centro e al Sud

    rispetto alle restanti forme.

    Si osserva infine che i profili marginali di riga sono

    uguali alle frequenze marginali di riga nella tabella delle

    frequenze congiunte; analogamente i profili marginali di

    colonna sono uguali alle frequenze marginali di colonna

    nella tabella delle frequenze congiunte.

    Si verifica infine la propriet di media dei profili:

    %59%92%7%41%2%42%31%65%791.

    f

    %59%5%7%44%2%21%31%19%132.

    f

    %59%2%7%15%2%37%31%17%83.

    f

    Tipi di tabelle a doppia entrata. A seconda dei caratteri

    osservati le tabelle a doppia entrata si distinguono in:

    tabelle di contingenza. I due caratteri sono entrambi

    qualitativi.

    tabelle miste. I due caratteri sono uno quantitativo

    laltro qualitativo.

    tabelle di correlazione. I due caratteri sono entrambi

    quantitativi, discreti oppure continui.

    Uno schema riassuntivo dei tre tipi di tabella a doppia

    entrata il seguente:

    Carattere

    qualitativo

    Carattere

    quantitativo

    Carattere

    qualitativo

    Tabelle di

    contingenza

    Tabelle

    miste

    Carattere

    quantitativo

    Tabelle

    miste

    Tabelle di

    correlazione

    Esempio. Numero di addetti delle imprese per settore di

    attivit economica nel 1999 (fonte: Istat, LItalia in

    cifre 2002):

    1-19

    addetti

    20

    addetti e

    pi

    Totale

    Industria 1.961.847 3.006.293 4.968.140

    Costruzioni 1.140.135 271.703 1.411.838

    Servizi 5.488.238 2.439.421 7.927.659

    Totale 8.590.220 5.717.417 14.307.637

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    38

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    La tabella precedente una tabella mista che indica il

    numero di addetti per settore e per classe dimensionale

    delle imprese ove lavorano. Si osserva che le imprese sotto

    i 20 addetti sono soprattutto imprese di servizi, mentre

    quelle sopra i 20 addetti caratterizzano soprattutto il

    settore industriale in senso stretto.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    39

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    2. Misure di un carattere statistico

    3. Misure di posizione

    Le misure di posizione o medie rappresentano la prima

    sintesi di un fenomeno statistico.

    La tradizione statistica italiana distingue le medie in

    ferme, in cui il valore dipende da tutti i dati, e in

    lasche per i restanti casi. La media aritmetica un

    esempio di media ferma perch calcolata su tutti i dati

    disponibili e lingresso di un nuovo dato modifica il

    risultato precedentemente ottenuto. Altre misure di

    tendenza centrale come la mediana e la moda sono lasche in

    quanto pu accadere che lingresso di un nuovo dato non

    modifichi affatto o modifichi in misura ridotta il loro

    valore iniziale.

    Media, mediana e moda esprimono la tendenza centrale del

    fenomeno studiato. Sono misure di tendenza non centrale i

    quantili, intensit che ripartiscono il collettivo in

    ragione della frequenza cumulata.

    13. Media aritmetica

    Media aritmetica semplice. La media aritmetica semplice di

    n termini nXXX ,..,, 21 vale:

    n

    i

    i

    n Xnn

    XXXM

    1

    21

    1

    1...

    La media aritmetica ponderata di n termini mXXX ,..,, 21 con

    frequenze rnnn ,...,, 21 data dallespressione:

    r

    i

    ii

    rr nXnn

    nXnXnXM

    1

    2211

    1

    1... nn

    r

    i

    i

    1

    La media aritmetica ponderata di m termini mXXX ,..,, 21 con

    frequenze relative6 rfff ,...,, 21 data dallespressione:

    r

    i

    iirrfXfXfXfXM

    1

    22111... 1

    1

    r

    i

    if

    6 O normalizzate.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    40

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    Accanto alla media ponderata con frequenze si pu definire

    la generica media ponderata con pesi rppp ,...,, 21 che

    contempla come caso particolare la media con frequenza

    sopra definita:

    n

    i

    i

    n

    i

    ii

    p

    pX

    M

    1

    1

    1

    Nel caso di m pesi normalizzati

    rppp ,...,,

    21 si ottiene

    lespressione

    r

    i

    irrpXpXpXpXM

    1

    *

    1

    **

    22

    *

    111... 1

    1

    r

    i

    ip

    Esempio. Si calcola la media aritmetica della distribuzione

    di X :

    iX -1 0 1 2

    in 5 6 3 5

    421053,05365

    523160514

    1

    4

    1

    i

    i

    i

    ii

    n

    nX

    X

    La media calcolata un punto in ascissa nel grafico della

    distribuzione di X :

    Media di rapporti. Si considerano due caratteri

    quantitativi X e Y riferiti alle medesime unit

    statistiche i , per i quali sia utile calcolare il rapporto t tra le rispettive intensit, come evidenziato nella

    tabella seguente:

    Unit

    statistiche X Y iii YXt

    0,421053

    5

    3

    6

    5

    -2 -1 0 1 2 3

    X

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    41

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    1 1X 1Y 111 YXt

    2 2X 2Y 222 YXt

    n 2X nY nnn YXt

    Lultima colonna contiene la serie dei rapporti it ottenuti

    dividendo lintensit del carattere X per lintensit del

    carattere Y .

    Per calcolare il rapporto medio t riferito a tutte le unit

    statistiche oggetto di indagine, appare naturale dividere

    la somma delle intensit di X con la somma delle intensit

    di Y :

    n

    i

    i

    n

    i

    i

    Y

    X

    t

    1

    1

    Con un passaggio algebrico t risulta anche pari alla media

    aritmetica ponderata dei singoli rapporti it :

    n

    i

    i

    n

    i

    ii

    n

    i

    i

    n

    i

    i

    Y

    tY

    Y

    X

    t

    1

    1

    1

    1

    Alternativamente si pu notare che il rapporto medio t

    anche pari alla media armonica ponderata dei singoli

    rapporti it :

    n

    i i

    i

    n

    i

    i

    n

    i

    i

    n

    i

    i

    t

    X

    X

    Y

    X

    t

    1

    1

    1

    1

    Esempio. Si calcola la media della seguente serie di

    rapporti, riferiti allattivit settimanale di tre filiali

    di un call-center:

    Fil. A Fil. B Fil. C Media

    N clienti contattati 104 253 77 434

    N addetti 10 22 9 42

    Rapporto 10,4 11,5 7,7 10,33

    I 42 addetti delle tre filiali hanno contattato

    complessivamente 434 clienti con un rapporto medio di 10,33

    clienti pro capite contattati. Per arrivare a questo

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    42

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    risultato utilizzando i rapporti riferiti a ogni filiale si

    scrive:

    33,10

    7,7

    77

    5,11

    253

    4,10

    104

    434

    t

    Media per dati raccolti in classi. Nel caso di dati

    raccolti in classi la media si calcola moltiplicando i

    centri di classe (c.d.c.) per le rispettive frequenze.

    Indicando i centri di classe con iX , la media ponderata con

    pesi assoluti data dallespressione:

    r

    i

    iinX

    nM

    1

    1

    1

    La media ponderata con pesi normalizzati la seguente:

    r

    i

    iifXM

    1

    1

    La media aritmetica calcolata utilizzando i valori centrali

    di classe, implica lipotesi di uniforme distribuzione dei

    dati individuali allinterno di ogni classe ed in

    generale differente dalla media aritmetica calcolata sui

    dati individuali. Questa differenza detta effetto di

    raggruppamento.

    Esempio. La media aritmetica semplice di 1,2 1,4 2,4 2,5

    3,0 e 3,2 vale 2,283. Raggruppando i dati nelle classi 0

    2 e 2 4 si ottiene:

    iX c.d.c. in iinX

    0 - 2 1 4 4

    2 - 4 3 2 6

    6 10

    La media vale 10/6 = 1,667.

    Propriet

    Si riportano alcune propriet della media aritmetica, di

    seguito indicata con il simbolo 1M .

    Condizione di Cauchy. La media sempre compresa tra il

    valore minimo e il valore massimo dei termini su cui

    calcolata:

    MaxxMx

    1min.

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    43

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    La media dunque una misura interna ai dati.

    Per dimostrarlo, si inizia con il constatare che ogni

    valore di una variabile X compreso tra il suo minimo e il

    suo massimo. Sommando questa doppia diseguaglianza per

    tutti i valori di X si ottiene

    Maxn

    Maxn

    MaxMax

    nXXnX

    XXX

    XXXXXX

    min

    min

    2min1min

    ...

    Dividendo per n si ha Max

    n

    i

    i

    Xn

    X

    X 1

    min ovvero

    MaxxMx

    1min.

    Somma nulla. Lo scarto dalla media la differenza con

    segno tra il valore iX e la media stessa. E nulla la somma

    degli scarti

    01

    1

    n

    i

    iMX

    Si osserva che

    n

    i

    n

    i

    i

    n

    i

    iMXMX

    1

    1

    11

    1 . Poich la media

    una costante si ha che 11

    1nMM

    n

    i

    da cui 011

    nMX

    n

    i

    i .

    Luguaglianza 11

    nMX

    n

    i

    i

    indica che lammontare complessivo

    del carattere

    n

    i

    iX

    1

    presente nel collettivo pari a n

    volte la media aritmetica stessa.

    Minimo. La quantit

    n

    i

    iaX

    naf

    1

    21 minima se il valore

    di a la media aritmetica dei dati. Per dimostrarlo si

    parte dalla considerazione che, se f ha un punto di minimo

    in a, in a la derivata prima nulla e la derivata seconda

    positiva:

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    44

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    1

    1

    1

    1

    0

    02

    Man

    X

    naX

    aXna

    f

    n

    i

    in

    i

    i

    n

    i

    i

    02

    2

    a

    f

    Quindi per 1Ma 1Mf un minimo per f , da cui lasserto. La quantit 1Mf la varianza della variabile X .

    Monotonia. Se Y e X sono due variabili per cui vale la

    relazione YX , allora anche per le rispettive medie vale

    lanaloga relazione YX MM .

    Esempio. Date due variabili X e 2

    XY si ha che:

    n

    XXXM

    n

    X

    ...21

    n

    XXXM

    n

    Y

    22

    2

    2

    1...

    2XX implica quindi che 2

    XXMM . Si osservi che per

    3XY la propriet vera solo per valori positivi di X .

    Linearit. La media di una combinazione lineare di

    variabili pari alla combinazione lineare delle rispettive

    medie XbXa

    MbaM . Per dimostrarlo occorre procedere

    per passi successivi. Si parte dalla considerazione che se

    i dati sono tutti costanti cX , allora la media pari alla costante stessa:

    cncn

    cn

    Xn

    M

    n

    i

    n

    i

    i

    111

    11

    1

    Inoltre la somma delle medie di due variabili pari alla

    media della variabile somma, ovvero la media una misura

    associativa dei dati:

    YXYXMMM

    Infine, la media di un insieme di dati tutti moltiplicati

    per una costante pari a XaX

    MaM , ovvero la media

    una misura omogenea dei dati:

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    45

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    X

    n

    i

    i

    n

    i

    i

    aXaM

    n

    X

    an

    aX

    M 11

    Sulla base delle propriet citate, si conclude che la

    propriet seguente vera:

    X

    n

    i

    i

    n

    i

    i

    bXaMba

    n

    Xbna

    n

    bXa

    M

    11

    Esempio. Date le variabili X con media 5XM e Y con

    media 2YM , la media della variabile YX 2 vale

    1452 YX

    MM .

    Loperatore media E[.]. Le differenti formule per il

    calcolo della media aritmetica possono essere riassunte

    introducendo il concetto di operatore media E . Loperatore serve a semplificare la simbologia quando non

    importante riportare in modo esatto il calcolo effettuato.

    Ad esempio la media di n dati individuali si scrive:

    n

    X

    XE

    n

    i

    i 1

    Mediante loperatore E si possono riproporre le propriet della media gi incontrate: ccE ; XaEaXE ; XaEcaXcE . Va inoltre osservato che 22 XEXE .

    Esempio. Si verifica che per la seguente distribuzione di X

    nulla la somma dei dati:

    iX -1 0 1 2

    in 5 6 3 5

    La media vale 0,421053 e la somma degli scarti nulla:

    05421053,023421053,01

    6421053,005421053,01

    Si osservi che il valore 0X una modalit del carattere che non va trascurata nel calcolo della media. Possono

    invece essere trascurati quei valori (teorici) di X che

    hanno frequenza nulla, in quanto non presenti nei dati.

    Esempio. Si calcola la media aritmetica di X :

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    46

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    iX 0 1 2 3 4 5 6

    in 0,01 0,1 0,35 0,18 0,09 0,2 0,07

    12,307,062,05...1,0101,00

    7

    1

    i

    i

    ifXX

    Esempio. Si calcola la media aritmetica della variabile X :

    X in if

    0 5 2 0,2

    5 7 5 0,5

    7 10 3 0,3

    Quando le intensit della variabile X sono raccolte in

    classi, per il calcolo della media aritmetica si utilizzano

    i centri di classe, semisomma dei limiti di classe. I

    centri di classe sono rispettivamente 5,2250 per la prima classe, 6 per la seconda e 8,5 per la terza.

    La media aritmetica con le frequenze assolute in vale:

    05,610

    35,85625,23

    1

    3

    1

    i

    i

    i

    ii

    n

    nX

    X

    Allo stesso risultato si giunge utilizzando le frequenze

    relative if :

    05,63,05,85,062,05,2

    3

    1

    i

    i

    ifXX

    14. Mediana e quantili

    Nel linguaggio comune assumere una posizione o un

    atteggiamento mediano significa stare nel mezzo,

    posizionarsi al centro. Nel giuoco del calcio il mediano

    il giocatore che sta a centro campo, a met strada tra i

    difensori e gli attaccanti.

    Mediana

    La mediana Me di un carattere quellintensit che divide

    i dati in due gruppi ugualmente numerosi: il primo gruppo

    comprende quelle intensit che non superano la mediana; il

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    47

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    secondo gruppo formato da quelle intensit che superano

    il valore mediano.

    Propriet. Posizionando i dati lungo una retta orientata la

    mediana si colloca nella posizione di ordine centrale,

    minimizzando la distanza lineare tra ogni punto e la

    mediana stessa7:

    min1

    n

    i

    iMeXMef

    La dimostrazione di questa propriet laboriosa ed

    quindi omessa. Si propone invece una interpretazione a

    carattere intuitivo. Dati due punti di ascissa 1x e nx

    posti lungo una retta orientata, la loro mediana minimizza

    la somma delle rispettive distanze e si colloca pertanto al

    centro del segmento di retta compreso tra i due punti:

    Se si aggiungono due nuovi punti 2x e 3x sulla retta, la

    mediana dei quattro dati n

    xxxx ,,,321

    deve soddisfare

    nuovamente la propriet di minimo e si sposta quindi in

    posizione centrale allinterno del nuovo intervallo

    compreso tra 2x e 3x (figura B). Aggiungendo infine alla

    retta altri due punti 4x e 5x , la mediana si sposta

    nuovamente al centro dei nuovi punti (figura C) realizzando

    nuovamente la condizione di minimo.

    7 Si osservi la distinzione tra questa propriet e la propriet della media aritmetica di

    rendere minima la somma del quadrato degli scarti dalla media stessa.

    (A)

    (B)

    (C)

    X1 XnMe

    X1 XnMe

    X1 XnMe

    X2 X3

    X5

    X3X4 X2

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    48

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    La mediana pu essere calcolata su caratteri qualitativi

    ordinabili, su caratteri quantitativi discreti e su

    caratteri quantitativi raccolti in classi.

    Caratteri qualitativi ordinabili. In un gruppo di

    determinazioni di un carattere qualitativo ordinabile la

    mediana quellintensit che occupa il posto centrale tra

    le determinazioni ordinate in modo crescente. Nel caso in

    cui il numero di determinazioni pari, la mediana

    rappresentata dalle due determinazioni che si trovano in

    posizione centrale.

    Caratteri quantitativi discreti. Per calcolare il valore

    della mediana di un carattere quantitativo discreto occorre

    distinguere il caso in cui i dati sono in numero pari dal

    caso in cui i dati sono in numero dispari: nel primo caso

    la mediana cade tra le intensit dei dati di posizione 2

    n e

    di posizione 12

    n

    ; nel secondo Me corrisponde

    allintensit di posizione 2

    1n.

    Caratteri quantitativi raccolti in classi. In una

    distribuzione di frequenza per dati raccolti in classi non

    si conoscono le intensit effettive ma solo la loro

    distribuzione nelle classi assegnate. Dopo aver individuato

    la classe in cui cade la mediana, per stimare la posizione

    della mediana Me si procede per interpolazione lineare:

    12

    12

    1

    1

    2XX

    NN

    NNXMe

    Nella formula, 1X e 2X sono i limiti della classe in cui

    cade il valore mediano; 1N la somma delle frequenze delle

    classi che precedono la classe mediana e 2N la somma

    delle frequenze delle classi fino a quella in cui cade la

    mediana; 2N la met delle frequenze complessive.

    Esempio. Si calcola la mediana della variabile X con

    distribuzione:

    X in iN

    0 - 2 5 5

    2 3 10 15

    3 5 6 21

  • L.Bollani e L.Bottacin Appunti di statistica descrittiva

    49

    [email protected]

    Materiale ad uso didattico. E vietata la riproduzione e la vendita.

    La met delle frequenze totali vale 5,10221 e quindi la

    mediana cade nella classe 2 3. Per interpolazione lineare

    la mediana 2,55:

    55,2223515

    55,10

    Me

    Il grafico delle frequenze