Slides a.a. 2014 2015 in Aula

download Slides a.a. 2014 2015 in Aula

of 382

description

Statistica

Transcript of Slides a.a. 2014 2015 in Aula

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 1 Nome corso

    Corso di Laurea in Marketing e Organizzazione dImpresa

    INTRODUZIONE ALLA STATISTICA PER LE SCIENZE ECONOMICHE E SOCIALI

    Franco Torelli

    ([email protected])

    Anno Accademico 2014/2015

    Dipartimento di Comunicazione ed Economia

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 2

    Obiettivi formativi

    Fornire gli strumenti quantitativi essenziali e favorire la comprensione delle metodologie statistiche di base nel contesto delle scienze economiche, sociali aziendali e delle pubbliche amministrazioni.

    Favorire ladozione di approcci corretti nei confronti delle indagini di tipo quantitativo, nellinterpretazione dei risultati e nella relativa esposizione e comunicazione.

    Evidenziare, per mezzo di un profilo di concretezza del corso, come limpiego di opportuni metodi statistici consenta di risolvere svariate tipologie di problemi.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 3

    Introduzione al ruolo e al linguaggio della statistica

    Parte I: Statistica descrittiva Classificazioni dei dati e rappresentazioni grafiche Rapporti statistici e numeri indici Misure di posizione, di variabilit, di concentrazione Analisi bivariata: correlazione e regressione lineare semplice

    Contenuti

    Parte II: Probabilit e statistica inferenziale Nozioni elementari di probabilit Distribuzioni di probabilit Distribuzioni campionarie e intervalli di confidenza Stime puntuali e stime per intervallo Metodi di campionamento Verifica delle ipotesi: i test statistici

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 4

    1 INTRODUZIONE AL RUOLO E AL LINGUAGGIO DELLA STATISTICA

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 5

    Il significato di statistica

    Si tratta di un insieme di metodologie che hanno come scopo la conoscenza quantitativa dei fenomeni collettivi

    Collettivi di stato: individuabili in modo preciso solo se riferiti a uno specifico momento (es. popolazione residente)

    Collettivi di movimento: individuabili in riferimento a un periodo (prodotti venduti, nascite)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 6

    Tipologie di fenomeni collettivi

    I fenomeni collettivi che sono tali perch riguardano una collettivit di casi singoli. Per esempio, le caratteristiche comportamentali della popolazione dellEuropa centro-orientale.

    I fenomeni relativi a un solo caso, alla cui conoscenza si pu pervenire solo con la ripetizione delle misurazioni (collettivit di osservazioni): per esempio, la quantit di bario liberata ad alta quota da una determinata apparecchiatura allo scopo di creare nubi artificiali.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 7

    Collettivit di osservazioni

    Ripetendo lo stesso esperimento o la stessa misurazione, non si ottiene lo stesso risultato .

    per la presenza di errori casuali di misurazione

    Si tratta di errori non eliminabili completamente, che non assumono dimensioni macroscopiche

    Derivano dallimpossibilit di considerare le numerose caratteristiche che influenzano il fenomeno

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 8

    Errori casuali e distorsioni

    Mentre gli errori casuali a volte aumentano, a volte diminuiscono il valore reale, le distorsioni operano sempre nella stessa direzione e influenzano quindi la media

    La singola misurazione quindi uguale al valore reale + lerrore casuale + leventuale distorsione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 9

    Statistica descrittiva e statistica inferenziale

    Lo studio dei fenomeni collettivi pu essere svolto sull'intera collettivit, oppure solo una sua parte

    Se si utilizzano informazioni su una parte per trarre conclusioni o deduzioni sullintera collettivit, il campo della statistica chiamato statistica inferenziale o inferenza statistica

    Al contrario, la statistica descrittiva ha come oggetto la semplice descrizione quantitativa delle caratteristiche di una collettivit, sia essa intera o parziale

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 10

    Alcune definizioni Popolazione e unit

    Popolazione statistica: loggetto di una indagine, linsieme degli elementi che ci interessano ai fini dell'indagine; viene utilizzato come sinonimo il termine universo statistico (per esempio, tutti i visitatori di una fiera)

    Unit statistiche: sono i singoli elementi che compongono la popolazione statistica, sui quali si effettua la misurazione delle variabili (i singoli visitatori)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 11

    Alcune definizioni fenomeni e modalit

    Fenomeni statistici (o variabili statistiche o caratteri statistici): sono le caratteristiche rilevate per ogni unit statistica (per esempio, la tipologia di visitatori); si distinguono in fenomeni qualitativi e fenomeni quantitativi

    Modalit: sono i diversi valori che pu presentare un fenomeno (per esempio, riguardo alla tipologia di visitatore: italiano o straniero; appartenente a un settore industriale o terziario, ecc.)

    Le modalit di un carattere devono essere esaustive (ossia, rappresentare tutti i possibili modi in cui un fenomeno si pu presentare)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 12

    I fenomeni qualitativi

    Presentano modalit espresse con parole (es.: stato civile); sono chiamati anche mutabili. Si suddividono in ordinai e nominali.

    Fenomeni ordinali: fra le modalit si pu stabilire un ordine logico (crescente o decrescente): per esempio, livello di accordo con la depenalizzazione del suicidio

    Fenomeni nominali: fra le modalit si possono instaurare solo relazioni di uguale o diverso, senza che si possa adottare un ordine logico: per esempio, tipologia di negozio preferito

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 13

    Ancora sui fenomeni nominali

    Spesso, per praticit di elaborazione, si attribuiscono codifiche numeriche alle diverse modalit dei fenomeni nominali.

    Per esempio, se si studiano i gruppi etnici di appartenenza nellAsia Centrale:

    1 Kazaki 2 - Uzbeki 3 Turkmeni 4 ecc.

    In questo caso, i dati che si ricavano sono

    chiamati dati nominali; si tratta di dati che non provengono da operazioni di misurazione o di conteggio, ma da una codifica.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 14

    Ancora sui fenomeni ordinali

    Sempre per praticit di elaborazione o di formulazione della risposta, si attribuiscono codifiche numeriche anche alle diverse modalit dei fenomeni ordinali.

    I dati che si ricavano sono chiamati dati ordinali; anche in questo caso, sono dati che non provengono da operazioni di misurazione o di conteggio.

    Per esempio, relativamente al livello di stagionalit di un prodotto:

    1 molto contenuto 2 contenuto 3 n contenuto, n elevato 4 elevato 5 molto elevato

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 15

    I fenomeni quantitativi

    Presentano modalit espresse con numeri, che derivano da un'operazione di misura o di conteggio; sono chiamati anche variabili.

    Fenomeni discreti: le modalit sono costituite da un numero finito di valori, che possono variare tra loro solo per un ammontare fisso (per esempio, il numero di referenze su uno scaffale di un negozio; i dipendenti di unazienda)

    Fenomeni continui: la scala delle possibili modalit continua: allinterno del campo di variazione, il numero delle modalit teoricamente infinito (le modalit possono differire tra loro per entit variabili). Per esempio, la distanza tra il luogo di acquisto e la residenza dellacquirente; la statura.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 16

    Discreti e continui

    Nel caso di fenomeno discreto, le modalit possono essere poste in corrispondenza biunivoca con un sottoinsieme dei numeri interi.

    Nel caso di fenomeno continuo, le modalit possono essere poste in corrispondenza biunivoca con un sottoinsieme dei numeri reali.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 17

    Ancora sui fenomeni continui

    Il loro numero di modalit teoricamente infinito.

    Nella realt, pu esistere una discontinuit sperimentale, dovuta alla pi o meno accentuata sensibilit dello strumento di misurazione (per esempio, lanemometro nel caso del vento)

    Uno strumento dotato di sensibilit infinita potrebbe fornire valori con un numero infinito di cifre.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 18

    Scale di intervallo

    Una scala di intervallo ha il punto di origine fissato convenzionalmente, come punto di riferimento (per esempio, scala dei gradi centigradi per la temperatura: il punto zero non significa assenza di temperatura).

    In queste scale, hanno significato le differenze, ma non i rapporti: tra due temperature, possiamo affermare che una inferiore allaltra, ma non conosciamo il loro rapporto.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 19

    Scale di rapporto

    Una scala di rapporto ha il punto di origine legato in modo naturale allassenza di valore, come punto di riferimento (per esempio, lavanzamento della linea di terra alla foce di un fiume, per effetto dei sedimenti: il punto zero ha il significato di assenza di avanzamento).

    In queste scale, hanno significato sia le differenze, sia i rapporti: tra due fiumi, possiamo affermare che uno presenta un avanzamento della linea di terra corrispondente a due terzi dellaltro.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 20

    I descrittori

    Un parametro un valore numerico che descrive una caratteristica della popolazione; per esempio, laspettativa media di vita alla nascita di una intera popolazione, la deviazione standard dellet di una popolazione, ecc. Si rappresenta solitamente con una lettera greca.

    Una statistica un valore numerico che descrive una caratteristica del campione. Per esempio, la media e la deviazione standard di un campione di studenti in riferimento al punteggio con cui si sono diplomati. Si rappresenta solitamente con una lettera romana.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 21

    Le fonti statistiche

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 22

    Dati primari e dati secondari

    Dati primari: devono essere costruiti, per

    mezzo di una indagine sul campo

    Dati secondari: sono gi stati costruiti da altri e sono reperibili tramite ricerche desk

    Prima di procedere a una rilevazione diretta dei dati, indispensabile esaminare le informazioni gi esistenti:

    il costo per costruire dati primari in genere superiore al costo per raccogliere dati secondari

    i dati secondari possono costituire una base conoscitiva per impostare la rilevazione dei dati primari

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 23

    I fornitori dei dati secondari

    Sono gli enti, le istituzioni, gli organismi che, a titolo diverso, effettuano rilevazioni (fonti statistiche)

    I dati possono essere su supporti realizzati dalla stessa fonte statistica, oppure realizzati da altri (mezzi di informazione statistica)

    Per valutare la qualit di un dato, particolarmente utile effettuare incroci tra i dati delle diverse fonti

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 24

    Parametri per valutare la qualit di un dato

    Accessibilit

    Attendibilit e metodologie utilizzate

    Completezza

    Livello di aggiornamento

    Grado di dettaglio

    Esistenza di interessi da parte della fonte

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 25

    Gli accorgimenti per lo svolgimento di una indagine statistica

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 26

    Limportanza di impostare correttamente una indagine statistica

    Per ottenere risultati affidabili occorre seguire procedure rigorose e controllare (limitare) i fattori di disturbo dellindagine

    Occorre soprattutto partire da unottica corretta e non distorta

    Per esempio, se si effettua uno studio su due gruppi di soggetti, per ottenere risultati comparabili necessario le caratteristiche dei due gruppi siano corrispondenti

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 27

    Alcuni casi - 1

    Poliomielite: gli studi sugli effetti del vaccino

    Mezzo milione di bambini venne vaccinato (gruppo di trattamento)

    Per mezzo milione di bambini la famiglia rifiut la vaccinazione (gruppo di controllo)

    1 milione non fu deliberatamente vaccinato (gruppo di controllo)

    il problema: la poliomelite colpiva maggiormente i

    benestanti, e nel gruppo di trattamento erano pi frequenti i benestanti

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 28

    Alcuni casi - 2

    Per verificare leffetto di un farmaco, non dovrebbero essere i pazienti a scegliere il gruppo in cui entrare (di trattamento o di controllo)

    Si avrebbe il rischio di una sproporzione di pazienti pi attivi, meno rassegnati, pi attenti, pi consapevoli nel gruppo di trattamento

    Occorre un esperimento controllato, dove la casualit statistica a stabilire chi far parte del gruppo dei due gruppi

    Conviene utilizzare anche dei placebo, e sia i pazienti, sia i medici dovrebbero essere alloscuro del gruppo di appartenenza (esperimento double blind)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 29

    Alcuni casi - 3

    Gli studi sulleffetto del fumo sono studi sul campo (i soggetti stessi si assegnano alluno o allaltro gruppo)

    Si osserva una forte associazione tra fumo e malattie cardio-circolatorie

    Attenzione, per: gli uomini, pi forti fumatori rispetto alle donne, sono comunque pi esposti a disturbi di tipo cardio-circolatorio

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 30

    Alcuni casi - 4

    Lo Stato della California aveva valutato lefficacia di un programma di riabilitazione dopo luscita dal carcere, con lobiettivo di ridurre il tasso di recidivi.

    Il programma, la cui adesione era su base volontaria, prevedeva anche alcuni anni di addestramento in stile militare, improntato a una severa disciplina.

    I primi risultati sembravano indicare un buon funzionamento del metodo, che riduceva la probabilit di rientro in carcere entro due anni dal rilascio.

    Ma il problema era ladesione volontaria, che rendeva i due gruppi non comparabili.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 31

    Alcuni casi - 6

    Obiettivo: misurare leffetto dellavanzamento dellet sulla statura

    In un determinato momento, laltezza delle persone anziane inferiore allaltezza delle persone giovani, non solo perch i soggetti calano con il passare degli anni, ma soprattutto perch appartengono a generazioni diverse

    Indagine cross section: in un determinato momento

    Indagine longitudinale: i soggetti vengono seguiti nel tempo

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 32

    Indagini longitudinali

    Per studiare statisticamente il fenomeno delle carriere criminali (dallaggressivit e disonest nellinfanzia alla violenza adulta), per analizzare limportanza, migliorativa o peggiorativa, della prima condanna

    fondamentale realizzare indagini longitudinali

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 33

    2 CLASSIFICAZIONI DEI DATI E RAPPRESENTAZIONI GRAFICHE

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 34

    La classificazione delle unit statistiche

    Classificazioni unidimensionali, basate su un singolo fenomeno (distribuzioni di frequenze)

    Classificazioni bidimensionali, basate su coppie di fenomeni (tabelle a doppia entrata o incroci)

    Classificazioni multidimensionali, basate su pi di due fenomeni (tabelle a entrata multipla)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 35

    Le distribuzioni di frequenza

    Una distribuzione di frequenza registra ogni modalit con cui il fenomeno si presenta e il corrispondente numero di volte in cui la singola modalit si presenta

    La frequenza il numero di volte con cui una modalit si presenta: per la modalit i, indicata con fi

    La frequenza cumulata la frequenza con cui si presentano le modalit di ordine inferiore o uguale a una certa modalit. Si indica con fi

    La frequenza relativa di una modalit la frequenza di questa modalit, rapportata al totale delle frequenze. Si indica con rfi (pu essere su scala 1 o su scala 100, in questo secondo caso si tratta di una frequenza relativa percentuale)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 36

    Distribuzioni di frequenza: alcune modalit operative

    Nel caso di un fenomeno quantitativo continuo, occorre scegliere classi di opportuna ampiezza

    Ampiezza di una classe: differenza tra l'estremo superiore e l'estremo inferiore

    Per convenzione: lintervallo comprende l'estremo inferiore, ma non quello superiore (intervallo aperto a destra e chiuso a sinistra)

    Aumentando il numero delle classi (e riducendone quindi l'ampiezza) si raggiunge una maggior precisione, ma si attenua la sintesi del fenomeno

    Quando possibile, le classi devono essere di uguale ampiezza

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 37

    Le tabelle a doppia entrata: i contenuti

    I numeri all'interno della tabella sono le frequenze di casella

    Al margine di ogni riga si trovano i totali marginali di riga

    Al margine di ogni colonna si trovano i totali marginali di colonna

    Nell'ultima riga dell'ultima colonna si trova il totale generale

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 38

    Le tabelle a doppia entrata: categorie

    Una tabella a doppia entrata con almeno un fenomeno qualitativo si chiama tabella di contingenza

    Se entrambi i fenomeni sono quantitativi, si parla tabella di correlazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 39

    Le tabelle a entrata multipla

    Il numero di caselle di una tabella a pi di due entrate uguale al prodotto del numero delle modalit (o classi) di ciascuno dei fenomeni considerati

    Cresce quindi molto rapidamente con l'aumentare del numero di fenomeni che si vuole considerare

    Il rischio quello di ottenere tabelle di difficile lettura

    inoltre, probabile che in molte caselle la frequenza sia uguale o prossima allo zero

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 40

    Limpostazione del database

    Per elaborare correttamente una base di dati, fondamentale impostarla efficacemente ...

    ... cercando gi a priori di capire quali elaborazioni saranno opportune.

    Un database in excel normalmente viene impostato con ogni unit statistica in riga e ogni fenomeno statistico in colonna. Il contenuto delle caselle corrisponde alle singole modalit

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 41

    Un esempio di impostazione: visitatori di una fiera

    Num progr. giorni di ingresso

    padiglioni visitati

    altre fiere visitate della stessa

    tipologia et

    1 3 3 3 43

    2 4 4 5 46

    3 4 4 8 36

    4 4 4 5 18

    5 4 5 6 43

    6 4 6 8 28

    7 3 3 4 45

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 42

    Le rappresentazioni grafiche

    Un grafico un modo immediato per presentare le informazioni

    Un grafico pu essere costruito anche per analizzare i dati: pu suggerire ipotesi sulla distribuzione dei dati, porre in luce relazioni tra pi fenomeni, come nel caso riportato di seguito

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 43

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 44

    Due categorie di grafici

    Grafici universali, applicabili a una infinit di casi; per esempio:

    Spezzate

    Grafici a settori circolari

    Grafici a radar

    Grafici a barre

    Istogrammi

    Ideogrammi, contenenti figure e immagini relative all'argomento trattato

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 45

    Fosforo totale in superficie e sul fondo alla stazione di rilevazione di Cesenatico (mg/mc)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 46

    Grafico a radar: numero giornaliero di scontrini di tre ipermercati

    0

    100

    200

    300

    400

    500

    600

    700

    800

    900

    luned

    marted

    mercoled

    gioved venerd

    sabato

    domenica

    A

    B

    C

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 47

    Grafico a settori circolari: ripartizione delle italiane appartenenti

    alla fascia det 18-39 che ricordano un messaggio pubblicitario

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 48

    Grafico a barre: emissioni di carbonio da parte di alcuni paesi (milioni tonnellate)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 49

    Istogramma

    una tra le rappresentazioni grafiche universali pi utilizzate

    un grafico adatto ai fenomeni continui, in cui i rettangoli hanno basi uguali o diverse tra loro, e ogni rettangolo ha unarea proporzionale alla corrispondente frequenza

    I rettangoli sono affiancati (e non separati)

    fondamentale impostare correttamente gli assi

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 50

    Fenomeni quantitativi con classi di uguale ampiezza

    I rettangoli dellistogramma hanno altezza corrispondente alla frequenza e base corrispondente allampiezza della classe

    Larea e laltezza sono proporzionali alla frequenza

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 51

    Esempio

    Altezze (centimetri) p%k

    155-160 5

    160-165 10

    165-170 15

    170-175 25

    175-180 20

    180-185 15

    185-190 10

    TOTALE 100

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 52

    Distribuzione campione per statura

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 53

    Fenomeni quantitativi con classi di differente ampiezza

    I rettangoli dellistogramma hanno altezza corrispondente alla densit di frequenza (rapporto tra la frequenza e l'ampiezza della classe) e base corrispondente allampiezza della classe

    Larea (e non laltezza) proporzionale alla frequenza

    Questo consente le giuste proporzioni tra le frequenze delle classi e le aree dei rettangoli

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 54

    Esempio di distribuzione di frequenza di un fenomeno continuo: pressione sanguigna sistolica in un campione di soggetti

    Pressione (millimetri di mercurio - mmHg)

    %

    90-95 4

    95-100 7

    100-110 19

    110-120 21

    120-130 27

    130-150 17

    150-180 5

    TOTALE 100

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 55

    Rappresentazione non corretta: altezza del

    rettangolo proporzionale alla numerosit

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 56

    Rappresentazione corretta: area del rettangolo proporzionale alla numerosit (altezza proporzionale alla densit)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 57

    3 RAPPORTI STATISTICI E NUMERI INDICI

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 58

    Rapporti statistici

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 59

    La possibilit di comparare i dati

    Unoperazione che spesso si compie sui dati statistici il confronto tra i valori di un fenomeno quantitativo, con riferimento a diverse unit statistiche.

    Il raffronto diretto ha per significato solo a parit di circostanze.

    Ad esempio, il confronto tra la produzione mensile di rifiuti urbani da parte di due famiglie non ha molto significato se non si considera il numero di componenti.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 60

    Le principali categorie

    In questi casi, meglio non utilizzare i valori originari, bens i quozienti tra essi e una opportuna grandezza, considerata come indice di dimensione.

    Tali quozienti vengono denominati rapporti statistici.

    Le principali categorie di rapporti statistici sono:

    - i rapporti di composizione;

    - i rapporti di densit;

    - i rapporti di derivazione;

    - i rapporti di coesistenza.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 61

    I rapporti di composizione

    Rappresentano una quota dell'ammontare complessivo di un fenomeno.

    Il rapporto di composizione infatti il quoziente tra l'ammontare riferito a una modalit del fenomeno e il totale del fenomeno stesso

    oppure tra lammontare riferito a una singola unit del collettivo e il totale del fenomeno.

    Esempio: quoziente tra il numero di europei cattolici protestanti e tutti gli europei cattolici

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 62

    I rapporti di densit - 1

    Sono il quoziente tra il valore di un fenomeno quantitativo e un indice che pu essere considerato come il suo campo di riferimento.

    Per confrontare le popolazioni di due paesi, si pu porre a confronto il numero degli abitanti.

    In questo modo, per, linformazione che si ottiene indica solo quale il paese pi abitato (popolazione pi numerosa)

    Pu essere pi utile conoscere quale il paese pi popolato, ossia con la popolazione pi fitta.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 63

    A questo fine, occorre rapportare il numero degli abitanti all'estensione del territorio. Si calcola cio la densit della popolazione, che il quoziente tra numero di abitanti e la superficie (espressa, di norma, in km quadrati).

    Si potrebbe rapportare la popolazione alla parte abitabile del territorio (escludendo, per esempio, le superfici occupate dai laghi).

    Altri esempi di rapporti di densit sono la superficie forestale per 100 abitanti, la quantit di nitrati per 1000 litri di acqua, la spesa per acquistare carburante per abitante, ecc.

    I rapporti di densit - 2

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 64

    I rapporti di derivazione

    Sono il quoziente tra le entit di due fenomeni, di cui uno costituisce il presupposto dellaltro.

    Per esempio:

    il quoziente di natalit (rapporto tra il numero dei nati vivi in un certo anno e la popolazione)

    il quoziente di fecondit (rapporto tra il numero di nati vivi in un anno e il numero medio di donne in et feconda nello stesso anno)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 65

    I rapporti di coesistenza

    Sono il quoziente tra le entit di due fenomeni, posti a raffronto al fine di valutare l'eventuale squilibrio.

    Lindice di vecchiaia un esempio tipico: il quoziente tra la popolazione di 65 anni e oltre e la popolazione sino a 14 anni

    Un ulteriore esempio, relativo alle foreste tropicali, il quoziente tra ettari disboscati ed ettari rimboscati (pari a circa 12 in Africa, a 25 in Asia, ecc.)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 66

    Numeri indici

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 67

    Definizione

    i numeri indici sono rapporti finalizzati a confrontare le intensit di un fenomeno o pi fenomeni in tempi diversi oppure in situazioni diverse (ad esempio, in differenti regioni)

    si hanno infatti numeri indici temporali e numeri indici territoriali

    i n. i. servono quindi a misurare variazioni relative

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 68

    Variazioni assolute e relative

    Se analizziamo una serie storica, le variazioni da un periodo all'altro possono essere misurate in termini assoluti (differenze) o relativi (rapporti)

    Le differenze assolute dipendono dall'ordine di grandezza e dallunit di misura

    Le variazioni relative, nella maggior parte dei casi, sono pi efficaci

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 69

    Il calcolo dei numeri indici

    Per trasformare una serie storica in una serie di numeri indici, si devono dividere i termini xt (t = 1, 2, ... , n) per un denominatore, appartenente alla stessa serie, e moltiplicare i quozienti per 100

    Si chiama base il termine assunto come denominatore dei rapporti

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 70

    Numeri indici a base fissa

    Si ottengono quando tutti i termini della serie vengono rapportati alla stessa base (spesso, il primo termine della serie)

    xt

    1 I t = ________

    x1

    Il simbolo a sinistra di I indica il periodo base, quello a destra indica il periodo di riferimento del calcolo

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 71

    Linterpretazione

    Sottraendo 100 da un numero indice a base fissa si ottiene la variazione percentuale del fenomeno rispetto al tempo base

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 72

    Cambio base

    I numeri indici con una base fissa, ad esempio

    con base x1, possono essere trasformati in

    numeri indici con diversa base fissa, ad esempio

    con base x2, dividendoli per 1I2

    1 I t

    _____ = 2 I t

    1 I 2

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 73

    Numeri indici a base mobile

    Si ottengono quando ogni termine della serie viene rapportato al termine precedente

    xt

    t-1 I t = _____

    xt-1

    Il numero indice a base mobile relativo al primo anno della serie storica non pu essere determinato non essendo noto il valore del fenomeno nell'anno precedente

    Sottraendo 100 da un numero indice a base mobile, si ottiene la variazione percentuale del fenomeno rispetto al tempo precedente

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 74

    Da base fissa a base mobile

    Per passare da una serie di indici a base fissa alla corrispondente serie di indici a base mobile, sufficiente dividere ciascun indice a base fissa per lindice immediatamente precedente

    1 I t

    _____ = t-1 I t

    1 I t-1

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 75

    Da base mobile a base fissa

    Per passare da una serie di indici a base mobile alla corrispondente serie di indici a base fissa, ad esempio a base x1, occorre moltiplicare fra loro gli indici a base mobile dal tempo 2 fino al tempo considerato

    1It = 1I2 2I3 ... t-1 I t

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 76

    Una avvertenza

    Tutte le operazioni sui numeri indici devono essere effettuate dopo avere diviso per 100 i numeri indici

    stessi

    In altri termini, le operazioni devono avvenire sugli indici rapportati a 1, non a 100

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 77

    I numeri indici composti

    Si utilizzano per sintetizzare, mediante un'unica serie di numeri indici, le variazioni relative di diverse serie storiche

    Nella maggior parte dei casi, opportuno assegnare un peso (g) a ciascuna serie, calcolando quindi una media ponderata (si veda il capitolo sulle misure di posizione)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 78

    Due tecniche per calcolare numeri indici composti ponderati mediante i valori

    Laspeyres: il sistema di pesi (il paniere) viene mantenuto fisso (solitamente, quello del tempo base) per tutti i periodi della serie storica: se stiamo calcolando l'indice composto dei prezzi del 2014 con base 1995, utilizziamo il paniere del 1995

    Paasche: il paniere variabile di anno in anno: se stiamo calcolando l'indice composto dei prezzi del 2014 con base 1995, utilizziamo il paniere del 2014

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 79

    Le due formule

    Indice di Laspeyres

    [(1 I t ) g1]

    1 I t composto = __________________________

    g1

    Indice di Paasche

    [(1 I t ) gt]

    1 I t composto = __________________________

    gt

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 80

    Indici composti: un esempio - dati di base

    Numeri indici della salinit del mare in corrispondenza dellimmissione del Po

    Anni Goro Adria

    2009 100,0 100,0 2010 99,4 100,4 2011 103,5 101,2 Portata del fiume (mc/sec)

    Anni Goro Adria

    2009 240 185 2010 248 187 2011 261 191

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 81

    0,994 240 + 1,004 185

    09 I10 = __________________________________ 100

    240 + 185

    1,035 240 + 1,012 185

    09I11 = __________________________________ 100

    240 + 185

    Indici composti: un esempio il calcolo con il metodo di Laspeyres

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 82

    Indici composti: un esempio il calcolo con il metodo di Paasche

    0,994 248 + 1,004 187

    09 I10 = __________________________________ 100

    248 + 187

    1,035 261 + 1,012 191

    09I11 = __________________________________ 100

    261 + 191

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 83

    Il calcolo dellinflazione

    Uno dei casi pi significativi di applicazione dei numeri indici composti il calcolo dell'inflazione

    Si utilizza un campione rappresentativo di prodotti (paniere), ma non si attribuisce la stessa importanza alla variazione di prezzo di prodotti le cui vendite hanno differente rilevanza

    indispensabile un sistema di ponderazione relativo alla dimensione delle vendite dei diversi beni

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 84

    Deflazionamento

    Gli indici dell'inflazione sono uno strumento per deflazionare i prezzi e per calcolare l'indice del potere di acquisto della moneta

    Deflazionare significa depurare l'andamento di un prezzo dalle variazioni dovute allinflazione ..

    .. e valutare quindi l'evoluzione di quel prezzo in termini reali, passando dai valori in moneta corrente ai valori in moneta costante

    il deflazionamento consiste nel dividere i prezzi

    del prodotto considerato per gli indici dell'inflazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 85

    4 MISURE DI POSIZIONE E MISURE DI VARIABILITA

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 86

    Misure di posizione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 87

    Il calcolo di una media

    Ha lo scopo di rappresentare con un solo indicatore un insieme dei dati, evidenziando quindi l'ordine di grandezza

    Le medie possono essere distinte in:

    medie ottenute in base a un vincolo analitico

    medie che fanno riferimento alla posizione dei valori

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 88

    MEDIE

    ANALITICHE

    (su fenomeni quantitativi)

    aritmetica

    geometrica

    quadratica

    ecc.

    DI POSIZIONE

    mediana (su fenomeni quantitativi e qualitativi ordinali)

    moda (su tutti i fenomeni)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 89

    Le medie analitiche

    Il calcolo di una media analitica consiste nel determinare un'opportuna operazione che viene applicata all'insieme dei valori

    importante individuare l'operazione pi opportuna per la specifica situazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 90

    Le principali medie analitiche

    Media aritmetica (l'operazione la somma dei valori)

    media aritmetica semplice

    media aritmetica ponderata

    Media geometrica (l'operazione il prodotto dei valori)

    Media quadratica (l'operazione il quadrato dei valori)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 91

    La media aritmetica

    __

    La media campionaria si indica con X

    La media della popolazione si indica con

    In tanti casi, per indicare in modo generico la media aritmetica si utilizza M

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 92

    La media aritmetica semplice

    Somma dei valori divisa per il numero dei valori

    x1 + x2 + ... xi + ... xn xi ____________________________ = __________

    n n

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 93

    La media aritmetica ponderata: quando viene utilizzata

    Quando i dati sono presentati in una distribuzione di frequenze, dove a ogni modalit corrisponde una certa numerosit di unit statistiche (pesi)

    In generale, quando si ritiene utile (o necessario) ponderare i valori con un opportuno sistema di pesi, in quanto ragionevole dare a ogni valore un proprio livello di importanza

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 94

    Media aritmetica ponderata

    Somma dei prodotti di ogni valore con il relativo peso (p),

    divisa per la somma dei pesi

    x1 p1 + x2 p2 + .. + xi pi + ... xn pn

    _______________________________________________________

    p1 + p2 +. + pi + + pn

    (xi pi)

    ________________

    pi

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 95

    Primo esempio di media aritmetica ponderata - dati di partenza: numero di acquirenti di un prodotto per durata del

    processo decisionale in minuti

    Minuti (xi) Acquirenti

    (n)

    1 71

    2 77

    3 98

    4 88

    5 95

    6 49

    7 22

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 96

    Primo esempio di media aritmetica ponderata: calcolo

    (1 71) + (2 77) + (3 98) + (4 88) + (5 95) + (6 49) + (7 22) M = 71 + 77 + 98 + 88 + 95 + 49 + 22

    1794 M = = 3,588 500

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 97

    Secondo esempio di media aritmetica ponderata - dati di partenza: velocit del vento rilevata ed estensione dellarea coinvolta

    Aree rilevate Velocit del vento (km/ora)

    Area coinvolta

    (000 kmq)

    Estremo nord 221 17,7

    Nord est 215 11,0

    Ovest costiero 193 4,5

    Ovest interno 160 9,9

    Sud peninsulare 202 4,2

    Sud insulare 204 7,8

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 98

    Calcolo della media aritmetica ponderata

    221 17,7 + 215 11,0 + ..........

    ______________________________________________ =

    17,7 + 11,0 + .........

    11168,8

    = ____________ = 202,70

    55,1

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 99

    Calcolo della media aritmetica ponderata per un fenomeno continuo

    Se il fenomeno in classi ed continuo, non si hanno i valori precisi degli xi

    Si considerano come xi i valori centrali delle classi

    Per eventuali classi aperte, si fissano nel modo pi ragionevole possibile gli estremi

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 100

    Propriet della media aritmetica

    La media di un gruppo di valori sempre compresa tra il valore minimo e quello massimo

    La somma degli scarti dalla media sempre pari a zero

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 101

    MEDIA QUADRATICA (rms) (root mean square)

    utile quando ci sono valori negativi e valori positivi, che darebbero una media aritmetica molto prossima allo zero

    maggiore o uguale alla media aritmetica

    Si alzano al quadrato i valori

    Si calcola la media dei quadrati

    Si estrae la radice quadrata di questa media

    rms = radq [ (xi)2 / n]

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 102

    Esempio di media quadratica - dati di partenza: precipitazioni piovose a Bombay

    Anni Scostamento dalla media (mm)

    1971 173

    1972 83

    1973 -16

    1974 13

    1975 -137

    1976 -116

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 103

    Esempio di media quadratica - calcolo

    (173)2 + (83)2 + (-16)2 + (13)2 + (-137)2 + (-116)2

    rms = ____________________________________________________________

    6

    69468

    rms = radq __________ = radq (11578) = 107,601

    6

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 104

    La media geometrica (Mg)

    Radice n-esima del prodotto degli n valori:

    Si utilizza per il calcolo della media del tasso di interesse, oppure del tasso di incremento o di decremento

    In questi casi, la somma non idonea a fornire il reale ordine di grandezza del fenomeno

    nnxxx ...21

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 105

    Esempio di calcolo di una media geometrica

    La vendita in valore di un prodotto mostra da un anno allaltro le seguenti variazioni %:

    2010: -0,6%

    2011: -3,2%

    2012: +1,7%

    2013: +0,3%

    Mg= (0,994 * 0,968 * 1,017 * 1,003)1/4

    = 0, 9953 (decremento medio annuo dello 0,47%)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 106

    Le principali medie di posizione

    Mediana (Me) (la modalit che si colloca al centro della successione dei termini, ordinati in senso non decrescente)

    Moda (Mo) (la modalit pi frequente)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 107

    La mediana

    La mediana di n osservazioni di un fenomeno quantitativo oppure qualitativo ordinale, la modalit che nella successione dei valori, ordinati in senso crescente, occupa il posto centrale

    preceduta dal 50% dei valori, seguita dal 50% dei valori

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 108

    La mediana: il calcolo

    Con n dispari: una sola mediana

    Il valore corrispondente allunit (n+1)/2

    Con n pari: due mediane

    I valori corrispondenti alle unit: n / 2 (n / 2) + 1

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 109

    La mediana primo esempio

    Relativamente alla classificazione trofica, la mediana la modalit mediocre Per quanto riguarda la temperatura, le mediane sono 16,4 e 16,5 Per il pH, la mediana 8,27

    Stazione Classificazione trofica C Salinit pH

    Lido di Volano Scadente 17,6 27,4 8,24

    Porto Garibaldi

    Scadente 16,4 28,9 8,29

    Casalborsetti Mediocre 16,4 30,2 8,30

    Marina di Rav. Mediocre 16,5 31,9 8,27

    Lido Adriano Mediocre 16,4 31,6 8,28

    Cesenatico Mediocre 16,2 32,8 8,19

    Rimini Buona 16,6 33,4 8,27

    Cattolica Buona 16,5 34,0 8,24

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 110

    La mediana secondo esempio

    (5 insegne della grande distribuzione)

    Istituti n. promozioni

    ultimo mese

    Entit delle

    promozioni

    A 46 Forte

    B 54 Media

    C 35 Ridotta

    D 40 Ridotta

    E 62 Fortissima

    Relativamente al numero di promozioni, la mediana 46 Per quanto riguarda lentit delle promozioni, la mediana la modalit media"

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 111

    La mediana terzo esempio (dati in distribuzione di frequenza:

    numero di comuni della Lombardia nord-occidentale per

    numerosit di incendi nellultimo decennio)

    La mediana il valore assunto dal fenomeno in corrispondenza di p'x = 0,5

    Nellesempio, = 4, in quanto px = 0,5 cade nella quarta classe (considerando le prime tre insieme, infatti, non si arriva a 0,5, ma solo a 0,482)

    N. incendi

    (xi)

    unit (frequenze)

    fx

    frequenze cumulate

    fx

    px

    1 71 71 0,139 2 77 148 0,290

    3 98 246 0,482 4 102 348 0,682

    5 95 443 0,869 6 55 498 0,976

    7 12 510 1,000

    TOTALE 510

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 112

    Media e mediana nelle distribuzioni asimmetriche

    Nella distribuzione di una popolazione o di un campione, la media non separa in due parti uguali le unit statistiche (tranne quando la media coincide con la mediana).

    La media risente del fatto che alcuni valori siano molto distanti dalla media stessa, mentre la mediana non ne risente

    Se una coda della distribuzione dei valori molto allungata, la media spostata verso questa coda, in confronto alla mediana, la quale non d cos importanza ai valori estremi della distribuzione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 113

    Tipi di asimmetria

    Asimmetria negativa: coda pronunciata verso sinistra, quindi maggiore concentrazione verso le modalit maggiori

    Asimmetria positiva: coda pronunciata verso destra, quindi maggiore concentrazione verso le modalit minori

    Lasimmetria si misura con lindice di asimmetria di Fisher ( un indicatore di variabilit, che sar affrontato in seguito):

    (xi - )3 / n ]

    ________________

    3

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 114

    Esempio di distribuzione asimmetrica: et dei decessi per cause naturali (asimmetria negativa)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 115

    I percentili

    Cosa sono?

    Il percentile di ordine p (100p) il valore xp che divide in due parti la distribuzione (ordinata), in modo che il p% dei valori sia prima di xp

    Esempio

    Il primo percentile il valore in corrispondenza del quale si raggiunge l1% delle unit

    Il decimo percentile il valore in corrispondenza del quale si raggiunge il 10% delle unit

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 116

    I percentili: casi particolari

    Il cinquantesimo percentile corrisponde alla mediana

    Il decimo percentile corrisponde al primo decile, il ventesimo percentile al secondo decile, ecc.

    Il venticinquesimo percentile corrisponde al primo quartile (Q1), il settantacinquesimo percentile corrisponde al terzo quartile (Q3)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 117

    Una applicazione: rilevazione del fosforo reattivo alla stazione di Cattolica su 365 giorni (mg/mc)

    100p mg (xp) 3 1,89 10 1,97 25 2,43 50 2,81 (mediana)

    75 3,51 95 4,62 99 7,16

    Come si interpretano?

    Il 3% delle rilevazioni ha un valore < 1,89

    Il 10% delle rilevazioni ha un valore < 1,97

    Il 5% delle rilevazioni ha un valore > 4,62

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 118

    % delle rilevazioni che hanno un valore

    1,97, ma < 4,62 85%

    una rilevazioni che ha fatto rilevare un valore = 1,91 in corrispondenza del

    _______ percentile? Approssimativamente il quinto

    100p mg (xp) 3 1,89 10 1,97 25 2,43 50 2,81

    75 3,51 95 4,62 99 7,16

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 119

    Box Plot

    un grafico atto a rappresentare:

    Una misura di posizione, solitamente la mediana (qui nellesempio indicata con Q2)

    Una misura di variabilit, ossia la differenza interquartile, che in seguito approfondiremo (differenza fra Q3 e Q1)

    Il valore massimo e quello minimo

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 120

    La moda (Mo)

    la modalit alla quale corrisponde la massima frequenza

    La moda interessante quando n piuttosto elevato e quando una modalit ha frequenza molto pi elevata delle altre

    Programmazione delle aperture notturne delle grandi superfici di vendita: livello di accordo

    Livello di accordo n. testimoni interpellati

    Accordo incondizionato 19

    Accordo parziale 98

    N accordo, n disaccordo 35

    Disaccordo parziale 55

    Disaccordo incondizionato 16

    Moda: accordo parziale

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 121

    Misure di variabilit

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 122

    Il significato di variabilit

    Una media sintetizza un gruppo di dati in un unico valore; questa operazione comporta tuttavia una perdita di informazioni

    Due campioni possono fare riscontrare la stessa media, pur a fronte di situazioni molto diverse

    Le misure di variabilit sono indicatori in grado di valutare in modo sintetico le differenze tra i valori di un gruppo di dati

    Non assumono mai valori negativi Sono pari a zero se il fenomeno non presenta

    variabilit Presentano valori crescenti all'aumentare

    della variabilit

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 123

    Il campo di variazione (range)

    la differenza tra il valore massimo xmax e il valore minimo xmin tra quelli osservati:

    xmax - xmin

    Ha il difetto di tenere conto soltanto dei valori estremi, non essendo sensibile alle modificazioni nei valori intermedi (che alterano comunque la variabilit globale)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 124

    La deviazione standard o scarto quadratico medio

    Si basa sugli scarti tra i singoli valori e la loro media aritmetica:

    xi - M

    Non sarebbe possibile utilizzare la media aritmetica degli scarti, poich la loro somma algebrica sempre nulla

    Si pu invece impiegare la media dei quadrati degli scarti (rms)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 125

    Simbologia

    La deviazione standard campionaria si indica con s

    La deviazione standard della popolazione si indica con

    Spesso, per indicare in modo generico a deviazione standard, si utilizza SD

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 126

    SD: il calcolo

    Si dice deviazione standard la media quadratica degli scarti di ogni valore dalla media aritmetica

    SD = radq [ (xi - M)

    2 / n]

    La deviazione standard espressa nella stessa unit di misura dei valori del fenomeno

    Il numeratore che troviamo sotto la radice quadrata, ossia (xi - M)

    2 , chiamato devianza

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 127

    Alcune propriet della media aritmetica e della deviazione standard

    Se a tutti i valori di una serie viene sommato un numero, la media aumenta di questo valore, la deviazione standard non cambia

    Se tutti i valori di una serie vengono moltiplicati per una costante, la media e la deviazione standard risultano moltiplicate per questa costante

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 128

    Caso 1

    1, 3, 4, 5, 7 6, 8, 9, 10, 12

    (y = x + 5)

    media 4 9

    SD 2 2

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 129

    Caso 2

    1, 3, 4, 5, 7 3, 9, 12, 15, 21

    (y = x 3)

    media 4 12

    SD 2 6

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 130

    Caso 3

    5, - 4, 3, - 1, 7 - 5, 4, - 3, 1, - 7

    (y = -x)

    media 2 - 2

    SD 4 4

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 131

    La varianza

    La varianza il quadrato della deviazione standard

    Non espressa nella stessa unit di misura del fenomeno, ma nel quadrato di questa unit di misura

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 132

    Altre misure di dispersione

    Differenza interquartile (utile soprattutto quando la distribuzione dei valori non approssimabile con la distribuzione normale)

    la differenza tra il 75esimo percentile e il 25esimo percentile

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 133

    Gli indici relativi di variabilit

    Quando due fenomeni hanno unit di misura diverse, il confronto diretto in termini di variabilit non proponibile

    In altri casi, il confronto tra la variabilit di due fenomeni pu essere poco utile per il diverso valore medio dei fenomeni (per esempio, redditi e spesa per generi farmaceutici)

    Altre volte, si vorrebbe sapere se la variabilit forte oppure debole

    Per affrontare questi problemi, si utilizzano gli indici relativi di variabilit, da cui viene eliminata l'influenza dell'unit di misura e della dimensione media dei fenomeni considerati

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 134

    Gli indici di variabilit rapportati a un valore medio

    Il pi utilizzato il rapporto tra la deviazione standard e la media aritmetica

    Si ricava in questo modo il coefficiente di variazione (CV):

    CV = _____

    M

    Solitamente, CV viene moltiplicato per 100, per agevolarne la lettura; si interpreta quindi come la % della sulla media

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 135

    Obiettivi del calcolo del CV

    Confronto tra variabilit calcolate su fenomeni con unit di misura diverse o con ordini di grandezza molto differenti

    Il CV pu presentare valori superiori all'unit (o a 100, se stato moltiplicato per 100), quando la deviazione standard maggiore della media

    Il CV perde di significato se il fenomeno pu presentare valori negativi e positivi; in questo caso, la media pu risultare molto prossima a zero

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 136

    Gli indici di variabilit rapportati al loro massimo

    Sono idonei a rispondere a una domanda di questo tipo:

    La variabilit espressa da una deviazione standard, o da una varianza, forte o debole?

    Si calcolano indicatori il cui campo di variazione standard (solitamente, l'intervallo 0 1)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 137

    Il procedimento

    Si identifica la situazione di massima variabilit (presente quando il fenomeno assume soltanto i due valori pi distanti tra loro)

    Come individuare il massimo valore che la deviazione standard pu assumere? Si calcola il campo di variazione teorico (differenza tra il valore massimo possibile e il valore minimo possibile) e si divide per due

    Si rapporta la deviazione standard effettivamente ottenuta al valore massimo che esso pu assumere

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 138

    Un problema

    A volte, si ha difficolt a individuare in maniera oggettiva il valore minimo teorico e soprattutto il valore massimo teorico che il fenomeno pu assumere

    In questi casi, come valore massimo teorico si adotta semplicemente il valore pi alto tra quelli osservati

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 139

    5 LA CONCENTRAZIONE

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 140

    Il significato di concentrazione

    un caso particolare di variabilit, in cui il fenomeno:

    perfettamente trasferibile

    assume soltanto valori non negativi

    Fra le diverse misure di concentrazione, l'indice pi utilizzato il rapporto di concentrazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 141

    Persone con un particolare stile di vita in Nord Europa

    Paesi ni 000 persone (xi)

    Finlandia 1 57

    Estonia 1 35

    Norvegia 1 42

    Danimarca 1 30

    Svezia 1 48

    TOTALE 5 212

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 142

    Il metodo - 1

    Per calcolare il rapporto di concentrazione occorre ordinare i valori in senso crescente (o per lo meno in senso non decrescente, se compaiono valori uguali)

    In secondo luogo, necessario calcolare le frequenze relative (fi) ossia il rapporto tra ni e il numero di valori considerati (nellesempio, 5)

    Si calcolano poi le quantit relative (qi) ossia xi / xi (nellesempio, xi = 212)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 143

    Il metodo - 2

    Successivamente, si calcolano le frequenze relative cumulate e le quantit relative cumulate

    La frequenza relativa cumulata (fi) in corrispondenza di ogni ni, si ottiene sommando la frequenza relativa corrispondente allni in esame e tutte le frequenze relative precedenti

    La quantit relativa cumulata (qi) in corrispondenza di ogni ni, si ottiene sommando la quantit relativa corrispondente allni in esame e tutte le quantit relative precedenti

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 144

    Frequenze e quantit relative

    ni xi fi qi f i q i

    1 30 0,2 0,1415 0,2 0,1415

    1 35 0,2 0,1651 0,4 0,3066

    1 42 0,2 0,1981 0,6 0,5047

    1 48 0,2 0,2264 0,8 0,7311

    1 57 0,2 0,2689 1 1

    Totale 5 212 1 1

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 145

    Equidistribuzione

    Se il fenomeno equamente distribuito tra le diverse unit statistiche, abbiamo:

    f1 = q1 f2 = q2 . . . . . . fn = qn

    di conseguenza:

    f'1 = q'1 f'2 = q'2 . . . . . . fn = q'n

    In caso contrario (come nella realt solitamente avviene):

    f'1 > q'1 f'2 > q'2 . . . . . . f'n-1 > q'n-1 f'n = q'n

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 146

    In termini grafici

    Si disegna un diagramma con i punti individuati dalle coppie (f'i, q'i)

    Si pone convenzionalmente

    f'0 = 0 e q'0 = 0

    Si ottiene in questo modo una spezzata di concentrazione, contenuta in un quadrato di lato unitario, con la concavit rivolta verso l'alto

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 147

    0

    1

    0 1

    Spezzata di concentrazione

    q'1

    f'1

    B

    q'4

    q'3

    q'2

    O

    A

    f'4 f'3 f'2

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 148

    La curva di Lorenz

    Quando n pi elevato rispetto al caso considerato come esempio, si possono unire i punti della spezzata con una linea smussata

    Si ottiene cos la cosiddetta curva di concentrazione o curva di Lorenz

    La situazione di equidistribuzione corrisponde alla diagonale, i cui punti hanno ascissa e ordinata uguali

    La superficie delimitata dal segmento di equidistribuzione e dalla spezzata (o dalla curva) di concentrazione, larea di concentrazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 149

    0

    0,2

    0,4

    0,6

    0,8

    1

    0 0,2 0,4 0,6 0,8 1

    Curva di Lorenz

    area residua

    B

    O

    A

    area di con-

    centrazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 150

    Il rapporto di concentrazione di Gini

    area di concentrazione R = ____________________________________________

    area di massima concentrazione

    Ovvero, in termini matematici: R = 1 - [(q'i + q'i-1) fi]

    area di massima concentrazione: triangolo OAB

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 151

    Linterpretazione

    R oscilla tra i seguenti limiti:

    R = 0, nel caso di equidistribuzione

    R = 1, nel caso di massima concentrazione

    Ad esempio, R = 0,6 significa che la concentrazione pari al 60% del massimo possibile

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 152

    Alcune propriet di R

    Rimane invariato moltiplicando ciascun valore per una costante > 0 (es: redditi prima in euro, poi in dollari)

    Sommando una costante c a ogni valore, diminuisce se c > 0, aumenta se c < 0, con il vincolo (xi + c) > 0

    Infatti, se c > 0, l'aumento risulta in termini relativi pi elevato per i valori piccoli (per esempio, un aumento di stipendio di ammontare identico per ogni occupato)

    L'opposto si verifica se c < 0 (per esempio, una tassa di ammontare uguale per tutti i redditi)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 153

    6 ANALISI BIVARIATA: CORRELAZIONE E REGRESSIONE LINEARE SEMPLICE

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 154

    Correlazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 155

    Correlazione: qualche definizione preliminare

    Correlazione: studio della relazione tra due fenomeni quantitativi

    Alcuni valori di X si associano frequentemente a specifici valori di Y?

    Conoscendo il valore di X per una unit statistica, si pu predire il valore di Y?

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 156

    Dipendenza e interdipendenza

    Relazioni di dipendenza: quando un fenomeno un antecedente (temporale, logico o di altro genere) rispetto a un altro

    Relazioni di interdipendenza: i fenomeni si collocano sullo stesso piano, non esistendo tra loro un fenomeno antecedente e un fenomeno conseguente

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 157

    Lanalisi di correlazione

    finalizzata allo studio dellassociazione esistente tra due fenomeni quantitativi, in termini di interdipendenza

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 158

    I primi passi

    Rappresentazione grafica dei dati con un diagramma di dispersione

    Calcolo degli scostamenti di ogni valore dalla media:

    se a scostamenti positivi di un fenomeno corrispondono scostamenti positivi dell'altro, allora esiste una relazione diretta

    altrimenti, la relazione inversa (a scostamenti positivi delluno corrispondono scostamenti negativi dellaltro)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 159

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 160

    La covarianza

    un primo indicatore in grado di fornire informazioni sull'intensit e sulle caratteristiche delle relazione esistente tra due fenomeni quantitativi

    COV (X,Y)

    la media dei prodotti dei rispettivi scostamenti dalla media (x'i e y'i)

    (x'i y'i)

    COV (X,Y) = ______________

    n

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 161

    Il problema della covarianza

    Quando la covarianza assume valori positivi, si in presenza di una relazione diretta

    Valori negativi segnalano una relazione inversa

    Valori della covarianza pari a 0 corrispondono all'assenza di una relazione lineare tra i due fenomeni

    Il problema della covarianza legato al fatto che questo indicatore espresso in termini del prodotto delle unit di misura di X e di Y

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 162

    Il coefficiente di correlazione lineare

    la covarianza calcolata sugli scostamenti standardizzati:

    [z (xi) z (yi)]

    r = ________________________

    n

    Cosa sono gli scostamenti standardizzati? sono gli scostamenti dalla media rapportati alla deviazione standard; ad es., per X:

    xi - M(X) z (xi) =

    ______________

    SD (X)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 163

    Una formula alternativa per il calcolo di r

    COV (X,Y)

    r = ______________________

    SD (X) SD (Y)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 164

    Linterpretazione del coefficiente di correlazione - 1

    Esprime laddensamento dei punti attorno alla retta

    Misura lintensit del legame delle due variabili

    sempre compreso tra 1 e + 1

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 165

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 166

    pari a 1 quando si in una situazione di perfetta correlazione positiva

    pari a 1 quando si in una situazione di perfetta correlazione negativa

    Tende invece ad avvicinarsi a zero quando la relazione piuttosto debole

    Linterpretazione del coefficiente di correlazione - 2

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 167

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 168

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 169

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 170

    r invariante per cambiamenti di scala

    Non cambia se si aggiunge una costante a tutti i valori di una variabile

    Non cambia nemmeno se si moltiplicano tutti i valori di una variabile per una costante positiva

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 171

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 172

    Associazione e causalit non sempre coincidono

    L'esistenza di un elevato valore di r pu essere attribuita:

    a una relazione di interdipendenza

    a una relazione di dipendenza

    alla dipendenza di entrambi i fenomeni da un terzo fenomeno (correlazione spuria)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 173

    Un esempio: diffusione e durata di una specie

    La diffusione geografica di una specie e la sua durata nel tempo risultano tra loro associate piuttosto precisamente.

    Una specie diffusa sopravvive a calamit naturali locali?

    Una lunga durata tende a favorire una pi ampia diffusione geografica?

    maggiore la reperibilit di fossili di specie diffuse, e ci lascia erroneamente ipotizzare una durata prolungata?

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 174

    Regressione lineare

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 175

    In molti casi si considerano:

    Una variabile dipendente (Y): regredendo

    Una variabile indipendente (X): variabile esplicativa o regressore

    Solitamente, X un antecedente logico o temporale

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 176

    Scopi dellanalisi di regressione

    Studiare come un fenomeno dipende dall'altro

    Comprendere se si pu predire la variabile dipendente (Y) partendo dalla variabile esplicativa (X)

    Ad esempio, l'interesse di un ricercatore pu riguardare lindividuazione dellintensit delle polveri totali sospese in corrispondenza di diversi gradi di usura del manto stradale (e quindi dei relativi residui)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 177

    Con la regressione, quindi,

    si cerca di capire quanto aumenta o diminuisce la variabile dipendente

    in corrispondenza di un aumento unitario della variabile indipendente

    Per esempio, lentit delle modificazioni nello strato di ozono rispetto a un incremento unitario di clorofluorocarburi diffusi nellalta atmosfera

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 178

    Linterpolazione lineare

    Occorre una funzione interpolante, una funzione analitica che sia il pi possibile vicina ai punti (xi,yi)

    Interpolazione di una successione di punti: adattamento ai valori osservati di una opportuna funzione

    Limitando lanalisi all'interpolazione lineare, si hanno funzioni del tipo:

    y = a + b x

    A volte, i simboli utilizzati sono: y = 0 + 1 x

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 179

    I parametri della funzione

    L'intercetta a (0) il valore teorico della variabile dipendente in corrispondenza di un valore nullo della variabile esplicativa (in sintesi, il valore di Y quando X = 0); ha la stessa unit di misura di y

    La pendenza b (1) (o coefficiente angolare) l'entit della variazione teorica della variabile dipendente in corrispondenza di un incremento di una unit della variabile esplicativa quindi espressa in termini di unit di Y / unit di X: infatti, la variazione verticale / variazione orizzontale

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 180

    Interpolazione ed estrapolazione

    Lutilizzo della funzione per predire valori di Y nellintervallo osservato dei valori di X chiamato interpolazione

    Lutilizzo della funzione per predire valori di Y allesterno dellintervallo osservato dei valori di X chiamato estrapolazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 181

    Il calcolo dei parametri

    r SD (Y) b = ___________________

    SD (X)

    a = MY (b MX)

    Per determinare i parametri della funzione

    interpolante, si ricorre alla condizione dei minimi quadrati

    La funzione interpolante infatti quella che rende minima la somma dei quadrati delle distanze tra i valori effettivamente rilevati di Y e i valori di Y) che possono essere dedotti dalla funzione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 182

    Esempio riferito alla percentuale di frequentatori di supermercati che ricordano la marca di un prodotto e allestensione del lineare

    occupato da questo prodotto sugli scaffali (metri)

    y = 17,5 + 5,3 x

    r = + 0,874

    17,5 (%) la quota di frequentatori che ricordano

    comunque la marca di quel prodotto nellipotesi di assenza di questo prodotto dagli scaffali

    5,3 (%) laumento dellla quota di frequentatori

    che ricordano la marca di quel prodotto in corrispondenza di un incremento del lineare di 1 metro

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 183

    Il coefficiente di determinazione (r2)

    Indica la validit (o bont) della funzione adottata

    il quadrato del coefficiente di correlazione (r2)

    r2 esprime la quota di variabilit del fenomeno Y che spiegata dalla retta di regressione

    Indica quanto la retta riassume l'effettivo legame tra i due fenomeni

    Assume valori compresi tra 0 e 1

    Pi si avvicina all'unit, migliore l'adattamento della retta ai valori osservati

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 184

    RMSE (root mean square error) o errore standard della stima

    la media quadratica dei residui (e) Si calcola agevolmente con:

    RMSE = SD (Y) radq (1-r2)

    Si indica anche con sy|x

    Si tratta di una misura di quanto i valori osservati variano intorno alla retta di regressione

    un concetto analogo allo scarto quadratico medio in riferimento alla media

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 185

    RMSE rappresenta lerrore che si commette nel predire Y con laiuto di X

    espresso nella stessa unit di misura di Y

    Il valore di Y previsto per un determinato soggetto con laiuto della retta di regressione si discoster in media da quello effettivo per unentit pari al RMSE

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 186

    Studio sulla associazione tra consumo di gelato e temperatura

    X: temperatura

    Y: consumo gelato (grammi/mese procapite)

    X : media 25; SD 4,87

    Y : media 309; SD 48,67

    r: + 0,975

    Pendenza 48,67 0,975 / 4,87 = 9,74

    Intercetta 309 25 9,74 = 65,58

    RMSE = 10,83 significa che il consumo previsto per una determinata temperatura tender a scostarsi dal valore effettivo in media per 10,83 grammi unit

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 187

    Lapplicazione alle serie storiche

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 188

    Definizione di serie storica

    Per serie storica di un fenomeno quantitativo D si intende una successione dei valori dt (t = 1, 2, ..., n), assunti dal fenomeno in tempi (o intervalli temporali) successivi

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 189

    Le finalit dellanalisi

    Descrizione in termini sintetici dell'evoluzione temporale di un fenomeno

    Formulazione di proiezioni sul futuro del fenomeno considerato

    soggette a una importante condizione: la permanenza delle condizioni che hanno concorso a determinare l'evoluzione precedente

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 190

    La stima del trend con il metodo della regressione

    Il trend: la tendenza di fondo di una serie storica

    Per mezzo della regressione si vuole stimare la funzione pi in grado di esprimere la relazione tra il fattore tempo e il fenomeno oggetto di studio

    per poi predire il fenomeno in esame a partire dalla scansione dei tempi

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 191

    Il fattore tempo come variabile indipendente

    Consideriamo il fattore tempo come la variabile indipendente (x) e il fenomeno in esame (D) come la variabile dipendente (y)

    Possiamo effettuare una normale analisi di regressione lineare, identificando sia la retta di regressione, sia il relativo coefficiente di determinazione (r2)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 192

    La semplificazione della scala temporale

    Per semplificare i calcoli, gli anni possono essere trasformati in una unit di misura pi semplice .

    . non tanto 2009, 2010, 2011, 2012, ecc. .

    . quanto 1, 2, 3, 4, ecc.

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 193

    La funzione y = a + b x

    Esprime l'ipotesi di variazioni di ammontare costante fra due tempi consecutivi (espresse nella stessa unit di misura del fenomeno analizzato), uguali alla pendenza

    Lintercetta indica il valore assunto teoricamente dal fenomeno (stimato secondo la retta interpolante) quando x = 0, ossia nel tempo immediatamente precedente al primo dei tempi presi in considerazione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 194

    Un esempio: casi di pubblicit comparativa in un determinato settore, tra il 2005 e il 2011

    Anni (x) n. (y)

    2005 1 28

    2006 2 31

    2007 3 32

    2008 4 36

    2009 5 36

    2010 6 39

    2011 7 41

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 195

    r = 0,9877

    pendenza pari a 2,107

    intercetta pari a 26,286

    y = 26,286 + 2,107 x

    r2 = (0,9877)2 = 0,9756

    RMSE = 4,267 radq (1 0,9756) = 0,666

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 196

    Secondo la funzione lineare ricavata, si hanno

    quindi variazioni di ammontare costante (in numero di casi), pari a +2,107 fra due anni consecutivi

    Il numero teorico di casi quando x pari a zero (ossia, nellanno 2004) di 26,286

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 197

    r2 = 0,9877

    Una elevata quota di variabilit del fenomeno Y spiegata dalla retta di regressione

    Quindi, la retta di regressione idonea a riassumere l'effettivo legame tra il fenomeno considerato e il fattore tempo, anche

    In altri termini, tenere conto dellevoluzione della serie storica aiuta nella predizione dei valori futuri

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 198

    RMSE = 0,666 significa che il numero di casi previsto per un determinato anno si discoster da quello effettivo in media per 0,666

    Il confronto con la SD (Y), molto pi elevata, consente di affermare che con lutilizzo del fattore tempo nel ruolo di variabile indipendente, la capacit di predizione di Y migliora sensibilmente

    In altri termini, lerrore medio di predizione con limpiego di X si riduce In misura consistente

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 199

    La proiezione

    Utilizzando la funzione interpolante, possibile effettuare proiezioni sul futuro del fenomeno considerato

    Per esempio, per il 2013 (x = 9), possibile fare questa proiezione:

    y = 26,286 + 2,107 9 = 45,25

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 200

    Trend non lineari

    Anche nello studio delle serie storiche, r prossimo a zero non necessariamente significa assenza di relazione (possiamo essere in presenza di una associazione non lineare)

    Per esempio, la % di tannino estraibile dalla felce aquilina ha questo trend nei mesi da maggio a ottobre:

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 201

    7 NOZIONI ELEMENTARI DI PROBABILITA

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 202

    Definizione di probabilit

    Secondo la teoria frequentista, adatta per esempio ai processi che si possono ripetere tante volte:

    la probabilit di un evento la percentuale dei casi in cui tale evento pu verificarsi, sul totale dei

    casi possibili

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 203

    Simboli

    La probabilit che si verifichi levento E si indica con P(E)

    La probabilit che si verifichi levento contrario (non E) si indica con P(non E)

    P(E) = [1 - P(non E)]

    levento impossibile ha probabilit pari a zero

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 204

    Spazio degli eventi

    importante, per ogni esperimento, definire lo spazio degli eventi (S), che comprende tutti i possibili eventi. Si utilizzano solitamente le parentesi graffe per indicare tutti gli eventi possibili. Per esempio:

    S = { x: 15 < x < 30}

    Ogni elemento dello spazio degli eventi detto evento semplice (un evento semplice definito da una sola caratteristica)

    Un qualsiasi insieme di eventi semplici detto evento congiunto o composto (un evento congiunto definito da due o pi caratteristiche)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 205

    Eventi compatibili e incompatibili

    Due eventi sono incompatibili quando il verificarsi delluno esclude il verificarsi dellaltro

    Due eventi sono compatibili quando il verificarsi delluno non esclude il verificarsi dellaltro

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 206

    EVENTI INCOMPATIBILI

    F

    E

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 207

    EVENTI COMPATIBILI

    F

    E

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 208

    Eventi dipendenti e indipendenti

    Due eventi sono indipendenti quando la probabilit che il secondo si verifichi la stessa, indipendentemente dal verificarsi o meno del primo

    es.: estrazione con reimmissione

    Due eventi sono dipendenti quando la probabilit che il secondo si verifichi diversa, a seconda che si sia verificato o meno il primo

    es.: estrazione senza reimmissione

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 209

    Probabilit condizionata

    Ha significato solo nellambito degli eventi dipendenti

    la probabilit che si verifichi un secondo evento (F), quando si impone una condizione sul primo evento (E)

    P (F | E) (si legge: probabilit di F dato E)

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 210

    Esempio di probabilit condizionata

    Si stima che un complesso idrovoro sia in grado di fronteggiare una determinata piena del fiume con una probabilit del 94%.

    Nel caso che si verifichi levento sopra esposto (C, ossia capacit di fronteggiare la piena), si stima che lintera area golenale sar preservata dalla piena nel 62% dei casi.

    La probabilit condizionata, in questo caso, la probabilit che lintera area golenale sia preservata. La indichiamo con P(G).

    P (G | C) = 0,62

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 211

    Secondo esempio di probabilit condizionata

    Su tutte le azioni di vendita diretta tramite Internet, un 5% dei soggetti raggiunti acquista sul momento, un altro 6% il giorno successivo.

    La probabilit che i soggetti non acquistino il giorno successivo, nel caso che non abbiano acquistato durante la vendita diretta, pari a:

    P (Dopo | Durante) = 89/95 = 0,937

  • Febbraio 2015 Introduzione alla statistica per le scienze economiche e sociali 212

    La propriet moltiplicativa

    La probabilit che si verifichino due eventi (entrambi) si indica con:

    P (E e F) oppure con P (E F)

    (probabilit dellintersezione degli eventi