Post on 14-Feb-2019
Economia Pubblica e Storia Economica
Fausto Pacicco – fpacicco@liuc.it
LEZIONE 10/11/16
1
La creazione di teorie scientifiche prevede sempre una fase di effettivoriscontro nella realtà
Questa fase, che definiamo come verifica empirica di una teoria,permette di formulare teorie in grado di raggiungere una conoscenzadella realtà oggettiva, affidabile, verificabile e condivisibile¹
Le teorie vengono poste al vaglio della verifica empirica, edopportunamente modificate (o abbandonate, nel peggiore dei casi) alfine di raggiungere una forma finale
Tutto ciò che non viene posto a questo processo di verifica in manierarigorosa, non è scienza, ma altro…
2¹ Wikipedia, Metodo scientifico
Elemento portante della conoscenza scientifica è quindi la verifica delleipotesi sulla base di modelli statistici applicati ai dati
Il dato, quindi, è la porzione «elementare» della conoscenza, ed èimpossibile pensare di arrivare a conoscere la realtà senza partire dadati affidabili ed analizzati con un criterio rigoroso
Infatti, la fase di analisi mira ad estrarre informazioni dai dati, conl’obiettivo di generare conoscenza
Ma cos’è il dato?
3
Analizziamo una delle possibili descrizioni di cosa costituisce un dato:Un dato (dal latino datum che significa letteralmente fatto) è una descrizioneelementare, spesso codificata, di un'entità, di un fenomeno, di una transazione, diun avvenimento o di altro. L'elaborazione dei dati può portare alla conoscenza diun'informazione. I dati nascono dell'osservazione di aspetti e fenomenielementari e permettono di effettuare dei calcoli, risolvere un problema,caratterizzare un fenomeno o di esprimere un'opinione. Ogni tipo di dato dipendedal codice e dal formato impiegati (Wikipedia)
Tenendo sempre a mente che il nostro focus è su dati inerenti teorieeconomiche, analizziamo nel dettaglio cosa è per noi un dato
4
Per essere affidabili, i dati devono essere sempre ottenuti da fontistatistiche certificate, provenienti cioè da enti/istituzioni riconosciutied affidabili
Quasi tutti i paesi hanno costituito degli uffici statistici nazionali diriferimento, che dovrebbero essere la prima fonte da consultare
In alternativa, esistono organizzazioni private o organizzazionisovranazionali che si occupano di raccogliere dati, spesso per utilizzarlinelle loro analisi
È fondamentale consultare anche i metadati allegati ai dati, in quantoriportano eventuali limiti delle stime, break points, stime, etc.
5
Una raccolta coordinata e coerente di dati rientra nel campo diapplicazione della statistica
Definiamo quindi queste due prime classi di raccolta dati:1. Statistiche indirette2. Statistiche dirette
Le statistiche indirette sono un «sottoprodotto» di altre azioniE.g. un ospedale monitora i tempi di ricovero e di degenza dei pazienti con un
obiettivo (interno ed esplicito).Aggregando questi dati, gli enti di previdenza sociale possono stimare i costidell’impatto di eventi morbosi sulla capacità lavorativa.In maniera analoga una casa farmaceutica può utilizzare questi dati per capiresu quali fronti di ricerca investire
6
La raccolta di questi dati è praticamente a costo zero (in quanto by-product); tuttavia, rischiano di essere non sufficientemente esaustiviper la conoscenza di fenomeni non direttamente collegati ai motivioriginari di raccolta
Viceversa, le statistiche dirette sono quelle studiate, disegnate esvolte tenendo a mente l’obiettivo di conoscenza di uno specificofenomeno
Pur se estremamente accurate, queste analisi potrebbero risultareeccessivamente costose (in termini di tempi e risorse): Il costo (approssimato) per il censimento italiano 2011 è stato di 590 milioni di
euro; quello UK di 482 milioni di sterline e quello USA 2010 di circa 13 miliardidi dollari
In Italia, i primi risultati del censimento 2011 vennero pubblicati 6 mesi dopo lafase di raccolta
7
Per questi motivi, indagini svolte su tutta la popolazione, i.e. censimenti,vengono svolte a distanza di un certo numero di anni (10 in Italia)
Per indagini meno comprensive, si ricorre ad indagini campionarie,svolte cioè su una porzione della popolazione scelta secondo criteristatistici
Per i nostri scopi, comunque, ci concentreremo su dati non a livelloindividuale, ma di dati forniti in maniera aggregata, per riuscire adescrivere l’andamento delle finanze pubbliche
8
Ma quali tipi di dati sono disponibili?QualitativiQuantitativi
I dati qualitativi, tipicamente raccolti su base campionaria siconcentrano sulle aspettative, i giudizi, le propensioni, previsioni, etc… della classe di soggetti analizzati
Solitamente sono predisposti in questionari, con risposte basate suscale, o comunque seguendo un «canovaccio» di indagine
Permette un conseguimento veloce dei risultati, e permette di riuscire acogliere aspetti «impalpabili»
Tuttavia, le risposte sono soggette a forti bias (e.g. recall bias, ambientecircostante), così come il campione (selezione di comodo deirispondenti) e non è facile ottenere dati quantitativi in maniera univoca
9
Dall’altra parte, troviamo i dati quantitativi, dati cioè espressi in formanumerica, in grado di quantificare direttamente il fenomeno in analisi
Tra i loro punti di forza vi sono l’oggettività e l’affidabilità, chepermette confronti intra-temporali e tra diverse unità
Tuttavia, è necessario rispettare criteri statistici, a partire dalla sceltadelle misure, nella raccolta e nell’analisi dati
Nel caso di raccolte censuarie, non vi è necessità di effettuareinferenze; viceversa, in caso di indagini campionarie, bisognarispettare i parametri di «raccordo» tra campione e popolazione
10
A seconda dello scopo d’indagine, possiamo distinguere 3 tipologie distudi:Dati longitudinali (o cross-section) Sono dati raccolti in un (e uno solo)
determinato istante di tempo per un numero N di osservazioni
Serie storiche Serie di più variabili raccolte in maniera ordinata rispetto altempo per una sola unità di indagine
Panel data Si tratta di serie ordinate rispetto al tempo, riguardo lemedesime molteplici variabili e le medesime molteplici osservazioni
11
Quali possono essere le unità di misura dei dati?Valore assoluto, con unità di misura relativa ai dati in esame
E.g. Numero di pezzi prodotti, di abitanti, di imprese
Forma percentualeE.g. Percentuale popolazione straniera, tassi di disoccupazione, di interesse
Numero indiceSi prende a riferimento un'unità temporale (anno se dati annuali, trimestre se datitrimestrali, etc.) e si pone il dato originario pari a 100 (o altro valore). Poi, con unatrasformazione lineare (proporzione) si calcolano i restanti valori.Permette di ottenere valori adimensionali (cioè senza unità di misura propria), econfrontare serie disomogenee, longitudinalmente e/o temporali (e.g. numero diabitanti e quantità di moneta circolante). Inoltre, la dinamica temporale della serie nonviene alterata.
13
Numero indice compositoÈ un valore costruito a partire dai numeri indice e si costruisce tramite la mediaponderata degli elementi sottostanti.Ad esempio, ecco come si calcola l’indice dei prezzi al consumo, ISTAT usato per lastima dell’inflazione:
14
Numero indice composito (indice di Laspreyes)
In formula∑𝑖𝑖 𝑝𝑝𝑖𝑖𝑖𝑖𝑞𝑞𝑖𝑖0∑𝑖𝑖 𝑝𝑝𝑖𝑖0𝑞𝑞𝑖𝑖0
∗ 100 con 𝑞𝑞𝑖𝑖0 = quantità prodotta nell'anno base (anno 0)
𝑝𝑝𝑖𝑖0 = prezzo prodotto i nell'anno base (anno 0)𝑝𝑝𝑖𝑖𝑡𝑡 = prezzo prodotto i per l’anno successivo (anno t)
Tale metodologia di calcolo richiede però la stima di tutta la serie qualora dovessevenire modificato l’anno di riferimento
Indice composito ottenuto con una media ponderata dei singoli indici
15
Ovviamente è possibile effettuare varie operazioni e/o trasformazionidei dati
Prodotto/Rapporto possono servire a triangolarizzare i dati (e.g.costruzione tassi di cambio), costruzione dati ponderati o in percentuale,costruzione deflatori (e.g. rapporto percentuale tra pil nominale e reale)
Somma Costruzione medie ponderate
Differenza Serve a valutare l’andamento «deflazionato» della serie, su basiannuali
Logaritmo (naturale o base 10) «Schiaccia» la serie, diminuendone larumorosità; inoltre, a partire da queste, si possono ottenere serie alledifferenze (o elasticità) più facili da gestire
16
Percentualizzazione
Normalizzazione Le serie vengono trasformate/scalate, secondo intervallipredeterminati; facilita la comprensione dei dati ed il confronto tra diverseserie. Pur se parte della dinamica della serie viene persa, Uno dei metodi diffusi di normalizzazione è il Feature scaling (o min-max scaling), che
scala la serie nell’intervallo [0, 1]. Permette di alleviare l’impatto degli outlier. Informula:
𝑋𝑋𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 =𝑋𝑋𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 − 𝑋𝑋𝑛𝑛𝑖𝑖𝑛𝑛
𝑋𝑋𝑛𝑛𝑣𝑣𝑚𝑚 − 𝑋𝑋𝑛𝑛𝑖𝑖𝑛𝑛
Standardizzazione (o Z-scoring) In alternativa si può scegliere ditrasformare la serie in una con media pari a 0 e deviazione standard pari a 1, inmodo da poter utilizzare le funzioni di ripartizione ed il calcolo dei quartiliproprie di una distribuzione normale standard. In formula¹:
𝑋𝑋𝑠𝑠𝑡𝑡𝑠𝑠 =𝑋𝑋𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 − 𝜇𝜇
𝜎𝜎
17¹ Con si indica la media della serie e con la sua deviazione standardµ σ
Benchmarking Permette di scalare tutte le serie in un numeroadimensionale, e allo stesso tempo prendere a riferimento uno specifico caso.Si pone pari a 100 (o qualunque altro numero «tondo») il valore di riferimento(il totale, la media, il dato riferito ad un’osservazione particolarmenteimportante, etc) e poi si calcola il resto della serie tramite una proporzione.È come un numero indice, ma calcolato su base «spaziale», non temporale
Fate sempre attenzione alla presenza dei dati missing; a secondadell’analisi che intraprenderete, dovete scegliere come gestirli. Questipossono essere lasciati vacanti, sostituiti con del testo (e.g. ND), sostituiticon il valore medio (o simili), etc
18
Istat http://dati.istat.it/ , alla voce Conti Nazionali
Enti regionali (solitamente chiamati «annuari statistici»), come l’Annuariostatistico della Lombardia www.asr-lombardia.it
Eurostat http://ec.europa.eu/eurostat , alla voce Data, Tables by theme
NBER http://www.nber.org/ , alla voce Data, Public Use Data Archive,Macrohistory Database
IMF www.imf.org , alla voce Data, International Financial Statistics
WorldBank http://www.worldbank.org/ , alla voce Data
FRED https://fred.stlouisfed.org/
OECD http://www.oecd.org/ , alla voce Data
Banca d’Italia https://www.bancaditalia.it
Database regionale 100% Lombardia
19