Fondamenti di scienze sociali non convenzionali 2 · I metodi quantitativi 2.1. ... Esercizi e...

20
Fondamenti di scienze sociali non convenzionali

Transcript of Fondamenti di scienze sociali non convenzionali 2 · I metodi quantitativi 2.1. ... Esercizi e...

Fondamenti di scienze sociali non convenzionali

Direttore

Martino L CUniversità degli Studi di Roma “Tor Vergata”

Comitato scientifico

Renato GSapienza Università di Roma

Otto HWebster University Geneva

Antonio PUniversidad Autónoma de Madrid

Fondamenti di scienze sociali non convenzionali

La collana ospita volumi di ricerca in campo sociale, i cui contenuti sonocaratterizzati da “transdisciplinarietà”, che include ma va oltre:

— la multidisciplinarietà, che implica una cooperazione tra discipline dif-ferenti, mantenendone contemporaneamente le reciproche distanzeed evitando contaminazioni tra le stesse;

— l’interdisciplinarietà, centrata su nuclei tematici di nicchia definiti dainterazioni di limitate sezioni di più discipline.

La transdisciplinarietà implica legami più ampi e profondi, e un’inte-grazione tra discipline: metaforicamente, si tratta di una “contaminazione”allargata tra diverse ortodossie e pensieri scientifici mainstream.

Giorgio GarauGiovanni Mandras

Lucia Schirru

Statistica per le scienze sociali

Volume I

Copyright © MMXVAracne editrice int.le S.r.l.

[email protected]

via Quarto Negroni, Ariccia (RM)

()

----

I diritti di traduzione, di memorizzazione elettronica,di riproduzione e di adattamento anche parziale,

con qualsiasi mezzo, sono riservati per tutti i Paesi.

Non sono assolutamente consentite le fotocopiesenza il permesso scritto dell’Editore.

I edizione: ottobre

Indice

Prefazione

Parte IStatistica descrittiva

Capitolo IIntroduzione ai metodi statistici

.. Che cosa è la statistica, – ... Alcune funzioni della statistica, – ... Unacattiva interpretazione della statistica, – .. Le fonti dei dati, – ... La naturadell’ente, – ... Lo scopo della rilevazione, – ... La territorialità, – .. Isistemi informativi statistici, .

Capitolo III metodi quantitativi

.. Concetti di base, – .. Tipi di dati, – .. Le rappresentazioni grafiche, – ... Le rappresentazioni per dati qualitativi, – ... Le rappresentazioni per datiquantitativi discreti, – ... Le rappresentazioni per dati quantitativi continui, – ... La Funzione di ripartizione, .

Capitolo IIIGli indici di posizione

.. La media, – ... La media aritmetica, – ... La media geometrica, –... La media armonica, – ... Le medie potenziate, – ... Alcune proprietàdella media, – .. La moda, – .. La mediana, – ... Interpolazioneall’interno della classe mediana, – .. Gli altri indici di posizione, – ... Ilmidrange, – ... I quartili, .

Capitolo IVI rapporti statistici

.. Indici di struttura, – ... I rapporti di composizione, – ... Rapporti dicoesistenza, – ... Rapporti di eccedenza, – .. Indici di derivazione, –... Rapporti di derivazione, – ... Rapporti di densità, – ... Rapportidi durata e ripetizione, – .. I numeri indice, – ... I Numeri indice neltempo, – ... I Numeri indice nello spazio, .

Indice

Capitolo VLe misure di variabilità

.. Gli indici di dispersione, – ... Il range o campo di variazione, – ... Lavarianza e lo scarto quadratico medio, – ... Le proprietà della varianza, –... Il coefficiente di variazione, – ... Lo scostamento semplice medio dallamedia e dalla mediana, – ... Le differenze medie, – .. Gli indici diconcentrazione, .

Capitolo VII fenomeni bivariati

.. L’indipendenza, – .. Le medie e le varianze in una distribuzionedoppia, – .. La connessione, – .. La correlazione, – .. Laregressione, .

Parte IIStatistica inferenziale

Capitolo IProbabilità

.. Il concetto di probabilità, – ... L’Approccio classico o a priori, –... L’Approccio frequentista o a posteriori, – ... L’Approccio soggettivo, –... L’Approccio assiomatico, – .. Alcuni teoremi, .

Capitolo IIVariabili casuali

.. Variabili casuali singole, – ... Variabili casuali discrete, – ... Varia-bili casuali continue, – .. Variabili casuali doppie, – ... Variabili casualidoppie discrete, – ... Variabili casuali doppie continue, – .. Indicatorisintetici delle v.c., .

Capitolo IIIDistribuzioni di probabilità

.. I Modelli Discreti, – ... La Distribuzione binomiale o di Bernoulli, – .. I Modelli Continui, – ... Distribuzione normale o di Gauss, –... Approssimazione della Binomiale alla Normale, .

Capitolo IVDistribuzioni campionarie

.. Statistiche e momenti campionari, – ... Legge dei grandi numeri, – .. Campionamento da distribuzioni normali, – ... Distribuzione Chi-quadro, – ... Distribuzione T di Student, – ... Distribuzione F diFisher, .

Indice

Capitolo VInferenza statistica

.. Stima, – ... Stima puntuale, – ... Stima per intervalli, – .. Al-cuni casi notevoli, – ... Intervallo di confidenza (I.C.) per la media, –... Intervallo di confidenza per la varianza, – ... I.C. per una proporzionedella popolazione, – .. La prova delle ipotesi, – ... Test di ipotesi suiparametri della retta di regressione, – ... Test di conformità, – ... Test diindipendenza, .

Parte IIIAppendici

Capitolo IArgomenti propedeutici

.. Un po’ di Simbologia, – .. Insiemi e proprietà degli insiemi, –... Unione, – ... Intersezione, – ... Complemento, – ... Pro-prietà degli insiemi, – ... Eventi e spazio campionario, – .. Il sistemadei numeri reali, – ... Intervalli di numeri reali, – ... Valore asso-luto, – ... Le potenze, – ... Radice n-esima di un numero reale, – ... Sommatorie (

), – ... Prodotto notevole, – .. Elementi dicalcolo combinatorio, – ... Disposizioni, – ... Permutazioni, –... Combinazioni, .

Capitolo IIElementi di algebra lineare

.. Introduzione, – .. Vettori, – ... Vettori e loro operazioni, –.. Matrici, – ... Definizione, – ... Le operazioni elementari, –... Prodotto tra matrici, – ... La Diagonalizzazione, – ... Determinan-ti, – ... Inversa di una matrice, – ... I sistemi lineari di equazioni, –.. Esercizi, .

Capitolo IIIEsercizi e soluzioni di statistica descrittiva

.. Esercizi, – .. Soluzioni, .

Capitolo IVEsercizi di inferenza

.. Esercizi, .

Capitolo VTavole statistiche

Bibliografia

Prefazione

There are three kind of lies: lies, damned lies andStatistics.

Mark T

Questi appunti nascono dall’esigenza di fornire a chi vuole avvicinarsi al-l’uso della statistica, una prima guida di riferimento, che potrà poi essereoggetto di approfondimento nei modi che l’utilizzatore riterrà più opportu-ni. Il testo è consigliato a tutti coloro che frequentano un corso di statisticaerogato in modalità tradizionale o telematica.

Nella stesura di questo supporto all’attività didattica erogata presso ilDipartimento di Scienze Umanistiche e Sociali dell’Università di Sassari, gliautori hanno fatto ampio riferimento alle precedenti edizioni del libro esoprattutto agli Appunti di statistica per l’economia, libro scritto nel daMartino Lo Cascio dell’Università di Roma Tor Vergata e pubblicato conl’allora nascente casa editrice Aracne, di cui Giorgio Garau è stato assistente.Le sue lezioni hanno probabilmente gettato il seme non solo di questo testoma di tutta la sua successiva carriera accademica.

Il volume si compone di parti. La prima contiene gli argomenti dellastatistica descrittiva, la seconda quelli dell’inferenza statistica ed una terzaparte contiene le Appendici, organizzate in modo da fornire un riferimentoimmediato per alcuni argomenti di base, nonché alcuni esercizi utili perverificare la conoscenza degli strumenti della statistica presentati nel testo.

Nel primo capitolo vi è un’introduzione all’uso dei metodi statisticiin cui si presentano le varie possibilità di utilizzo delle fonti di dati, conparticolare riferimento alle fonti amministrative e a quelle statistiche. Nellostesso capitolo si introducono “I Sistemi Informativi Statistici” (SIS), la cuiconoscenza consente di affrontare i problemi in ottica di sistema e di avereuna visione completa e coerente dell’uso dell’informazione nei processi divalutazione. Nel secondo capitolo, oltre ad alcuni concetti di base, vengonopresentate le rappresentazioni grafiche, che costituiscono uno strumento disintesi immediato, che permetterà durante tutto il corso di metodi statistici,di avere delle intuizioni sui fenomeni. Gli stessi saranno poi oggetto distudio sistematico, a mezzo di indicatori di posizione e di variabilità, alla cuicostruzione sono dedicati il terzo ed il quinto capitolo. Nel quarto capitolo è,invece, data una presentazione sistematica ma non esaustiva dello strumento

Prefazione

dei rapporti statistici, al fine di fornire allo studente le condizioni per l’usocorretto degli stessi. I numeri indice sono semplicemente introdotti, cosìcome le modalità di costruzione del tasso di inflazione. Il sesto capitolo,infine, considera i fenomeni bivariati, utili quando si vogliono analizzarecontemporaneamente più caratteristiche di una stessa popolazione.

La seconda parte del libro, contiene gli argomenti dell’inferenza statisticae, come già precisato, deve essere considerato come una guida di primoriferimento, senza pretese di esaustività, nell’affrontare il difficile tema del-l’inferenza. L’inferenza statistica è una tecnica che mette in risalto l’utilizzodel metodo statistico e quindi ne esalta il valore, quando ci si confronta conrisorse scarse o, ciò che è ancora più frequente, con informazioni limitate.In tali situazioni è evidente l’utilità del ricorso a tecniche di stima basate suinformazione campionaria ed è in tale contesto che si delinea lo sviluppo diquesti appunti in cui il lettore viene introdotto progressivamente ai diversistrumenti necessari per un corretto approccio all’inferenza.

Il problema dell’inferenza statistica è quello di descrivere la popolazionequando non si dispone di tutti i dati che compongono la sua distribuzione,ma solo di una parte di essa. In italiano la parola inferenza ha un significatopiù generale. Lo Zingarelli riporta le definizioni seguenti.

— Inferenza: processo logico per il quale, da una o più premesse, èpossibile trarre una conclusione.

— Inferenza statistica: procedimento di generalizzazione dei risultatiottenuti mediante una rilevazione parziale per campioni.

Pertanto, l’inferenza statistica è collegata col processo di induzione:

— Induzione: procedimento logico che consiste nel ricavare da osserva-zioni ed esperienze particolari i principi generali in esse impliciti.

Tutto ciò può essere meglio illustrato attraverso i seguenti esempi:

a) Prima delle elezioni è d’uso sondare l’opinione di un campione dielettori per conoscere in anticipo i risultati. Il campione raccoglie unsottoinsieme della popolazione degli elettori. Il problema di prevede-re i risultati senza disporre dei dati definitivi, ma solo di uno spoglioparziale è un problema di inferenza statistica.

b) Tutti i processi produttivi moderni hanno una fase di controllo diqualità. Ad esempio, i condizionatori d’aria montati sugli aerei dilinea sono prodotti in serie e sottostanno a un certo numero dicontrolli. Dopo quanto tempo avviene il primo guasto? Per avere unaindicazione di questo tempo si fanno funzionare ininterrottamente

Prefazione

un certo numero di condizionatori e si registra dopo quanto tempo siguastano. È ovvio che non è possibile fare una rilevazione di questodato su tutti i condizionatori prodotti. Stimare dopo quanto tempo (inmedia) avviene il primo guasto per tutti i condizionatori facendo uncontrollo solo su un campione è un problema di inferenza statistica.

c) Il tasso di disoccupazione è un dato economico estremamente impor-tante. Il tasso di disoccupazione varia continuamente in dipendenza diun gran numero di fattori. Come si fa ad ottenere dati continuamenteaggiornati sul tasso di disoccupazione? Non è conveniente procederecon dei censimenti sistematici su tutta la forza lavoro, a causa deicosti. E’ possibile tuttavia ricorrere a campioni estratti dall’interapopolazione di riferimento. L’ISTAT svolge a tal fine un’indaginecontinua sulle forze lavoro rilevando sia coloro che fanno parte delleforze di lavoro sia coloro che non ne fanno parte. Inoltre, quelli chene fanno parte vengono suddivisi a seconda che siano occupati o incerca di occupazione. L’indagine campionaria delle forze di lavorosi propone di dare una stima del tasso di disoccupazione effettivo, almomento della rilevazione, per tutta l’Italia, col dettaglio regionale eprovinciale (quest’ultimo con cadenza annuale).

d) Il fumo è pericoloso per la salute? La ricerca medica negli anni piùrecenti ha cercato di dimostrare, anche statisticamente, che i tumoridell’apparato respiratorio sono causati dal fumo. La dimostrazionestatistica di tale evidenza è basata sul ragionamento seguente. Esisto-no due popolazioni, quella dei fumatori e quella dei non fumatori.Se la proporzione di tumori è significativamente maggiore per laseconda popolazione, allora si deve concludere che il fumo è unfattore di rischio. Come si fa a verificare che la proporzione di tu-mori è maggiore per l’intera popolazione dei fumatori? Si osserviinfatti che tale popolazione è infinita perché comprende tutti gli es-sere umani (anche coloro che devono ancora nascere). La tecnicausata dagli statistici consiste nell’estrarre due campioni, uno dellapopolazione dei non fumatori e uno dalla popolazione dei fumatori equindi nel confrontare le proporzioni di tumori nei due campioni. Ilconfronto viene quindi esteso opportunamente alle due popolazioni,utilizzando le tecniche dell’inferenza statistica.

La seconda parte del volume si compone di cinque capitoli. Il primo diquesti (il settimo nell’ordine) contiene alcune nozioni elementari di calcolodelle probabilità. L’ottavo capitolo introduce i concetti estremamente delica-ti ed importanti di variabile casuale e di funzione di probabilità, sia nel casodiscreto che in quello continuo. Il nono capitolo, il cui contenuto può essereriassunto in questa frase del fisico francese, G. Lippmann (-) «Eve-

Prefazione

rybody believes in the normal approximation, the experimenters becausethey think it is a mathematical theorem, the mathematicians because theythink it is an experimental fact», introduce progressivamente allo studiodella distribuzione normale ed al suo utilizzo nell’analisi delle distribuzioniempiriche. Al capitolo dieci è attribuito il compito delicato di presentarel’idea delle distribuzioni campionarie, cioè delle distribuzioni che si ottengo-no quando si estraggono dei campioni di osservazioni. Il volume si chiudeinfine col capitolo undici, dedicato all’illustrazione di alcuni casi standard diinferenza.

P I

STATISTICA DESCRITTIVA

Capitolo I

Introduzione ai metodi statistici

.. Che cosa è la statistica

Per statistica in origine si intendeva la raccolta di dati modesto inizio essa siè sviluppata in un metodo scientifico di analisi ora applicato a molte scienze,sociali, naturali, mediche, ingegneristiche ed è uno dei rami più importantidella matematica. La statistica si può dunque vedere come lo studio dellepopolazioni, lo studio della variazione fra individui della popolazione, lostudio di riduzione dei dati. Le popolazioni di cui si occupa la statistica nonsono solo le popolazioni umane, ma con questo termine si intendono gliaggregati di individui non necessariamente viventi o materiali: ad esempio,se si effettua un certo numero di misure, l’insieme dei risultati costituisce unapopolazione di misure. Le popolazioni che sono oggetto di studio statisticoevidenziano sempre delle variazioni al loro interno, ossia gli individui chele costituiscono non sono tutti identici: compito della statistica è lo studiodi tali variazioni.

Nel dizionario la parola statistica è associata alla definizione di scienzache analizza, dal punto di vista quantitativo, fenomeni collettivi che ten-dono a cambiare nel tempo, allo scopo di individuarne e descriverne lemodalità di svolgimento. Secondo un’altra definizione la statistica è unascienza che studia i fenomeni collettivi, sia naturali che sociali, attraversometodi matematici, fondati soprattutto sulle tecniche di campionamentoe sul calcolo delle probabilità, allo scopo di tracciare modelli esplicativi edi formulare previsioni. L’Istat definisce la statistica come la scienza che sioccupa di raccogliere, classificare, analizzare e interpretare dati attraversol’uso di metodi scientifici.

Non esiste una definizione univoca ed esaustiva del termine statisticaed è per questo che si è deciso di fornirne più di una. Leggendole tuttesi evincono dei punti in comune: la volontà di analizzare dei fenomeni

collettivi e variabili attraverso dei metodi matematici più o meno complessi.In sintesi perciò la statistica è un metodo per la conoscenza quantitativa diinsiemi di eventi.

. Per fenomeno si intende tutto ciò che può essere direttamente (es. un evento demografico) oindirettamente (es. qualità della vita di una popolazione) osservato.

. Statistica descrittiva

Attraverso alcuni esempi sarà più facile capirne il significato.

— Si consideri il numero dei quotidiani venduti nell’arco di un anno. Sitratta di una serie storica e la statistica consente di studiarla, cioè discomporla mettendo in evidenza le sue diverse componenti: trend(tendenza di lungo periodo), ciclo (presenza di andamenti ciclici confase superiore all’anno, in corrispondenza di fenomeni economicidel tipo: investimenti, ciclo del prodotto, innovazione) e stagiona-lità (o ciclicità breve, con fase inferiore all’anno, determinata ad es.dall’alternanza di giorni lavorativi/festivi).

— Si considerino alcuni indicatori di fenomeni sociali come la sogliadella povertà, l’ampiezza delle famiglie o il rapporto tra superfi-cie agricola utilizzata (SAU) e superficie comunale. Ognuno di essiconsente di studiare un fenomeno più o meno complesso e questosignifica che la statistica consente di costruire indicatori, strumentiche sintetizzano e rendono esplicita l’informazione necessaria perstudiare i fenomeni oggetto di interesse.

— Si ipotizzi, infine, di fare un sondaggio tra gli studenti per rilevarealcune caratteristiche socio economiche che consentono di studiarela popolazione. A tal fine è necessario capire cosa succede, se le unitàche fanno parte del campione sono scelte in modo non casuale, adesempio rilevando le caratteristiche scelte solo presso coloro percui si prova simpatia. In questo caso ogni ragionamento inerentel’estensione dei risultati campionari alla relativa popolazione è viziatoda una distorsione. La statistica insegna come costruire i piani dicampionamento, come concepire dei questionari e come fare lestime interpretando e prevenendo gli errori.

... Alcune funzioni della statistica

Nelle scienze sociali la statistica ha il ruolo di quantificare sotto tre aspetti:

— Dal punto di vista descrittivo è chiaro che la traduzione in numeriha una sua validità legata alla funzione di sintesi; si pensi alla estremasintesi di informazioni contenute in un indicatore come il PIL procapite, indicatore del tenore di vita di un paese.

— Per quanto riguarda l’osservazione e la raccolta di informazione, èchiaro che l’obiettività del dato può essere raggiunta solo attraversol’adozione di convenzioni. Inoltre la confrontabilità di informazio-ni raccolte in posti diversi non può che basarsi su una definizionequantitativa dei fenomeni. Si pensi ad esempio a come confrontarel’efficienza dei trasporti urbani in due città: si può calcolare sia il

. Introduzione ai metodi statistici

numero di corse all’ora, indice di frequenza del servizio; sia la spesaper km di linea, indice di un capitale fisso più o meno rinnovato.

— Infine, nel trattamento dell’informazione è chiara la necessità diquantificare e di tradurre in quantificabile ogni informazione.

Come possono essere ottenute queste informazioni quantitative? Nellescienze esatte la raccolta dei dati si effettua con esperienze ripetute, reite-rando un dato esperimento in un ambiente controllato. Un altro modo diraccogliere i dati può essere quello tipico in medicina e biologia che utilizzai gruppi di controllo per verificare se un trattamento è efficace oppure no.

Nelle scienze sociali talvolta si usa il ° modo, ad esempio introducen-do delle norme (limitazione di velocità, lancio di prodotti nuovi) in città-campione prima di estenderle a tutto il territorio nazionale. In generale èperò estremamente difficile controllare i fattori esterni al nostro esperimen-to per cui, spesso, la sola possibilità di raccogliere delle informazioni è legataall’osservazione delle unità statistiche.

La statistica, in sintesi, può essere molto utile, ma è necessario mettere inguardia, da un suo uso scorretto, chi ancora non ne conosce tutti i segreti.

... Una cattiva interpretazione della statistica

Si fa di seguito riferimento ad uno studio sulla discriminazione sessualenei criteri di ammissione ai corsi post-laurea di una università americana.L’analisi dei risultati totali dice che:

. uomini presentano domanda ed il % viene accettato. donne presentano domanda ed il % viene accettato

Assumendo che gli uomini e le donne che hanno fatto domanda sianougualmente preparati, la sintesi presentata sembra essere una forte provaempirica del fatto che gli uomini e le donne ricevono un diverso trattamentoall’atto dell’ammissione: l’Università, infatti, sembra avere una preferenzaper gli uomini.

. L’esempio che segue è tratto da Freedman D., Pisani R., Purves R. ().

. Statistica descrittiva

Corsi Uomini Donnepost Numero % Numero %

laurea di domande di ammessi di domande di ammessiA B C D E F

Si consideri il problema più in dettaglio confrontando i tassi di ammissionenei diversi Corsi post-laurea (si prendono solo i primi sei Corsi, ai qualisi riferiscono oltre un terzo delle domande di ammissione e il cui com-portamento si può considerare come quello tipico di tutta l’Università); siscoprirà che tali tassi si equivalgono, anzi nel corso A sembra vi sia unadiscriminazione nei confronti degli uomini.Tuttavia, quando si considerano tutti i sei corsi risulta un tasso di ammissionedel % per gli uomini e del % per le donne, una differenza di ben punti percentuali. Ciò sembra paradossale, ma c’è una spiegazione:

— è più facile entrare nei primi due Corsi (A e B), e più della metà degliuomini vi ha fatto domanda.

— è più difficile entrare negli altri quattro Corsi e più del % delledonne vi ha fatto domanda.

Insomma le donne scelgono studi più difficili. Nel risultato finale vi è l’in-fluenza della scelta dei corsi che si confonde con l’effetto relativo al sesso. In