SECS-S_05_A3

download SECS-S_05_A3

of 82

Transcript of SECS-S_05_A3

  • 7/23/2019 SECS-S_05_A3

    1/82

    Corso di Laurea in modalit teledidatticaScienze dellEducazione e della Formazione in una societ multiculturale

    SECS-S/05 Statistica sociale

    MODULO A - 3 CFU

    Massimiliano Bultrini, Carla Rossi

    Elementi di Statistica sociale

    Scuola IaD Roma, 2004M. Bultrini C. Rossi, Tutti i diritti riservati

  • 7/23/2019 SECS-S_05_A3

    2/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    PRIMA UNIT ...............................................................................................................4

    1 LA STATISTICA......................................................................................................5

    1.1 LO STUDIO DEI FENOMENI COLLETTIVI ..................................................................51.1.1 ORIGINI E SVILUPPO DELLA STATISTICA .................................................................71.1.2 FENOMENI COLLETTIVI, POPOLAZIONE STATISTICA E CARATTERISTICHEOGGETTO DI STUDIO ...........................................................................................................71.2 LE FASI DI UNINDAGINE STATISTICA ....................................................................121.2.1 PIANIFICAZIONE ...................................................................................................131.2.2 RILEVAZIONE .......................................................................................................151.2.3 ELABORAZIONE ....................................................................................................161.2.4 PRESENTAZIONE ...................................................................................................161.2.5 INTERPRETAZIONE................................................................................................171.3 PRINCIPALI MODALIT DI RILEVAZIONE DEI DATI STATISTICI ............................17

    1.3.1 LINTERVISTA: RILEVAZIONE ATTRAVERSO QUESTIONARIO .................................171.3.2 LA PREDISPOSIZIONE DEL QUESTIONARIO.............................................................181.3.3 I DIVERSI TIPI DI DOMANDE ..................................................................................201.3.4 LA RILEVAZIONE DA UN ARCHIVIO PRECEDENTEMENTE PREDISPOSTO..................241.3.5 IL PROBLEMA DEI DATI INCOMPLETI .....................................................................24

    SECONDA UNIT .......................................................................................................26

    2 ELABORAZIONE DEI DATI: LE DISTRIBUZIONI STATISTICHE ...........27

    2.1 ELABORAZIONE DEI DATI E PRESENTAZIONE DEI RISULTATI ...............................272.2 LE DISTRIBUZIONI STATISTICHE UNIVARIATE ......................................................312.3 RAPPRESENTAZIONI GRAFICHE.............................................................................402.3.1 I DIAGRAMMI A BARRE .........................................................................................412.3.2 RAPPRESENTAZIONE GRAFICA DI CARATTERI QUANTITATIVI RAGGRUPPATI INCLASSI DI UGUALE AMPIEZZA ...........................................................................................422.3.3 RAPPRESENTAZIONE GRAFICA DI CARATTERI QUANTITATIVI RAGGRUPPATI INCLASSI DI DIVERSA AMPIEZZA...........................................................................................432.3.4 SPEZZATA DELLE FREQUENZE O POLIGONO DI FREQUENZA...................................442.3.5 RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE CUMULATA .......................472.3.6 DIAGRAMMI A TORTA O AEROGRAMMI CIRCOLARI ...............................................51

    TERZA UNIT .............................................................................................................55

    3 ELABORAZIONE DI DATI: GLI INDICI STATISTICI..................................56

    3.1 INDICI STATISTICI UNIVARIATI..............................................................................563.2 LE MEDIE ANALITICHE ..........................................................................................573.2.1 LA MEDIA ARITMETICA.........................................................................................573.2.2 LA MEDIA GEOMETRICA .......................................................................................663.3 LE MEDIE DI POSIZIONE .........................................................................................68

    2

  • 7/23/2019 SECS-S_05_A3

    3/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    3.3.1 LA MEDIANA ........................................................................................................ 683.3.2 I QUARTILI ...........................................................................................................723.3.3 LA MODA .............................................................................................................743.4 INDICI DI DISPERSIONE .......................................................................................... 753.4.1 LA VARIANZA ...................................................................................................... 77

    3.4.2 LO SCARTO QUADRATICO MEDIO.......................................................................... 793.4.3 LO SCARTO INTERQUARTILE ................................................................................ 803.4.4 IL COEFFICIENTE DI VARIAZIONE ......................................................................... 81

    3

  • 7/23/2019 SECS-S_05_A3

    4/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    PRIMA UNIT

    4

  • 7/23/2019 SECS-S_05_A3

    5/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    1 LA STATISTICA

    1.1 LO STUDIO DEI FENOMENI COLLETTIVILa statistica la scienza che permette di trarre conclusioni generali sul

    mondo che ci circonda, a partire da opportuni dati ed utilizzando varie tecniche. Idati possono essere osservazioni o misure di qualit o quantit di oggetti diinteresse. Numerosi sono gli esempi di dati che ricorrono nella nostra vitaquotidiana: dati sulla salute, sui prezzi delle merci, sugli ascolti dei programmitelevisivi, sui risultati elettorali, sui risultati scolastici. La statistica ci insegnacome raccogliere i dati, archiviarli, presentarli e interpretarli per trarreconclusioni.

    Originariamente lo sviluppo della statistica come disciplina scientifica fudovuto soprattutto alla necessit pratica dei governi di raccogliere informazioni dicarattere demografico, sullo stato di salute delle popolazioni, sulle attivit

    economiche. In seguito, accanto al lavoro pratico, si sviluppato quello diteorizzazione, che ha dato luogo alla fase metodologica in cui la scienzamatematica ha avuto un peso determinante.

    In una accezione pi tecnica, una statistica una quantit numericacalcolabile a partire da dati osservazionali relativi a qualche fenomeno diinteresse. Per esempio, la percentuale di voti ottenuti in unelezione da un ben

    precisato partito una statistica che si calcola contando le schede elettorali afavore di quel partito, dividendo questo numero per il totale delle schede votate emoltiplicando per 100. Cos, se indichiamo con a il primo numero e con n ilsecondo, la percentualep:

    100=n

    ap

    Esempio 1.

    Nella figura 1.1 sono riportate alcune statistiche regionalisullinvecchiamento della popolazione, espresse in forma percentuale (fonte:Corriere salute, 14 gennaio 2001). In questo caso il valore a il numero diabitanti con et superiore a 65 anni e n il totale degli abitanti della regioneconsiderata. Dalle statistiche regionali ottenute si evince, ad esempio, che quasi il

    25% della popolazione della Campania costituito da ultrasessantacinquenni.

    Figura 1.1Lanzianit delle regioni.Fonte: rapporto Censis 2001.LiguriaUmbriaEmilia RomagnaToscanaMarche

    24,7022,2122.0521,8921,32

    5

  • 7/23/2019 SECS-S_05_A3

    6/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Friuli-Venezia-GiuliaMolisePiemonteAbruzzoValle dAostaBasilicata

    VenetoLombardiaLazioTrentino-Alto AdigeCalabriaSiciliaPugliaCampania

    21,1020,5320,4019,7518,7617,77

    17,7617,4617,0316,6316,3116,1015.0813,58

    Esercizio 1.

    I giornali ci informano che la societ Infostradaha chiuso il 2000 in fortecrescita. Infatti il numero di clienti salito a 7 milioni 600 mila con un incrementodel 95% rispetto alla fine del 1999. La societ ha avuto nel 2000 un fatturato di1805 miliardi di lire (incremento del 29%).

    Quanti clienti aveva Infostrada alla fine del 1999? Quale stato il suofatturato nel 1999? (Approssimare agli interi).

    Svolgimento

    Siaxil numero di clienti diInfostradaalla fine del 1999. Allora, possiamo

    scrivere:

    7600000100

    1957600000

    100

    95==+ xxx

    3900007600000195

    100= x

    Allo stesso modo, supponiamo che y sia il fatturato di Infostradaalla fine

    del 1999. Quindi

    miliardi1805100

    29miliardi1805

    100

    29==+ yyy

    miliardi1400miliardi1805129

    100= y

    6

  • 7/23/2019 SECS-S_05_A3

    7/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Esercizio 2.

    Si legge dal giornale che le vendite della Rinascentenel 2000 sono cresciutedel 4%, rispetto allanno precedente, arrivando a 10700 miliardi. Quanto valevanonel 1999? (Approssimare agli interi).

    Esercizio 3.

    Sui giornali si trova la seguente notizia: Nonostante la guerra che da annidevasta la regione, la colonia di gorilla di montagna del Virunga (tra Ruanda,Uganda e Repubblica del Congo) cresciuta di numero: dal 1989 a oggi sono

    passati da 320 a 355 individui.

    Qual stato laumento percentuale?

    1.1.1 ORIGINI E SVILUPPO DELLA STATISTICA

    La statistica ha avuto origine dallesigenza di collettivit organizzate, comegli Stati, di conoscere quantitativamente gli aspetti rilevanti della popolazione. Iltermine stesso statisticaderiva proprio da statista, ovvero uomo di governo.Gi nel libroNumeridella Bibbia si riportano notizie dei censimenti ovvero dellaraccolta dei dati su tutti i cittadini e i beni (schiavi e animali di vario tipo peresempio) che facevano parte della collettivit del popolo di Israele. Anche inCina oltre 4000 anni fa limperatore Yu effettuava rilevazioni statistiche suicittadini al fine di stabilire lentit delle imposte. A Roma il Census(censimentodella popolazione e dei relativi beni) con cadenza quinquennale fu istituito daServio Tullio nel 443 a.C.; famoso quello indetto da Augusto in occasione del

    quale viene posta la nascita di Ges a Betlemme. Il moderno sviluppo dellastatistica nasce, per, nel diciassettesimo secolo a partire da quattro diversiindirizzi di studi, che hanno origine, pi o meno, in questo periodo e che, dopo

    percorsi autonomi e indipendenti, verso la prima met del secolo XIX giungono afondersi per dare luogo ad ununica scienza. In ordine di anzianit, tali dottrinesono lArte del misurare, il Calcolo delle Probabilit, la Notizia

    Rerumpublicarum e lAritmetica Politica. solo allinizio del Novecento, per,che alla Statistica si riconosce autonomia come disciplina metodologica: essaviene definita come scienza che studia in generale ifenomeni collettivi.

    1.1.2 FENOMENI COLLETTIVI, POPOLAZIONE STATISTICA ECARATTERISTICHE OGGETTO DI STUDIO

    I fenomeni collettivi sono quei fenomeni riferibili a una moltitudine dioggetti in cui interessi studiare linsieme degli oggetti nel suo complesso e non isingoli individui.

    Alternativamente possiamo definire come collettivi quei fenomeni che lanostra mente non pu conoscere con una sola osservazione, bens attraverso lasintesi di fenomeni individuali pi semplici.

    7

  • 7/23/2019 SECS-S_05_A3

    8/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Per capire meglio basti pensare al campo delle scienze naturali doveinteressa studiare il comportamento di una specie nel suo complesso e non quellodi ogni singolo individuo della specie. Altri esempi di fenomeni collettivi sono lanatalit, la nuzialit e la mortalit in cui le misure vengono ottenute mediante ilconteggio delle nascite, dei matrimoni e delle morti di un certo periodo.

    I fenomeni collettivi sono investigabili solo tramite una pluralit diosservazioni in qualche modo analoghe o, per essere pi precisi, i fenomenianalizzabili con metodi statistici sono quelli che si manifestano in modo variabilenei singoli individui e per cui sono disponibili pi osservazioni di analoga natura.Linsieme degli individui di interesse nel loro complesso costituisce il collettivoopopolazione statistica.

    Per poter studiare un fenomeno collettivo necessario, in prima analisi,stabilire quali siano gli elementi che costituiscono la popolazione di interesse. Uncollettivo, infatti, un insieme di individui o oggetti, ciascuno dei quali prende il

    nome di unit statistica, accomunati e resi omogenei da una o pi caratteristichedi interesse.

    Se vogliamo, ad esempio, studiare il fenomeno collettivo vendite di libriin un certo periodo in un certo luogo, esamineremo come popolazione statistica ilcollettivo dei libri venduti in quel periodo nel luogo prescelto: ogni libro venduto ununit statistica.

    Ogni fenomeno collettivo viene studiato mediante losservazione e lamisurazione di una o pi caratteristiche delle unit statistiche della popolazione diinteresse, ognuna delle quali denotata carattereo variabile, per sottolineare il

    fatto che pu presentarsi in modo diverso nelle diverse unit statistiche. In terminetecnico loperazione di osservazione e misura viene denotata rilevazione. Ciascuncarattere presente in ogni unit statistica con una ben determinata modalit.

    Esempio 2

    Si consideri un gruppo di studenti universitari. Per ogni studente possibilerilevare una serie di informazioni come:

    let;

    la data di nascita;

    il luogo di nascita;

    il sesso;

    la nazionalit;

    laltezza;

    il peso;

    8

  • 7/23/2019 SECS-S_05_A3

    9/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    il numero di fratelli;

    la Facolt;

    il corso di laurea;

    ecc.

    Tali informazioni costituiscono i caratteridi ogni unit statistica (studente)considerata.

    Se uno studente iscritto alla Facolt di Medicina ed un altro studente iscritto alla Facolt di Giurisprudenza, si dice che il carattere Facolt presenta nel

    primo studente la modalit Medicina e nel secondo studente la modalit"Giurisprudenza. Se due studenti sono nati entrambi a Milano allora il carattereluogo di nascita presenta nelle due unit statistica la medesima modalit

    Milano, mentre in una studentessa francese di 25 anni il carattere sesso presente con la modalit femmina, il carattere et con la modalit 25 ed ilcarattere nazionalit con la modalit Francese.

    Non sempre possibile definire a priori le modalit di un certo carattere inmodo oggettivo ed inequivocabile, anzi spesso la loro determinazione il risultatodi una scelta fra diverse alternative ed in cui si deve tener conto sia del problemaoggetto di studio sia del collettivo che si deve analizzare.

    I caratteripresenti in ununit statistica sono generalmente di natura assaidiversa. Alcune volte esprimono delle informazioni qualitative relative ad attributi

    o qualifiche (come il sesso, il colore dei capelli, lessere iscritti o no in una lista dicollocamento) e sono detti qualitativi.

    Altre volte esprimono la misura di qualche grandezza, come il reddito, ilpeso, laltezza, e sono, pertanto, caratteri quantitativi. In questo caso i caratterihanno la peculiarit di essere espressi da numeri che possibile sommare esottrarre fra loro una volta che sia stata definita ununit di misura.

    Le modalit dei caratteri qualitativi vengono in genere contraddistintemediante attributi, che specificano propriet dellunit a cui si riferiscono.Possiamo, ad esempio, distinguere gli uomini secondo lo stato civile (celibe,

    coniugato, divorziato, ) o secondo il sesso (maschile, femminile), i librisecondo il genere (giallo, fantascienza, rosa, ).

    Per tradurre in cifre i caratteri quantitativi occorre preliminarmente definireun processo di misurazione, che corrisponde a definire una scala e ununit dimisura da utilizzare per i confronti sulle unit statistiche di interesse. Se si vuolemisurare laltezza dei militari di leva di una certa caserma, si dovr decidere seesprimerlo in centimetri, in metri, con quante cifre decimali importantesottolineare che ogni misura non mai esatta ma sempre affetta da un certomargine di errore. Se, ad esempio, nel misurare una statura, si ottiene il valore, ci vuol dire semplicemente che il rilevatore ha osservato una

    9

  • 7/23/2019 SECS-S_05_A3

    10/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    misura che pi vicina a 178 anzich a 177 o 179: la staturax un qualche valorecompreso in un intervallo centrato su 178:

    cxc +

  • 7/23/2019 SECS-S_05_A3

    11/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Il numero di danni un carattere quantitativo discreto, trattandosi di unconteggio.

    La classificazione dei caratteri di fondamentale importanza, dato che possibile operare su di essi in modo differente proprio a seconda della natura del

    carattere.

    Infatti, su qualunque tipo di carattere possiamo fare confronti; possibile,infatti, distinguere le unit statistiche a seconda della diversa modalit e stabilirese due specifiche unit siano uguali o diverse.

    Possiamo distinguere le imbarcazioni di tipo A da quelle di tipo E e cos via.Solo per i caratteri quantitativi e qualitativi ordinati possibile stabiliregraduatorie, ovvero considerare un ordinamento.

    Possiamo stabilire, per esempio, una graduatoria delle imbarcazioni rispetto

    lanno di costruzione, o rispetto al numero di mesi di servizio o anche rispetto alnumero di danni subiti. Solo sui caratteri quantitativi possibile effettuare ancheoperazioni aritmetiche.

    Se consideriamo tutte le imbarcazioni di un certo tipo, possiamo sommare irispettivi danni e avere come risultato il totale dei danni subiti dalle imbarcazioniassicurate di quel tipo. Questa operazione pu servire per valutare il dannoglobale subito dalla compagnia relativamente a quello specifico tipo diimbarcazione nel periodo considerato.

    Nello schema seguente vengono riassunte le operazioni possibili in

    relazione ai diversi tipi di carattere.Operazioni Possibili

    Confronto OrdinamentoOperazioniaritmetiche

    qualitativo connesso qualitativo ordinato

    Tipo dicarattere

    quantitativo

    Esempio 4In uno studio americano si considerato il fenomeno delloccupazione e

    della mobilit sociale rilevando su un insieme di occupati di sesso maschile: iltipo di occupazione, il tipo di occupazione del padre, la situazione familiare diorigine distinguendo tra famiglie unite e famiglie divise e la razza,distinguendo tra bianchi e di colore.

    In questo caso tutti i caratteri considerati sono qualitativi sconnessi e quindi possibile solo effettuare confronti semplici.

    11

  • 7/23/2019 SECS-S_05_A3

    12/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Esercizio 4

    In una certa indagine vengono rilevati per ogni unit statistica: occupazione,regione di residenza, peso, altezza, numero di automobili possedute. Quali delleseguenti affermazioni falsa?

    a) La regione di residenza un carattere qualitativo sconnesso.

    b) Loccupazione un carattere qualitativo ordinato.

    c) Il peso un carattere quantitativo continuo.

    d) Il numero di automobili possedute un carattere quantitativo discreto.

    Svolgimento

    In questa situazione possiamo facilmente rifarci allesempio 4 per scoprire

    che certamente loccupazione un carattere qualitativo sconnesso elaffermazione b) falsa. facile anche verificare che tutte le altre sono vere.

    possibile allora stabilire che:

    Riguardo alloccupazione e alla regione di residenza sono possibili soloconfronti semplici.

    Per tutti gli altri caratteri sono possibili tutti i tipi di operazione consideratinello schema.

    Esercizio 5.

    Per unindagine statistica sulla popolazione italiana (residente) alla data31/12/2002, in cui interessi ilsessoe lostato civile, come possiamo identificare: ilcollettivo, lunit statistica, i caratteri da rilevare e le rispettive modalit?

    Svolgimento

    La definizione dellindagine identifica subito il collettivo costituito dallapopolazione italiana residente al 31/12/2002. Lunit statistica lindividuo dicittadinanza italiana residente al 31/12/2002. I caratteri da rilevare sono ilsessoelostato civilecon rispettive modalit:

    maschio, femmina;

    celibe/nubile, coniugato/a, divorziato/a, vedovo/a.

    1.2 LE FASI DI UNINDAGINE STATISTICA

    Lindagine statistica si realizza attraverso cinque fasi fondamentali, che necostituiscono una schematizzazione; i confini tra di esse in realt non sono sempre

    ben definiti. Possiamo denotare tali fasi:

    12

  • 7/23/2019 SECS-S_05_A3

    13/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    pianificazione;

    rilevazione;

    elaborazione;

    presentazione;

    interpretazione.

    1.2.1 PIANIFICAZIONE

    La prima fase di una qualunque ricerca relativa a un fenomeno collettivoconsiste nellapianificazione.

    Definizione.

    La pianificazioneconsiste nella definizione del fenomeno e degli obiettividellindagine, nellindividuazione del collettivo, delle unit statistiche, nella sceltadei caratteri del collettivo che interessano lo studio e nella definizione dellerelative modalit (per i caratteri qualitativi) o dei processi di misura (per i caratteriquantitativi).

    Esempio 5

    Si vuole studiare il fenomeno vendita di auto prodotte in Italia nel 1999 esi stabilisce che lobiettivo quello di studiare i gusti degli acquirenti in merito

    alla marca, la cilindrata, il colore. possibile da queste premesse identificare ilcollettivo, che consiste nelle auto prodotte in Italia vendute nel 1999: ogni auto ununit statistica. I caratteri di interesse sono: la marca dellauto (qualitativosconnesso), la cilindrata (quantitativo continuo, misurato convenzionalmente incc), il colore (qualitativo sconnesso). Le modalit dei caratteri qualitativi sonoidentificate anchesse dagli obiettivi:

    per la marca: FIAT, Alfa Romeo, Lancia, ;

    per il colore: bianco, blu, nero,

    Occorre, sempre, pianificare la rilevazione nei minimi dettagli in modo chenon vi siano ambiguit di nessun genere. necessario tener conto dei seguentipunti:

    1) definire con precisione la popolazione, lunit di rilevazione e lunitstatistica, in altre parole indicare con chiarezza una regola che consenta distabilire se ununit o non un elemento della popolazione di interesse;

    2) stabilire i caratteri quantitativi e qualitativiche interessa rilevare per ilperseguimento dellobiettivo dellindagine e definire le relative modalit diinteresse e scale di misura;

    13

  • 7/23/2019 SECS-S_05_A3

    14/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    3) indicare i mezzi tecnici per raccogliere le informazioni su tali caratteri(schede di rilevazione, questionari, );

    4) fissare lestensione della rilevazionein ordine al tempo, allo spazio, alledisponibilit dei mezzi tecnici e finanziari.

    Per quanto riguarda il punto 1), la popolazione di riferimento vienedeterminata direttamente nella fase di definizione degli obiettivi. Lunit statisticae lunit di rilevazione vengono analogamente definite dagli obiettivi e possononon coincidere. Questo avviene se lunit di rilevazione costituita da pi unitelementari, su ciascuna delle quali interessa raccogliere informazioni. Adesempio, nel corso del censimento della popolazione residente in Italia, lunit dirilevazione la famiglia, infatti, in sede di raccolta delle informazioni, ad ognifamiglia viene fornito un modulo da compilare. Nel modulo, per, si richiedono lenotizie su ciascun componente del nucleo famigliare: ogni componente ununitstatistica.

    Anche nel caso dellindagine sulle auto dellesempio 5 verosimile chelunit di rilevazione sia diversa dallunit statistica. infatti immaginabile chelunit di rilevazione sia il concessionario, che, per ogni unit statistica (auto difabbricazione italiana venduta nel 1999), riempie un modulo di rilevazione oscheda contenente le informazioni sui tre caratteri di interesse. Dal punto di vistatecnico, lo strumento di rilevazione ragionevolmente una semplice scheda(cartacea o elettronica, se i dati sono raccolti via Internet), del tipo di quellariportata sotto.

    Concessionario.. Data della vendita..

    n. dordine dellauto venduta.. Marca..Cilindrata.. Colore..

    Osserviamo che le prime tre informazioni raccolte permettono di identificareunivocamente lunit statistica, in modo da non rischiare di contare pi volte unastessa unit o, viceversa, di trascurarne qualcuna.

    Terminata la fase di pianificazione, in cui occorre anche prevedere gli aspettiprincipali delle successive come:

    piano delle elaborazioni;

    piano delle rappresentazioni (tabelle, grafici, ecc.);

    piano della diffusione dei dati;

    possibile iniziare la fase di rilevazione.

    14

  • 7/23/2019 SECS-S_05_A3

    15/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    1.2.2 RILEVAZIONE

    Definizione.

    La rilevazione quel complesso di operazioni attraverso le quali si

    acquisiscono le informazioni sulle caratteristiche (o caratteri) di interesse perciascuna unit statistica del collettivo considerato; da questa fase scaturiscono idati statistici elementari o dati grezzi, che entrano a far parte della tabellaunit/caratteri, che costituisce la matrice dei dati.

    Supponiamo di aver riempito le schede relative alle auto secondo il modelloriportato sopra, la matrice dei dati una semplice tabella in cui a ogni rigacorrisponde ununit statistica e su ogni colonna registrata la modalit o lamisura di uno dei caratteri rilevati. La prima colonna contiene le informazioni cheidentificano lunit statistica.

    Tabella 1.1 Tabella unit/caratteri o matrice dei dati relativa allindagine sulle auto

    Unit statistica(concessionario,

    data,n)Marca Cilindrata Colore

    Alfa Romeo 1400 argento FIAT 1100 blu

    A volte, la rilevazione dei dati riguarda tutte le unit statistiche dellapopolazione di interesse: in tal caso si dice totale, come nel caso del censimentodella popolazione, che esamina tutti gli abitanti di un territorio, o nellesempiodelle auto.

    Altre volte la rilevazione si limita a esaminare una parte soltanto delle unitstatistiche ed chiamata parziale. Il sottoinsieme di popolazione esaminato in unarilevazione parziale si chiama campione.

    evidente che la raccolta dei dati di tipo totale pi significativa di quelladi tipo campionario. In genere si fanno raccolte di tipo campionario sia perlimpossibilit della raccolta totale sia per il suo eccessivo costo.

    Supponiamo, per esempio, di voler prevedere il risultato delle elezioni.Potremo intervistare tutti i votanti? Ovviamente no. Dunque siamo costretti aintervistarne solo una parte, un campione. La nostra speranza che leinformazioni ottenute siano molto vicine a quelle che si riferiscono allintera

    popolazione, ma non possiamo sperare che siano identiche.

    Per agevolare larchiviazione e le elaborazioni i caratteri qualitativi vengonogeneralmente codificatiattraverso una relazione biunivoca tra le loro modalit eun opportuno insieme numerico. Se consideriamo nuovamente la tabella dei dati

    15

  • 7/23/2019 SECS-S_05_A3

    16/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    sulle auto vendute, possiamo porre, a titolo di esempio, le seguenti corrispondenzebiunivoche:

    Marca: FIAT = 1, Alfa Romeo = 2,

    Colore: Argento = 1, Blu = 2, In questo modo la tabella unit/caratteri contiene solo valori numerici

    (anche il concessionario pu essere codificato in modo analogo).

    Tabella 1.2 Tabella unit/caratteri o matrice dei dati relativa allindagine sulle auto (informa codificata)

    Unit statistica(concessionario,

    data,n)Marca Cilindrata Colore

    2 1400 1 1 1100 2

    1.2.3 ELABORAZIONE

    Definizione.

    Lelaborazione quel complesso di operazioni attraverso le quali i datigrezzi vengono prima codificati e poi sintetizzati nei dati derivatipi facilmenteinterpretabili. In alcuni casi indispensabile lelaborazione dei dati elementari,come, per esempio, nelle consultazioni elettorali.

    Esempio 6

    Quando si svolge una consultazione elettorale, il risultato, per quantoriguarda i partiti presenti, ottenuto mediante lo spoglio di tutte le schede votate,ovvero il conteggio dei voti espressi, e il successivo calcolo delle percentuali deivoti attribuiti a ciascun partito. Senza tale elaborazione non sarebbe possibilestabilire gli esiti della consultazione.

    1.2.4 PRESENTAZIONE

    Definizione.

    La presentazione lesposizione dei grafici, delle tabelle, ecc., dove sonostati sintetizzati i dati rilevati.

    Le tabelle mostrate in TV con i risultati elettorali sono presentazioni di datistatistici.

    16

  • 7/23/2019 SECS-S_05_A3

    17/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    1.2.5 INTERPRETAZIONE

    Definizione.

    Linterpretazione la spiegazione dei risultati, con le osservazioni finali e

    leventuale collegamento con altre indagini.

    Riprendiamo in esame il caso dei dati relativi ad una consultazioneelettorale; questi vengono semplicemente presentati in forma di tabelle e grafici econfrontati con i risultati ottenuti in consultazioni precedenti. Si cerca quindi diottenere i commenti dei rappresentanti dei Partiti e degli studiosi di politica(politologi), che non sono altro che interpretazioni.

    1.3 PRINCIPALI MODALIT DI RILEVAZIONE DEI DATI STATISTICILe rilevazioni statistiche possono essere continue, quando si svolgono

    senza interruzioni (come quelle relative alle nascite, ai matrimoni, ai decessi,quelle effettuate dai rilevatori sismici, meteorologici, osservatori epidemiologici).

    Sono periodiche le rilevazioni effettuate ad intervalli regolari di tempo,come il censimento della popolazione o delle imprese (ogni dieci anni), i prezzi alconsumo nelle citt campione per il calcolo dellaumento del costo della vita (ognimese).

    Vengono dette occasionalile rilevazioni effettuate in circostanze particolari(sondaggi pre-elettorali, indagini sulle opinioni in merito ad argomenti vari, ).

    Lo strumento di rilevazione varia a seconda dello scopo della rilevazione edel tipo di caratteri da rilevare. Noi ci occuperemo di due tipi di metodologie dirilevazione: lintervista e la rilevazione da un archivio precedentemente

    predisposto, oltre che interessarci dei relativi strumenti di rilevazione: ilquestionarioe lascheda di rilevazione.

    1.3.1 LINTERVISTA: RILEVAZIONE ATTRAVERSO QUESTIONARIO

    Tra i metodi di acquisizione dei dati da popolazioni umane, o comunque dapopolazioni le cui unit sono connesse allorganizzazione umana (per esempio:imprese, scuole, aziende agricole), particolare rilievo assume lintervista. Questa

    consiste nel rivolgere alcune domande ad alcune unit che compongono lapopolazione di interesse (eventualmente tutte) e nel registrare le risposte a talidomande. Per fare unintervista le domande vengono raccolte in un appositomodello detto questionario.

    La struttura del questionario viene opportunamente progettata in relazionealla tecnica di intervista utilizzata: intervista diretta, autocompilazione, intervistatelefonica. La scelta della tecnica di intervista legata agli obiettivi della ricerca,alle caratteristiche della popolazione di riferimento, ai tempi e alle risorsedisponibili.

    17

  • 7/23/2019 SECS-S_05_A3

    18/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Esaminiamo sinteticamente i pregi e i difetti di ognuna delle tre tecniche.

    Nellintervista diretta lelemento pi influente la presenza fisicadellintervistatore, il quale controlla direttamente lidentit del rispondente,instaura un contatto umano tale da permettergli di ottenere pi facilmente le

    risposte, pu indurre a rispondere in maniera pi precisa alle domande fornendodelucidazioni su parti del questionario. Daltra parte, per, se lintervistatore non ben addestrato, la sua interazione con lintervistato pu portare a risultati deltutto negativi: per esempio, condizionando le risposte, sbagliando laformulazione e lordine delle domande o conducendo lintervista conatteggiamento tale da infastidire lintervistato.

    La tecnicadellautocompilazione molto efficace se la popolazione presa inesame ben disposta a collaborare alla ricerca. Questa tecnica permette di ridurresensibilmente i costi dellindagine e ridurre al minimo lorganizzazione dellavoro sul campo. Il questionario per autocompilazione pu essere inviato o per

    posta (indagine postale), o consegnato da personale specializzato con incarico diritirarlo una volta compilato. Tuttavia questa tecnica pu essere causa di seri

    problemi dovuti allalta percentuale di mancati ritorni, allautoselezione degliintervistati e alla restituzione di questionari incompleti.

    Lintervista telefonica sta avendo nei paesi pi sviluppati una notevolediffusione determinata principalmente dalla presenza del telefono in quasi ognifamiglia. Gli abbonati al servizio telefonico crescono sempre di pi, coprendoogni tipo di fascia sociale, etnica e geografica, consentendo di effettuare indaginitelefoniche praticamente su ogni tipo di fenomeno. Tale tipo di intervista, per,richiede che la quantit di domande non sia troppo elevata e che queste siano

    formulate in modo molto semplice.

    Qualunque sia la tecnica scelta sempre opportuno preavvertirelintervistato in anticipo spiegando gli scopi e le modalit previste per lindaginein modo da ottenere una migliore collaborazione.

    1.3.2 LA PREDISPOSIZIONE DEL QUESTIONARIO

    Tale fase si colloca logicamente dopo che sia stato effettuato lo studioapprofondito del problema e, conseguentemente, siano stati specificati gli obiettivie tutti gli altri elementi che intervengono nella pianificazione dellindagine

    (popolazione oggetto di studio, tecnica di rilevazione, costi e tempi previsti,metodi e strumenti per lelaborazione).

    Possiamo considerare il questionario come un strumento di misura, inquanto, nelle indagini statistiche in particolare, costituisce lo schema di unaintervista strutturata, la cui funzione quella di raccogliere informazioni suicaratteri oggetto dellindagine, operazione assimilabile a un processo di misura.

    La rilevazione tramite questionario pu generare errori. Tali erroripossonoessere causati da diversi soggetti:

    18

  • 7/23/2019 SECS-S_05_A3

    19/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    dal ricercatore, durante la fase di progettazione del questionario, nellaquale pu commettere, per esempio, errori di formulazione delle domande, errorinella sequenza in cui vengono poste le domande, nella lunghezza del questionario,nella presentazione grafica, nella scelta del periodo di tempo in cui deve esseresottoposto il questionario agli intervistati ecc.;

    dallintervistato, che, incorrendo in vuoti di memoria nel cercare diricordare gli eventi passati, o addirittura ignorando completamente alcuniargomenti, assume un comportamento reticente, approssimando la realt dei fatti;

    dallintervistatore, che pu, con la sua presenza, condizionare le rispostealle domande oppure registrare erroneamente le risposte.

    necessario, quindi, prevenire e limitare questo tipo di erroripredisponendo in maniera opportuna il questionario; infatti, se questo benprogettato, non solo permette di evitare gli errori, ma pu agire anche da stimolo

    positivo sia per lintervistato sia per lintervistatore, aumentando la quantit e laqualit delle informazioni.

    In genere, bisogna tener conto di alcuni aspetti:

    a) evitare che la formulazione delle domande sia troppo generica o, alcontrario, troppo tecnica (contenendo termini tecnici usati solo da una piccola

    parte di persone o parole di senso ambiguo o con un significato diverso da quellodi uso corrente), poich ci potrebbe provocare fraintendimenti da parte di chirisponde ai quesiti;

    b) le domande devono provocare un limitato sforzo di memoria o per lomeno facilitare il ricordo corretto di un evento passato;

    c) le domande devono evitare di creare stati di imbarazzo o di tensionepsicologica tra lintervistato e lintervistatore;

    d) le domande devono essere poste in maniera tale da non indirizzare ilrispondente verso una risposta particolare;

    e) le domande devono essere poste in successione in modo tale che unadomanda non possa influenzare le risposte alle successive domande.

    Un altro aspetto importante di cui si deve tenere conto il grado di difficoltdelle risposte. La capacit dellintervistato a rispondere correttamente alledomande non sempre costante, ma varia in relazione alla durata dellintervista.

    Nella fase iniziale dellintervista, lintervistato prende confidenza conlintervistatore, comprende il funzionamento del questionario e si adegua allinguaggio utilizzato nel formulare le domande; opportuno, dunque, nonintrodurre subito domande troppo complesse. Nella fase finale la concentrazionedellintervistato diminuisce ed perci opportuno non sottoporlo a domande cheesigono particolari sforzi di elaborazione. Se lintervista troppo lunga, allora,

    19

  • 7/23/2019 SECS-S_05_A3

    20/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    anche domande piuttosto semplici possono far sorgere dei problemi, se poste perultime.

    Un tipo di domanda che permette allintervistatore di ridurre il numero didomande da sottoporre allintervistato e quindi la durata dellintervista la

    domanda filtro: questa consente di passare direttamente da una batteria didomande a unaltra, evitando di sottoporre allintervistato domande nonpertinenti.

    Per esempio, in unindagine riguardante le attivit sportive, consideriamo ladomandaPratichi qualche attivit sportiva?Se la risposta affermativa si passa aesaminare la parte del questionario che riguarda gli sport che vengono praticati, lafrequenza con cui si praticano, il luogo dove vengono praticati, ecc.; se la risposta negativa, si passa alla parte del questionario riguardante i motivi che spingono anon praticare nessuno sport.

    Le domande filtro hanno anche la funzione di evitare che lintervistato sisenta obbligato a rispondere, in maniera non veritiera, a qualche domanda.

    Supponiamo di porre una domanda del tipo Che libri hai letto nellultimomese?a un individuo che in tale periodo non ha letto nessun libro. Il fatto che alladomanda sia dato per scontato che si sia letto almeno un libro, potrebbe far

    percepire allindividuo che il suo comportamento non valutato positivamenteportandolo a dare una risposta non veritiera. Per evitare questo inconvenientepotremmo far precedere questa domanda da una del tipo Hai letto un libronellultimo mese? In questa maniera solo agli individui che rispondonoaffermativamente si chieder quali libri hanno letto.

    1.3.3 I DIVERSI TIPI DI DOMANDE

    Le domande poste in un questionario si possono differenziare sia per ilmodo in cui vengono formulate, sia per il tipo di risposte previste.

    Le domande possono essere poste in maniera direttaquando si chiama incausa direttamente lintervistato:

    Ti piace andare al cinema?

    oppure possono essere rivolte in maniera indiretta, quando ci si riferisce auna generica terza persona o a un gruppo di persone con caratteristiche simili:

    Secondo te quante merendine bene consumare giornalmente?

    La caratteristica pi importante che differenzia le domande il tipo dirisposta prevista. Si possono adottare le domande a risposta semplice, cheammettono solamente una risposta fra quelle possibili, oppure domande a rispostamultipla, che consentono di poter scegliere contemporaneamente pi di unarisposta.

    20

  • 7/23/2019 SECS-S_05_A3

    21/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Esempio 7. Domanda a risposta semplice.

    Hai molti amici?

    Molti Abbastanza Pochi o pochissimi Non ne ho

    Notiamo che le quattro risposte sono tra loro incompatibili, poich la sceltadi una esclude necessariamente le restanti.

    Esempio 8. Domanda a risposta multipla.

    A parte lo sport, quali altre attivit pratichi con continuit? (puoi dare pirisposte)

    Nessuna

    Sono iscritto a associazioni culturali

    Faccio parte di un gruppo di volontariato sociale

    Sono iscritto a una associazione ricreativa (anche scout)

    Partecipo a un gruppo ambientalistico

    Frequento o sono iscritto a un partito o gruppo politico

    Faccio parte di gruppi di tifoseria organizzata

    Suono con un complesso musicaleRecito in un gruppo teatrale

    Frequento gruppi religiosi

    Altro (specificare)

    possibile, in alcuni casi, ricondurre una domanda a risposta multipla auna domanda a risposta singola adottando il criterio della prevalenza, ciodomandando allintervistato di indicare la pi importante fra quelle possibili.

    La domanda dellesempio 8 potrebbe essere riformulata nel seguente modo:

    A parte lo sport, quale altra attivit pratichi preferibilmente?

    In questo caso lincompatibilit fra le risposte viene indotta dallaggiuntadel termine preferibilmente.

    Le domande possono essere classificate anche rispetto al grado di libertlasciato allintervistato nel rispondere a queste. Si pu passare dalla massimaflessibilit, data dalle domande apertenelle quali si possono personalizzare lerisposte, alla massima rigidit data dalle domande strutturate o chiuse ove le

    21

  • 7/23/2019 SECS-S_05_A3

    22/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    risposte sono predefinite. Naturalmente tra queste due forme estreme possibileformulare domande con diverso grado di flessibilit.

    Una domanda aperta lascia allintervistato piena libert nel rispondere a unquesito, permettendogli di utilizzare il linguaggio che pi gli naturale e senza far

    trapelare alcun suggerimento che lo possa condizionare nella risposta.

    Esempio 9. Domanda a risposta aperta.

    Indica i tre cantanti o complessi musicali che preferisci

    Le domande aperte possono essere utilizzate con buoni risultati quando nonsi conoscono molti elementi del fenomeno indagato e si vogliono trarre, daglistessi intervistati, nuovi dettagli. Daltra parte, per, un uso eccessivo di talidomande nel questionario comporta uno svantaggio di natura organizzativa inquanto serve pi tempo per rispondere e, successivamente, necessario ricondurre

    a un unico codice identificativo le diverse espressioni usate per esprimere unconcetto equivalente; inoltre, rispondere a un questionario in cui vi sono domandeaperte, pu richiedere un eccessivo sforzo di elaborazione, cosicch la qualitdelle risposte potrebbe dipendere dal livello culturale dellintervistato. Se poimancano opinioni personali facile che lintervistato ricada in luoghi comuni.

    La domanda strutturata, diversamente da quella aperta, considera un insiemechiuso di risposte alternative, predefinite durante la fase di progettazione delquestionario. Quindi il rispondente dovr scegliere una (o pi se si tratta didomanda multipla) fra le possibili risposte.

    Esempio 10. Domanda a risposta chiusa.Quante volte ti capitato di sfogliare un giornale quotidiano nellultima

    settimana?

    Sportivo Non Sportivo

    Mai

    1 volta

    2/3 volte

    Tutti i giorni o quasi

    La fase pi delicata, nella costruzione di tali domande, consiste nella sceltadellinsieme delle risposte; infatti, non sempre si a conoscenza di tutte le

    possibili modalit che corrispondono ad un fenomeno. Talvolta viene inclusa trale possibili risposte una modalit aperta altro, che pu anche prevedere unospazio dove inserire la specificazione relativa a modalit non previste dalle

    22

  • 7/23/2019 SECS-S_05_A3

    23/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    risposte stampate. Questo tipo di domanda prende il nome di domandasemistrutturata. Un esempio la domanda a risposta multipla vista prima.

    Esempio 11.

    Consideriamo il questionario predisposto dallIstituto Nazionale di Statistica(ISTAT) in occasione delliniziativa denominata censimento a scuola e riportatoin figura 1.2.

    In tale questionario, suddiviso in diverse sezioni, di cui una di tipoanagrafico (dati personali) che non prenderemo in considerazione, sono previstedomande di tutti i tipi considerati sopra:

    la domanda 7 una domanda filtro; la domanda 9 strutturata a risposta semplice e chiusa;

    la domanda 6 semistrutturata a risposta semplice; la domanda 8 semistrutturata a risposta multipla nella prima colonna e arisposta semplice nella seconda.

    Esercizio 6.

    Riconoscere le diverse tipologie dei caratteri considerati nel questionarioISTAT, comprese le informazioni anagrafiche.

    Esercizio 7.

    Predisporre lo schema di tabella unit/caratteri per archiviare i dati del

    questionario ISTAT, comprese le informazioni anagrafiche.

    Figura 1.2Questionario

    Dati personali

    1. Tu sei?Maschio Femmina

    2. Quando sei nato/a? (giorno) (mese) (anno)

    3. Dove sei nato/a?(indica il comune o lo Stato estero)

    4. Quanto sei alto/a(dai una risposta in centimetri)

    5. Quante persone vivono in casa tua (tecompreso)?

    7. Hai fatto colazione stamattina prima divenire a scuola?

    (metti una crocetta nella casella accanto alla risposta)S No

    (se la risposta Nopassa subito al quesito 8 altrimentirispondi qui di seguito)

    7.1 Stamattina hai mangiato:( possibile pi di una scelta)

    latte caff e latte

    latte e cacao succo di frutta

    pane/fette biscottate biscotti

    dolce fatto in casa brioche/cornetto

    yogurt merendina

    cereali marmellata/cioccolato spalmabile

    altro

    8. Quali fra queste attivit pratichi nel

    23

  • 7/23/2019 SECS-S_05_A3

    24/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Numero delle persone

    5.1 Hai fratelli o sorelle?Si No

    5.2 Quanti fratelli o sorelle sono pi piccoli dite o hanno la tua stessa et?(indica il numero nella casella)

    Fratelli Sorelle

    5.3 Quanti fratelli o sorelle sono grandi di te?(indica il numero nella casella)

    Fratelli Sorelle

    Aspetti della vita quotidiana

    6. Con quale mezzo sei venuto/a a scuolastamattina?(se hai utilizzato pi di un mezzo, indica quello con cui hai

    compiuto il tratto pi lungo)a piedi con i mezzi pubblicicon lo scuolabus in automobilein moto/motorino in biciclettaaltro

    tempo libero e quale preferisci?(fra le attivit comprese nellelenco che segue, indica nella

    prima colonna le tre che pratichi di pi e nella secondacolonna la tua preferita tra quelle che pratichi)

    mi vedo con gli amici in casa mia o altrui

    mi vedo con gli amici in luoghi aperti

    leggo

    pratico uno sport o vado in palestra

    gioco con la Playstation

    gioco col computer (Internet o altro)

    canto o suono uno strumento musicale

    ballo in discoteca o altrove

    guardo la TV

    vado al cinema

    vado al teatro

    frequento sale giochi

    altro

    9. Quanti libri scolastici hai letto lannoscorso?

    nessunouno o dueda tre a cinqueda sei a diecioltre dieci

    1.3.4 LA RILEVAZIONE DA UN ARCHIVIO PRECEDENTEMENTE PREDISPOSTO

    Unaltra tipologia di rilevazione la consultazione di registri, ruoli, archivi,ecc., predisposti in precedenza, da cui le informazioni sono generalmente estratteattraverso schede di rilevazione. Con la scheda si rilevano alcuni caratteri

    predeterminati delle unit che formano il collettivo, attraverso domandeprefissate e dando, in molti casi, per ogni risposta la scelta tra una preindividuatarosa di risposte. Le domande sono, quindi, standardizzate e spesso, o totalmente oin parte, lo sono anche le risposte. Ci comporta che, in questo caso, le rispostesono turbate in minima parte da errori di interpretazione; le informazioni ottenutedalle varie schede sono, quindi, analizzabili con metodi statistici in modosemplice. Le schede si usano per indagare su fenomeni relativi a collettivi bendefiniti e generalmente di elevata numerosit.

    Nel redigere la scheda, analogamente a quanto visto per il questionario, perciascuna domanda va effettuata la scelta se porla come domanda che non prevederisposte prefissate (aperta) o come domanda con risposte fissate in anticipo(strutturata).

    1.3.5 IL PROBLEMA DEI DATI INCOMPLETI

    Un problema legato alla rilevazione da archivio quello dei dati incompleti.Nelle schede di archivio possono non essere stati registrati dei dati inerenti adalcune variabili di interesse per lindagine scientifica, ma non ritenute di interesse

    24

  • 7/23/2019 SECS-S_05_A3

    25/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    al momento della predisposizione dellarchivio, che , in genere, dettata da altreesigenze ed obiettivi, magari solo di tipo amministrativo. Mentre la rilevazione

    per questionario risulta generalmente completa, soprattutto quando lindagine assistita e guidata dallintervistatore che segnala subito eventuali valori mancanti,inducendo il soggetto intervistato a rispondere alle domande, impossibile,

    invece, riacquisire le informazioni perse quando si rilevano i dati da un archivioprecostituito. Per chiarire consideriamo il seguente esempio.

    Esempio 12.

    Si vuole indagare, attraverso i registri anagrafici, su alcune caratteristichedei bambini nati nel 1928. Si vogliono, in particolare, rilevare i seguenti caratteri:sesso, luogo di nascita, ordine di generazione, vitalit, peso alla nascita, et dellamadre.

    Possiamo predisporre una scheda del tipo riportato in figura 1.3

    Figura 1.3SCHEDA NOTIZIE

    NATI NEL 1928

    Sesso: M FLuogo di nascita (comune):

    Data di nascita:

    Ordine di generazione:Vitalit: nato vivo

    nato mortoPeso alla nascita:kgEt della madre: anni

    Consultando i registri dellanagrafe, per, dobbiamo riscontrare che nontutti i caratteri di interesse sono rilevabili. Infatti, la scheda anagrafica di nascita

    che era in vigore nel 1928 non prevedeva la registrazione del peso alla nascita,che pertanto, non pu essere rilevato dallarchivio scelto.

    25

  • 7/23/2019 SECS-S_05_A3

    26/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    SECONDA UNIT

    26

  • 7/23/2019 SECS-S_05_A3

    27/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    2 ELABORAZIONE DEI DATI: LE DISTRIBUZIONI STATISTICHE

    2.1 ELABORAZIONE DEI DATI E PRESENTAZIONE DEI RISULTATIUna volta imparato ad impostare unindagine statistica e a predisporre gli

    strumenti di rilevazione dei dati relativi ad un fenomeno collettivo di interesse(questionari, schede), necessario imparare a sintetizzare i dati raccolti,organizzati nella matrice dei dati grezzi o tabella unit/variabili, medianteopportune elaborazioni e a presentarli in modo chiaro mediante tabelle, indicistatistici e rappresentazioni grafiche. Partiamo dallanalisi di un esempio reale diutilizzo di analisi statistiche.

    Esempio 1. Una sperimentazione della Texaco (1)

    Consideriamo i dati raccolti in un esperimento condotto dalla Texaco negliStati Uniti per valutare le prestazioni di un nuovo tipo di silenziatore per auto. Il

    rapporto sullesperimento fu presentato alla Commissione lavori pubblici delSenato degli Stati Uniti il 26 giugno 1973. In tale rapporto si sosteneva che leprestazioni del nuovo silenziatore erano almeno pari a quelle del tipo standard. Lerilevazioni in questione si riferiscono a 36 unit statistiche (auto). I dati sonoriportati in tabella 2.1. Il livello di rumore misurato in decibel. Le codifichescelte per i caratteri qualitativi sono le seguenti:

    Dimensione dellauto:

    1: auto di piccola dimensione;

    2: auto di media dimensione;3: auto di grande dimensione;

    Tipo di silenziatore:

    1: silenziatore standard;

    2: silenziatore di nuovo tipo (Filtro Octel);

    Lato di rilevazione:

    1: lato destro;

    2: lato sinistro.

    27

  • 7/23/2019 SECS-S_05_A3

    28/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Tabella 2.1 Matrice dei dati grezzi rilevati e presentati nel rapporto per il Senatodegli Stati Uniti dalla Texaco nel 1973

    Livello di

    rumore (decibel)

    Dimensione

    dellauto

    Tipo di

    silenziatore

    Lato

    di rilevazione810 1 1 1820 1 1 1820 1 1 1840 2 1 1840 2 1 1845 2 1 1785 3 1 1790 3 1 1785 3 1 1835 1 1 2835 1 1 2835 1 1 2845 2 1 2855 2 1 2850 2 1 2760 3 1 2760 3 1 2770 3 1 2820 1 2 1820 1 2 1

    820 1 2 1820 2 2 1820 2 2 1825 2 2 1775 3 2 1775 3 2 1775 3 2 1825 1 2 2825 1 2 2825 1 2 2

    815 2 2 2825 2 2 2825 2 2 2770 3 2 2760 3 2 2765 3 2 2

    Questo insieme di dati sar utilizzato per effettuare alcune analisi allo scopodi capire in base a quali risultati il rapporto traeva le sue conclusioni.

    28

  • 7/23/2019 SECS-S_05_A3

    29/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Innanzitutto cerchiamo di capire con quale criterio sono stati raccolti i datie, in particolare, con quale criterio sono state scelte le unit statistiche.Dallanalisi delle ultime tre colonne della tabella si evince che lo schema adottato consistito nel misurare il carattere quantitativo livello di rumore su un certonumero di unit statistiche (3) uguali tra loro per le modalit dei caratteri

    qualitativi considerati e diverse per almeno uno di tali caratteri da ogni altrogruppo di tre. Infatti, considerando tutte le possibili combinazioni delle modalitrelative ai tre caratteri qualitativi, si ha che il numero totale di tali combinazioni siottiene dal prodotto del numero di modalit relative al carattere dimensionedellauto (3), per il numero di modalit relative al carattere tipo di silenziatore (2),

    per il numero di modalit relative al carattere lato di rilevazione (2). Il risultato 12. Considerando tre replicazioni di ogni combinazione si arriva al numero totaledi unit statistiche analizzate (36).

    Per semplificare il problema definiamo tipologia dellunit statistica ilcarattere con 12 modalit che prende in considerazione tutte le combinazioni di

    modalit dei tre caratteri qualitativi. In questo modo possiamo ricodificare i datirelativi ai caratteri qualitativi come mostrato in tabella 2.2 e ottenere una matricedei dati semplificata (tabella 2.3).

    Tabella 2.2 Tabella di ricodifica dei dati: corrispondenza biunivoca tra lecombinazioni possibili dei tre codici relativi alle modalit dei trecaratteri qualitativi e linsieme numerico {1,2,3,4,5,6,7,8,9,10,11,12}

    Tipologia

    dellauto

    Dimensione

    dellauto

    Tipo

    di silenziatore

    Lato

    di rilevazione1 1 1 12 1 1 23 1 2 14 1 2 25 2 1 16 2 1 27 2 2 18 2 2 29 3 1 1

    10 3 1 211 3 2 112 3 2 2

    29

  • 7/23/2019 SECS-S_05_A3

    30/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Tabella 2.3 Matrice dei dati ottenuta dopo la ricodifica

    Tipologiadellauto Livello dirumore(decibel) Tipologiadellauto

    Livello di

    rumore(decibel)

    1 810 7 8201 820 7 8201 820 7 8252 835 8 8152 835 8 8252 835 8 8253 820 9 7853 820 9 7903 820 9 7854 825 10 7604 825 10 7604 825 10 7705 840 11 7755 840 11 7755 845 11 7756 845 12 7706 855 12 7606 850 12 765

    Sulla base della nuova matrice dei dati grezzi pi semplice riscontrarealcuni fatti. Per prima cosa si nota che le tre misure relative ad ogni tipologia diauto sono molto vicine tra loro e spesso risultano uguali. Il numero di unitstatistiche scelto per ogni tipologia , pertanto, sufficiente a studiare il fenomenodi interesse dato che, aumentando il numero di unit, si otterrebbero ripetizioni dimisure uguali o molto vicine con nessun ulteriore apporto di informazione. Fra letre caratteristiche considerate per definire la tipologia, la pi influente sul livellodi rumore sembra essere la dimensione dellauto. Emerge, in particolare, che leauto di dimensione media sono tendenzialmente pi rumorose di quelle di piccola

    dimensione che, a loro volta, sembrano pi rumorose di quelle grandi. Il confrontosi effettua considerando che le prime 12 misure uguali sono relative ad autopiccole, le seconde 12 misure ad auto medie, le ultime 12 ad auto grandi. Perquanto riguarda il lato di rilevazione sembrerebbe che per le auto piccole sia pirumoroso il lato sinistro, per le medie ci sia sostanziale equivalenza, mentre per legrandi sia pi rumoroso il lato destro. Queste osservazioni sono possibiliconsiderando che il lato di rilevazione destro corrisponde ad un numero disparinella codifica della tipologia e il lato sinistro ad un numero pari. Laspetto pidifficile da evidenziare quello legato proprio alle differenze dovute ai due

    possibili tipi di silenziatore. Osserviamo ancora che tutte le considerazioni svoltefin qui sono state possibili solo in virt della semplicit del problema e della

    30

  • 7/23/2019 SECS-S_05_A3

    31/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    limitata numerosit dei dati e, comunque, la semplice analisi diretta della tabellanon ci permette alcuna considerazione immediata relativamente allaspetto dimaggior interesse, vale a dire il confronto tra i due filtri.

    Per effettuare correttamente questo confronto abbiamo bisogno di alcuni

    metodi generali per sintetizzare i dati. Prima di introdurre tali metodi, per,analizziamo un esempio di presentazione di dati effettuato dallISTAT (lesempio tratto dal sito: www.istat.it).

    2.2 LE DISTRIBUZIONI STATISTICHE UNIVARIATEEsempio 2.Listruzione in Italia

    Il livello di istruzione della popolazione Italiana si molto elevato negliultimi decenni: stato recuperato il ritardo nella scolarizzazione di base rispettoagli altri paesi avanzati ed aumentato significamene il tasso di partecipazione ai

    cicli di studio superiori. Sono soprattutto i giovani ad essere pi istruiti: lapercentuale di persone che hanno proseguito gli studi dopo la licenza media, cioche hanno conseguito una qualifica professionale, la maturit o la laurea, del54,4% per i giovani fra i 25 e 34 anni, rispetto al 35,2% per la popolazione fra i 35e 64 anni. In altri termini, oltre la met delle giovani generazioni ha proseguito econcluso gli studi dopo la scuola media, mentre soltanto un terzo dellegenerazioni precedenti aveva fatto lo stesso.

    Figura 2.1Persone di 25-64 anni per classe di et e titolo di studi

    Anno 1999, composizioni percentuali

    5,7

    39,9

    36,4

    8,0

    10,0

    32,632,2

    5,7

    20,7

    8,8

    laurea, dottorato diploma di maturit qualifica professionale l icenza media licenza elementare,

    nessun titolo

    25-34 anni

    35-64 anni

    Fonte: Istat, Rilevazione trimestrale sulle forze di lavoro, media 1999

    Il mezzogiorno risulta svantaggiato: sono inferiori lincidenza dellapopolazione di 15 anni e pi con qualifica professionale (2,8% rispetto a 5,2%

    31

  • 7/23/2019 SECS-S_05_A3

    32/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    della media nazionale) e, in misura minore, la quota dei maturi (23,0% rispetto a23,1%) e dei laureati (6,1% rispetto a 6,7%).

    Figura 2.2Persone di 15 anni e pi per titolo di studio e ripartizione geografica.

    Anno 1999, composizioni percentuali

    31,832,1

    7,4

    22,0

    6,7

    31,430,2

    4,6

    25,9

    7,9

    33,734,5

    2,8

    22,9

    6,1

    laurea, dottorato diploma di maturit qualifica professionale l icenza media licenza elementare,

    nessun titolo

    Nord

    Centro

    Mezzogiorno

    Fonte: Istat, Rilevazione trimestrale sulle forze di lavoro, media 1999

    Chiediamoci ora come sono stati ottenuti i risultati mostrati nelle figure ecommentati nel testo dellISTAT. Per imparare ad effettuare le sintesi e lerappresentazioni grafiche proposte consideriamo un altro esempio semplice su cuiriprodurremo lo stesso tipo di analisi.

    Esempio 3.Alcuni dati relativi ad unindagine sulle vacanze1

    Supponiamo di voler rilevare il numero di viaggi per vacanze effettuati nel1999 dagli italiani e di utilizzare per questo un questionario come quello riportatonel seguito. Intervistiamo poi alcune persone alluscita di un supermercato eriportiamo i dati relativi a 30 unit statistiche (fig. 2.3).

    1Lindagine fa parte dellattivit svolta da Fabio Anastasia, Patrizia Fantasia, Anna MariaFortunato, Laura Galeno, Antonella Ludovisi e Diana Maggio nellambito del corso di Laboratoriodi didattica della Matematica. Scuola di specializzazione per lInsegnamento Secondario delLazio, anno accademico 1999/2000.

    32

  • 7/23/2019 SECS-S_05_A3

    33/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Figura 2.3

    RILEVAZIONE DEI DATI SUI VIAGGI PER LE VACANZE NEL 1999QUESTIONARIO

    Et (anni compiuti):

    Sesso: M FTitolo di studio: CODIFICA

    licenza elementare o nessun titolo 1

    licenza media inferiore 2diploma di maturit o professionale 3

    laurea o superiore 4Numero di viaggi per vacanze in Italia: Numero di viaggi per vacanze allestero:

    Tabella 2.4 Dati grezzi (matrice dei dati) relativa alla rilevazione alluscita di un

    supermercato romano su Viaggi per vacanza nel 1999

    Unitstatistica

    Et SessoTitolo

    di studioViaggi per

    vacanze in ItaliaViaggi per

    vacanze allestero1 15 M 2 2 02 27 F 4 2 03 29 F 4 0 14 29 F 4 0 05 32 M 3 0 36 27 F 4 0 0

    7 65 F 1 1 08 56 F 3 1 09 60 M 2 1 0

    10 32 F 3 2 011 33 M 4 2 112 27 M 4 0 013 25 F 3 1 014 27 M 3 1 115 78 M 1 1 016 43 F 3 1 017 45 M 2 1 0

    18 31 F 4 1 119 34 M 4 0 120 50 F 3 2 221 68 F 1 3 022 45 F 3 1 023 20 F 3 1 024 22 M 3 2 025 18 M 2 0 126 29 M 2 0 127 74 F 2 0 0

    33

  • 7/23/2019 SECS-S_05_A3

    34/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    28 23 M 3 1 129 41 M 4 1 330 54 F 3 0 1

    Osserviamo, innanzitutto, che lanalisi diretta dei dati in tabella, anche se ilnumero di unit statistiche paragonabile a quello relativo allindagine dellaTexaco, si presenta pi complicata in quanto la rilevazione non corrisponde aduno schema sperimentale sotto controllo del rilevatore per quanto riguarda lascelta delle unit statistiche. Per riferirsi al caso relativo allindagine sulle auto, lascelta delle unit statistiche corrisponde al tipo di indagine che si effettuerebbemisurando il rumore sulle auto in transito in un certo tratto di strada senzadeciderne a priori la tipologia. Per quanto riguarda la nostra indagine vogliamoevidenziare le caratteristiche di interesse per lo studio del collettivo che abbiamo

    preso in esame, al fine di rendere pi agevole la fase di interpretazione. Il

    campione esaminato consiste in 30 unit statistiche. I caratteri che abbiamo presoin considerazione sono i seguenti:

    Et(carattere quantitativo continuo) misurata in anni compiuti;

    Sesso(carattere qualitativo sconnesso) con modalit: M,F;

    Titolo di studio(carattere qualitativo ordinato) con modalit codificate: 1,2,3,4;

    Numero di viaggi in Italia (carattere quantitativo discreto) con valori possibili:0,1,2,;

    Numero di viaggi allestero(carattere quantitativo discreto) con valori: 0,1,2,;

    Fissiamo lattenzione su uno dei caratteri, in altre parole su una dellecolonne della matrice dei dati. Vogliamo vedere come si comporta il campionerispetto a tale carattere. Cominciamo con il considerare il carattere sesso (terzacolonna). Quando si considera lanalisi su una sola colonna della matrice dei datisi dice che stiamo effettuando unanalisi statistica univariata. Ci chiediamo:quante persone di sesso maschile abbiamo intervistato? E quante di sessofemminile? Considerando la terza colonna della tabella 2.4 e contando il numerodi M e di F che compaiono, otteniamo la seguente tabella:

    Tabella 2.5 Distribuzione di frequenza (assoluta) del carattere sesso nel campionedi intervistati

    Modalit Frequenza assolutaM 14F 16

    Totale 30

    34

  • 7/23/2019 SECS-S_05_A3

    35/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    In altri termini, abbiamo assunto che le unit statistiche della prima colonna,cui associata la modalit M (rispettivamente F) appartengano allo stesso insiemee poi abbiamo contato il numero di elementi di questo insieme. Nella costruzionedi una tabella del tipo mostrato si definisce frequenza assoluta corrispondentead una certa modalitil numero di unit statistiche che presenta tale modalit. In

    questo modo nellesempio si proceduto per la modalit M e analogamente per lamodalit F. La tabella che mostra su due colonne affiancate lelencazione dellemodalit di un carattere e le rispettive frequenze assolute si chiama distribuzionedi frequenza (assoluta) del carattere considerato, nel nostro esempio il carattere

    sesso. Dividendo ogni frequenza assoluta per il totale delle unit statisticheconsiderate si ottiene la distribuzione di frequenza relativa, che possiamorappresentare nella seguente tabella.

    Tabella 2.6 Distribuzione di frequenza (relativa) del carattere sesso nel campionedi intervistati

    Modalit Frequenza relativaM 14/30F 16/30

    Totale 1

    La distribuzione di frequenza relativa spesso fornita in forma percentuale.Tale rappresentazione si ottiene moltiplicando per 100 tutti i valori dellefrequenze relative, come mostrato nella tabella seguente.

    Tabella 2.7 Distribuzione di frequenza (percentuale) del carattere sesso nelcampione di intervistati

    Modalit Frequenza percentualeM 46,67F 53,33

    Totale 100

    Riassumendo diamo la seguente definizione.

    Definizione

    Si definisce frequenza relativa corrispondente a una certa modalit la proporzionetra il numero di unit statistiche che presenta tale modalit e il totale delle unitstatistiche considerate.

    Si definisce frequenza percentuale corrispondente a una certa modalit laproporzione tra il numero di unit statistiche che presenta tale modalit e il totaledelle unit statistiche considerate moltiplicata per 100.

    Adesso sappiamo come sono stati ottenuti i valori riportati dallISTAT sullecolonne colorate dei grafici delle figure 2.1 e 2.2.

    35

  • 7/23/2019 SECS-S_05_A3

    36/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Esercizio 1.

    Per esercizio riportare in tabella i valori relativi al primo grafico ISTATrelativamente alla classe det 25-34 anni.

    SvolgimentoPer costruire la tabella (che ha un numero di colonne sempre uguale a 2)

    occorre porre nella prima colonna lelenco delle modalit del carattere consideratoe il totale e nella seconda colonna le frequenze percentuali corrispondenti. Siottiene cos la tabella 2.8.

    Tabella 2.8Distribuzione di frequenza (percentuale) del carattere titolo di studioper la classe di et 25-34 anni nel campione considerato dallISTATnel grafico di figura 2.1

    Modalit Frequenza percentualeLaurea, dottorato 10,4

    Diploma di maturit 36,4

    Qualifica professionale 8,0Licenza media 39,9

    Licenza elementare 5,7Totale 100,0

    Esercizio 2.Ripetere la costruzione vista per i dati relativi al carattere titolo di studio

    per la classe di et 35-64 anni nel campione considerato dallISTAT nel graficodi figura 2.1.

    Esercizio 3.

    Costruire le tabelle relative alle distribuzioni di frequenza (assoluta, relativa,percentuale) per il carattere titolo di studio relativamente allindagine sui viaggi(tabella 2.4, colonna 4).

    Nelle tabelle riportate sopra abbiamo costruito alcuni esempi didistribuzione statistica univariata. Possiamo ora dare una definizione formalerigorosa.

    Definizione

    Una distribuzione statistica univariata una coppia di insiemi di cui ilprimo linsieme delle modalit o dei valori assumibili dal carattere considerato,il secondo, in corrispondenza con il primo, linsieme costituito dalle frequenzeche ogni valore o modalit presenta nella matrice dei dati considerata. Lefrequenze possono essere rappresentate in forma assoluta, relativa o percentuale.

    36

  • 7/23/2019 SECS-S_05_A3

    37/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    La distribuzione statistica fornisce un modo pi compatto dirappresentazione dei dati che cos risultano pi organizzati e dunque pi leggibili.

    Occorre osservare che nelle tabelle che riportano la distribuzione in formarelativa o percentuale non compare il numero di unit statistiche considerate. Per

    non perdere questa informazione, che di importanza fondamentale nel valutare irisultati, occorre fornire tale dato nella descrizione della rilevazione. evidente,infatti, che linformazione data dalle frequenze percentuali calcolate su uncampione di 10000 unit ben diversa da quella ottenuta su un campione di 50unit.

    Consideriamo ora (tabella 2.9) la distribuzione della variabile che si ottienedalla somma delle ultime due colonne della tabella 2.4 e che rappresenta ilcarattere quantitativo discreto numero totale di viaggi per vacanza nel 1999.

    Tabella 2.9Distribuzione di frequenza per il carattere numero totale di viaggi per

    vacanza

    Modalit (valori) Frequenza assoluta Frequenza relativa Frequenza percentuale0 4 4/30 13,331 12 12/30 40,002 10 10/30 33,333 3 3/30 10,004 1 1/30 3,34

    totale 30 1 100,00

    Si legge che 4 la frequenza assoluta del valore 0 (ovvero 4 persone delle30 intervistate non hanno compiuto alcun viaggio nel corso del 1999) mentre 12 la frequenza assoluta del valore 1 (12 persone delle 30 intervistate hannocompiuto esattamente un viaggio nel 1999).

    Ci chiediamo: quante persone nel corso del 99 hanno compiuto al pi unviaggio, o, in altre parole, un numero di viaggi minore o uguale a 1? Perrispondere alla domanda basta sommare 4 e 12.

    Allo stesso modo: quante persone, tra le 30 intervistate, hanno compiuto unnumero di viaggi minore o uguale a 2? E cos via.

    Definizione

    Si dice distribuzione di frequenza cumulata di un carattere ladistribuzione che associa ad ogni valore la frequenza (assoluta, relativa o

    percentuale) dei valori osservati minori o uguali. Operativamente, la frequenzacumulata la somma delle frequenze corrispondenti a tutti i valori minori o ugualidel valore considerato.

    Svolgendo i calcoli per la tabella 2.9, sulla base della precedente definizioneotteniamo la tabella 2.10.

    37

  • 7/23/2019 SECS-S_05_A3

    38/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Tabella 2.10Distribuzione di frequenza per il carattere numero totale di viaggi pervacanza

    Modalit(valori)

    Frequenzacumulata

    assoluta

    Frequenzacumulata

    relativa

    Frequenzacumulata

    percentuale0 4 4/30 13,331 16 16/30 53,332 26 26/30 86,663 29 29/30 96,664 30 1 100,00

    Osserviamo che il calcolo della distribuzione cumulata ha senso solo percaratteri con modalit ordinabili, quindi non possibile calcolarla per caratteri

    qualitativi sconnessi.Esercizio 4.

    Costruire le distribuzioni di frequenza cumulata per quei caratteri dellatabella 2.4 per cui ci ha senso.

    Consideriamo adesso la colonna 2 della tabella 2.4, in cui sono riportati idati relativi allet (carattere continuo) misurato in modo discreto in annicompiuti, e calcoliamo le distribuzioni di frequenza di tutti i valori possibilicompresi tra il valore minimo (15) e il valore massimo (78) osservato. Nellatabella 2.11 sono riportate tutte le distribuzioni e le distribuzioni cumulate.

    Tabella 2.11 Distribuzioni di frequenza e distribuzioni cumulate relative allavariabile et (tabella 2.4)

    EtFrequenza

    assolutaFrequenza

    relativaFrequenzapercentuale

    Frequenzacumulata

    Frequenzacumulatarelativa

    Frequenzacumulata

    percentuale15 1 0,033 3,33 1 0,033 3,3316 0 0 0,00 1 0,033 3,3317 0 0 0,00 1 0,033 3,3318 1 0,033 3,33 2 0,067 6,67

    19 1 0,033 3,33 3 0,100 10,0020 1 0,033 3,33 4 0,133 13,3321 0 0 0,00 4 0,133 13,3322 1 0,033 3,33 5 0,167 16,6723 1 0,033 3,33 6 0,200 20,0024 0 0 0,00 6 0,200 20,0025 1 0,033 3,33 7 0,233 23,3326 0 0 0,00 7 0,233 23,3327 4 0,133 13,33 11 0,367 36,6728 0 0 0,00 11 0,367 36,6729 2 0,067 6,67 13 0,433 43,3330 0 0 0,00 13 0,433 43,33

    38

  • 7/23/2019 SECS-S_05_A3

    39/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    31 1 0,033 3,33 14 0,467 46,6732 2 0,067 6,67 16 0,533 53,3333 1 0,033 3,33 17 0,567 56,6734 1 0,033 3,33 18 0,600 60,0035 0 0 0,00 18 0,600 60,0036 0 0 0,00 18 0,600 60,00

    37 0 0 0,00 18 0,600 60,0038 0 0 0,00 18 0,600 60,0039 0 0 0,00 18 0,600 60,0040 0 0 0,00 18 0,600 60,0041 1 0,033 3,33 19 0,633 63,3342 0 0 0,00 19 0,633 63,3343 1 0,033 3,33 20 0,667 66,6744 0 0 0,00 20 0,667 66,6745 2 0,067 6,67 22 0,733 73,3346 0 0 0,00 22 0,733 73,3347 0 0 0,00 22 0,733 73,3348 0 0 0,00 22 0,733 73,33

    49 0 0 0,00 22 0,733 73,3350 1 0,033 3,33 23 0,767 76,6751 0 0 0,00 23 0,767 76,6752 0 0 0,00 23 0,767 76,6753 0 0 0,00 23 0,767 76,6754 1 0,033 3,33 24 0,800 80,0055 0 0 0,00 24 0,800 80,0056 1 0,033 3,33 25 0,833 83,3357 0 0 0,00 25 0,833 83,3358 0 0 0,00 25 0,833 83,3359 0 0 0,00 25 0,833 83,3360 1 0,033 3,33 26 0,867 86,6761 0 0 0,00 26 0,867 86,6762 0 0 0,00 26 0,867 86,6763 0 0 0,00 26 0,867 86,6764 0 0 0,00 26 0,867 86,6765 1 0,033 3,33 27 0,900 90,0066 0 0 0,00 27 0,900 90,0067 0 0 0,00 27 0,900 90,0068 1 0,033 3,33 28 0,933 93,3369 0 0 0,00 28 0,933 93,3370 0 0 0,00 28 0,933 93,3371 0 0 0,00 28 0,933 93,3372 0 0 0,00 28 0,933 93,3373 0 0 0,00 28 0,933 93,33

    74 1 0,033 3,33 29 0,967 96,6775 0 0 0,00 29 0,967 96,6776 0 0 0,00 29 0,967 96,6777 0 0 0,00 29 0,967 96,6778 1 0,033 3,33 30 1,000 100,00

    La tabella 2.11 riporta le informazioni in modo completo dato che, anchese non scritto, risulta evidente che non sono stati osservati n valori inferiori a15, n valori superiori a 78.

    39

  • 7/23/2019 SECS-S_05_A3

    40/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Bisogna, inoltre, osservare che, in corrispondenza di ogni valore a delletindicato sulla prima colonna, si pone la frequenza di coloro che hanno et noninferiore ad a e inferiore ad a+1. In altre parole, come stato visto nel

    paragrafo 1.1.2 della Prima Unit, la frequenza di a non rappresenta il numerodi unit statistiche il cui valore misurato del carattere esattamente a, cio la

    frequenza di a, ma piuttosto la frequenza di un intero intervallo di valori,ovvero tutti i valori non inferiori ad a e inferiori a a+1. Misurando let inanni compiuti abbiamo raggruppato in classi di et di ampiezza 1 anno le nostreunit statistiche. Possiamo allora sintetizzare di pi i nostri dati raggruppando leunit in classi di maggiore ampiezza, per esempio 5 o 10 anni. Scegliendointervalli di ampiezza 10 anni, si pu costruire la tabella 2.12. La barra verticalenella notazione indica che il valore inferiore fa parte dellintervallo, mentre lamancanza di tale barra sulla destra indica che il valore superiore non ne fa parte: abrappresenta tutti qui valori maggiori o uguali ad ae minori di b.

    Tabella 2.12Distribuzioni di frequenza relative alla variabile et (tabella 2.4)

    Intervalli Frequenza assoluta Frequenza relativa15 25 6 1/52535 12 2/53545 2 1/154555 4 2/155565 2 1/156575 3 1/107585 1 1/30

    Mediante la distribuzione di frequenza per dati raggruppati in classi si passada una variabile quantitativa continua ad una variabile qualitativa ordinata che ha

    come modalit le classi definite.C da osservare che raggruppare i dati provoca una perdita dinformazione,

    infatti non risultano pi distinti tra loro i valori che cadono allinterno di unastessa classe. La perdita di informazione tanto maggiore quanto pi grande lampiezza della classe. La tabella per dati raggruppati, per, molto pi leggibileed pi facile darne una descrizione sintetica. La descrizione varia a seconda dicome sono scelte le ampiezze delle classi: sempre opportuno cercare un buoncompromesso che assicuri una buona sintesi senza troppa perdita di informazione.

    2.3 RAPPRESENTAZIONI GRAFICHEPer permettere una lettura pi immediata dellandamento di un fenomeno

    introduciamo le rappresentazioni grafiche, strumenti molto usati dai media per laloro efficacia nella comunicazione. Affinch tali rappresentazioni siano utili ecorrette devono contenere alcune informazioni quali: titolo, dal quale risultiloggetto, lepoca e la fonte di rilevazione; indicazioni chiare sui caratteri e sullemodalit o valori, sulle unit di misura (lineare o areale) utilizzate; eventualelegenda per colori e/o tratteggi. Analizziamo alcune delle rappresentazionigrafiche maggiormente utilizzate a partire dai dati della tabella 2.4.

    40

  • 7/23/2019 SECS-S_05_A3

    41/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    2.3.1 I DIAGRAMMI A BARRE

    Un diagramma a barre consiste in una successione di colonne, segmentiverticali o rettangoli (a base uguale o arbitraria) per convenzione equidistanti,tante quante sono le modalit del carattere, la cui altezza uguale o proporzionale

    alla frequenza (assoluta, relativa o percentuale) della modalit corrispondente.Questo tipo di grafico particolarmente adatto a rappresentare le distribuzioni dicaratteri qualitativi. Pu anche essere usato per rappresentare la distribuzione diun carattere quantitativo discreto. Se il carattere ordinato bisogna disporre lecolonne seguendo lo stesso ordinamento delle modalit del carattere. Se ilcarattere sconnesso opportuno, ma non obbligatorio, disporre le colonne a

    partire dalla pi grande e finendo con la pi piccola, o viceversa. Consideriamo ladistribuzione del carattere qualitativo ordinato titolo di studio (colonna 4 dellatabella 2.4).

    Tabella 2.13 Distribuzione di frequenza (assoluta) del carattere titolo di studio

    relativamente ai dati della tabella 2.4

    Modalit Frequenza assoluta1 32 63 124 9

    totale 30

    Per renderla ancora pi leggibile possiamo servirci di una rappresentazione

    grafica mediante diagramma a barre. Esaminiamo la modalit 1 (licenzaelementare) che, come si vede, ha frequenza assoluta 3. In corrispondenza delvalore 1 sullasse delle ascisse rappresentiamo un rettangolo con base data da unintervallo di ampiezza fissata sulle ascisse e altezza pari ad un valore di ordinatauguale al valore della frequenza, che nel nostro caso 3. Mantenendo fissalampiezza della base completiamo con lo stesso criterio il grafico con i rettangolirelativi agli altri valori collocandoli alla stessa distanza gli uni dagli altri (figura2.4).

    41

  • 7/23/2019 SECS-S_05_A3

    42/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Figura 2.4

    3

    6

    12

    9

    0

    2

    4

    6

    8

    10

    12

    14

    1 2 3 4

    titolo di studio

    frequenzeassolute

    Esercizio 5.

    Costruire i diagrammi a barre per la distribuzione del carattere qualitativosesso della tabella 2.4.

    2.3.2 RAPPRESENTAZIONE GRAFICA DI CARATTERI QUANTITATIVIRAGGRUPPATI IN CLASSI DI UGUALE AMPIEZZA

    Nel caso di caratteri quantitativi continui non ha pi senso parlare dellafrequenza di un singolo valore, poich non possibile osservare con esattezza

    quello stesso valore. Pertanto il carattere viene raggruppato per classi di ampiezzae se ne d una rappresentazione grafica attraverso listogramma. Questo tipo digrafico, analogo ad un diagramma a barre, consiste in una serie di rettangoliaffiancati aventi base sullasse orizzontale con centro sul valore centrale edampiezza uguale allampiezza della classe ed aree proporzionalialle rispettivefrequenze di ogni classe. Si pu usare un istogramma anche per rappresentare ladistribuzione di un carattere quantitativo discreto raggruppato in classi (numero diviaggi per vacanza, ecc.). Se le classi sono tutte di uguale ampiezza possibilescegliere le altezze dei rettangoli esattamente uguali alle rispettive frequenze.

    Nella figura 2.5 riportata la rappresentazione mediante istogramma a basi ugualidi ampiezza 10 anni, per la distribuzione di frequenza del carattere et della

    tabella 2.4.

    42

  • 7/23/2019 SECS-S_05_A3

    43/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Figura 2.5

    15 25 35 45 55 65 75 85

    classi di et

    0

    2

    4

    6

    8

    10

    12

    frequenza assoluta delle classi di et

    istogramma dell'et per i dati raggruppati in classi

    2.3.3 RAPPRESENTAZIONE GRAFICA DI CARATTERI QUANTITATIVIRAGGRUPPATI IN CLASSI DI DIVERSA AMPIEZZA

    Nel caso di un carattere quantitativo raggruppato in classi di diversaampiezza le altezze dei singoli rettangoli devono essere proporzionali al quozientetra la frequenza da rappresentare e lampiezza della classe. Tale quoziente parialla frequenza che compete ad una classe di ampiezza unitaria e viene dettodensitdella frequenza:

    Figura 2.6

    43

  • 7/23/2019 SECS-S_05_A3

    44/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Proviamo, ad esempio, a raggruppare il carattere et della tabella 2.12unendo le ultime due classi in ununica classe di ampiezza 20 anni e frequenzacomplessiva 4. In tal caso listogramma che rappresenta la distribuzione delcarattere et riportato in figura 2.7

    Figura 2.7

    Osserviamo che, in questo caso, le altezze dei rettangoli sono le densit difrequenza ottenute dividendo le frequenze assolute di ciascuna classe (riportateallinterno dei rettangoli) per le rispettive ampiezze delle classi. Ad esempio,lultima classe 65 85 di ampiezza 20, pari al doppio delle altre, e perottenere laltezza del corrispondente rettangolo bisogna dividere la frequenza perlampiezza della classe ottenendo:

    2,020

    4= .

    2.3.4 SPEZZATA DELLE FREQUENZE O POLIGONO DI FREQUENZA

    Dal momento che locchio percepisce meglio landamento di un fenomenose rappresentato con una linea, si possono considerare i punti medi della basesuperiore di ciascun rettangolo di un istogramma o di un diagramma a barre eunirli con una spezzata, ottenendo cos la spezzata delle frequenze o poligono difrequenza. Se consideriamo la distribuzione relativa al carattere numero di viaggiin Italia otteniamo il grafico riportato sotto (fig. 2.8).

    44

  • 7/23/2019 SECS-S_05_A3

    45/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Figura 2.8

    10

    13

    6

    10

    0

    2

    4

    6

    8

    10

    12

    14

    0 1 2 3 4

    numero di viaggi in Italia

    Esercizio 6.

    Rappresentare mediante spezzata delle frequenze la distribuzione difrequenza (assoluta) del carattere numero totale di viaggi per vacanza (tabella2.10).

    Svolgimento

    Si tratta semplicemente di costruire il grafico cartesiano con ascissa data dalnumero di viaggi e ordinata data dalla rispettiva frequenza assoluta.

    Se si utilizza un foglio di lavoro Excel, possiamo riportare le prime duecolonne della tabella 2.9 (fig. 2.9).

    Figura 2.9

    Selezioniamo e scegliamo, quindi, lopzione creazione guidata grafico,poi lopzione dispers. (XY) che permette di costruire grafici cartesiani conascissa data dalla prima colonna della tabella e ordinata data dalla seconda

    45

  • 7/23/2019 SECS-S_05_A3

    46/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    colonna e procediamo alla creazione del grafico, ottenendo il risultato mostrato infigura 2.10

    Figura 2.10

    poligono di frequenza del carattere"numero di viaggi"

    0

    2

    4

    6

    8

    10

    12

    14

    0 1 2 3 4 5

    numero di viaggi

    frequenzaassoluta

    frequenza assoluta del carattere "numero diviaggi"

    Esercizio 7.

    Supponiamo di aver rilevato, tramite questionario, il sesso di 10 alunni diuna data scuola e il numero di film visti da ciascuno nellultima settimana.

    Alunno Sesso Numero di film visti nellultima settimana1 Femmina 32 Femmina 23 Maschio 34 Maschio 35 Femmina 66 Maschio 27 Femmina 1

    8 Maschio 09 Femmina 210 Femmina 0

    Determinare le distribuzioni statistiche dei due caratteri sesso e numerodi film e rappresentarle graficamente, utilizzando le diverse possibilit vistesopra.

    46

  • 7/23/2019 SECS-S_05_A3

    47/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    2.3.5 RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE CUMULATA

    La tipica rappresentazione grafica adottata per la distribuzione cumulata ilgrafico cartesiano in cui si riportano in ascissa i valori o le codifiche numericheordinate relative alle modalit del carattere considerato e in ordinata i

    corrispondenti valori della frequenza cumulata (assoluta, relativa, percentuale).Nella figura 2.11 riportato il diagramma cartesiano relativo alla distribuzionecumulata (frequenze assolute) del numero di viaggi in Italia. Come si vede si trattadi una curva a gradini che, in ogni punto corrispondente ad un valore osservato, haun salto pari alla frequenza (assoluta, relativa, percentuale).

    Figura 2.11

    Distribuzione cumulata del numero di viaggi

    0

    5

    10

    15

    20

    25

    30

    35

    0 1 2 3 4 5

    numero viaggi in Italia

    frequenzacumulata

    Distribuzione cumulata

    Un altro tipo di rappresentazione si ha considerando il grafico cartesiano incui si riportano in ascissa i valori o le codifiche numeriche ordinate relative allemodalit del carattere considerato e in cui la crescita della curva della frequenzacumulata tra un valore osservato e il successivo viene approssimata con unsegmento inclinato che unisce i valori corrispondenti dellordinata. Questa curvadi tipo poligonale prende il nome di ogiva. Nella figura 2.12 riportato talediagramma cartesiano relativo alla distribuzione cumulata (frequenze assolute) del

    numero di viaggi.

    47

  • 7/23/2019 SECS-S_05_A3

    48/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    Figura 2.12

    Ogiva (frequenza cumulata)

    0

    5

    10

    15

    20

    25

    30

    35

    0 1 2 3 4 5

    frequenza cumulata

    Esempio 4. Una sperimentazione della Texaco (2)

    Abbiamo ora nuovi strumenti per effettuare unanalisi dei dati relativi allarilevazione della TEXACO riportati nella tabella 2.3, separando le misurazionirelative ai due tipi di silenziatore. Riportiamo le distribuzioni di frequenza intabella 2.14 e per agevolare un primo confronto qualitativo riportiamo nella figura2.13 le due ogive.

    Tabella 2.14Distribuzioni di frequenza e frequenza cumulata del livello di rumoremisurato in decibel per i due tipi di silenziatore (standard = tipo 1 e nuovo tipo = tipo2)

    Livellodi rumore(decibel)

    Frequenzaassoluta(tipo 1)

    Frequenzacumulata(tipo 1)

    Frequenzaassoluta(tipo 2)

    Frequenzacumulata(tipo 2)

    760 2 2 1 1765 0 2 1 2770 1 3 1 3775 0 3 3 6

    780 0 3 0 6785 2 5 0 6790 1 6 0 6795 0 6 0 6800 0 6 0 6805 0 6 0 6810 1 7 0 6815 0 7 1 7820 2 9 5 12825 0 9 6 18

    48

  • 7/23/2019 SECS-S_05_A3

    49/82

    M. Bultrini C. Rossi, Elementi di statistica sociale

    830 0 9 0 18835 3 12 0 18840 2 14 0 18845 2 16 0 18850 1 17 0 18

    855 1 18 0 18

    Figura 2.13

    Distribuzioni cumulate del livello di rumore per i

    due tipi di silenziatore

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    740 760 780 800 820 840 860

    livello di rumore (in decibel)

    frequenzacumula

    ta

    silenziatore standard nuovo tipo di silenziatore

    Entrambe le curve sono crescenti e raggiungono il livello finale pari a 18. evidente, quindi, che tanto pi una curva cresce in fretta, tanto pi i valoriosservati della variabile sono concentrati sui valori bassi. Dal confronto basatosolo sulle ogive si deduce, pertanto, una certa evidenza di maggiore efficacia delnuovo silenziatore rispetto a quello standard. Infatti, la curva corrispondente alnuovo raggiunge il suo valore massimo molto prima dellaltra curva,corrispondente al tipo standard. Possiamo meglio si