(12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia...

62
Statistica Sociale e Criminale (12 CFU) A.A. 2015/2016 CdL Sociologia e Criminologia Simone Di Zio

Transcript of (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia...

Page 1: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Statistica Sociale e Criminale

(12 CFU)

A.A. 2015/2016

CdL Sociologia e Criminologia

Simone Di Zio

Page 2: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Dove siamo…

MODULO 2. La Statistica descrittiva

2.1 La rilevazione del dato statistico

2.2 La rappresentazione dei dati statistici

2.3 Le misure di tendenza centrale

2.4 Le misure di variabilità

2.5 Le Misure delle relazioni tra variabili

Page 3: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

La rappresentazione dei dati statistici

Tipologie di variabili

Variabile (o carattere) caratteristica che viene rilevata su ciascuna unità statistica.

Ogni variabile si manifesta su ogni unità statistica con una determinata modalità.

Vediamo come si possono classificare le variabili ai fini di un’indagine statistica.

Un metodo si basa sul tipo di operazioni che su di esse si possono effettuare.

: non tutte le elaborazioni si possono fare indistintamente per tutte le variabili.

Ci sono metodi di elaborazione specifici adatti ad ogni tipologia di variabile.

Per ogni variabile è FONDAMENTALE individuarne correttamente la tipologia, al

fine di procedere correttamente alle elaborazioni ed interpretazione dei risultati.

Page 4: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Classificazione Variabili

Tipo di variabile Caratteristiche tipiche

dei valori

Procedura di

operativizzazione

Operazioni

consentite

Nominale Nomi Classificazione =

Ordinale Nomi o numeri ordinali Ordinamento = > <

Intervalli e Rapporti Numeri cardinali Misurazione = > < +

VARIABILI

Nominali Ordinali Intervalli e

di Rapporti

Contenuto Informativo

Page 5: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Variabili nominali Operazione di classificazione: raggruppare gli elementi di un insieme secondo una

variabile, stabilendo quali fra loro sono simili, cioè posseggono la stessa caratteristica.

Il risultato è un certo numero di sottogruppi, o classi, all’interno dei quali i soggetti

posseggono tutti la medesima caratteristica o, più esattamente, la stessa modalità

della variabile.

Requisiti di una procedura di classificazione:

1. Le classi sono esaurienti, ovvero devono includere tutti i casi possibili;

2. Le classi non si sovrappongono, cioè non deve esistere nessun caso che

appartenga a due diverse classi.

La classificazione avviene

sulla base di una variabile

Le classi sono le

modalità della variabile

GENERE

M

F

Page 6: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

La classificazione è il più basso livello di misurazione e si parla di scala nominale.

Data un’operazione di classificazione, l’insieme delle classi che ne derivano si chiama

scala nominale.

Operazioni consentite fra gli elementi di una scala nominale

Possiamo dire se due elementi (A e B) appartengono alla stessa classe oppure no.

Se sì si dice che A e B sono equivalenti rispetto alla variabile di classificazione.

ESEMPIO

Colore dei capelli, secondo le seguenti classi: “biondi”, “castani”, “neri”, “rossi”

(Antonio, Beatrice) - capelli biondi

(Carlo, Damiano, Emma) - capelli castani

(Franco, Gaia) - capelli neri

Una variabile le cui modalità possono soltanto essere classificate

viene detta VARIABILE NOMINALE o variabile misurata su scala nominale.

Page 7: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Una scala nominale non consente di fare un ordinamento di importanza fra gli

elementi. Due elementi a confronto possono essere solo simili o diversi. (non possiamo mai affermare che i capelli di Beatrice sono “migliori” o “più belli” di quelli di

Emma).

CODIFICA

Per comodità si possono assegnare dei codici numerici alle classi.

Esempio

1 - “biondi”

2 - “castani”

3 - “neri”

4 - “rossi”

Questi non sono numeri che si possono sommare o dividere.

La codifica di locuzioni qualitative non ci autorizza ad eseguire operazioni

aritmetiche.

Le uniche operazioni che si possono effettuare sulle modalità assunte dalle variabili

nominali sono “essere equivalente” o “essere diverso”. In simboli: =, .

Page 8: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Variabili ordinali Nel classificare un insieme di oggetti, quando è possibile stabilire se una unità

possiede la variabile analizzata in misura “maggiore” o “minore” rispetto ad un’altra,

siamo in presenza di una scala ordinale.

Esempio, in una gerarchia militare è possibile stabilire che il “caporale” è più alto in

grado rispetto al “soldato semplice”, o che il “generale” è il grado più alto di tutti

Non è possibile misurare di quanto un grado sia più alto (o più basso) di un altro.

Questo livello di misura comprende le possibilità di analisi insite nel livello di scala

precedente, cioè nella scala nominale.

Nelle scale ordinali possiamo fare operazioni di equivalenza, ma in più possiamo dire

se una unità è “maggiore di” o “minore di”.

Page 9: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

ESEMPIO

Antonio, Beatrice Licenza elementare

Carlo Diploma

Damiano Dottorato di ricerca

A e B sono equivalenti

B è minore di C

C è minore di D

ATTENZIONE

Non si può in nessun modo quantificare la distanza fra B e C o la distanza fra C e D.

Page 10: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

CODIFICA

Anche in questo tipo di scala possiamo usare numeri per la codifica. Questi non

consentono le operazioni algebriche di somma, sottrazione, ecc.

Si tratta infatti di numeri ordinali, da non confondere con i numeri cardinali (che

invece si possono sommare, dividere ecc.).

Esempio: “l’anno di corso universitario” è una variabile che si misura su scala

ordinale, le cui modalità sono: “I anno”, “II anno”, “III anno”, e così via.

Possiamo anche indicare gli anni di corso con i numeri 1, 2, 3 ma in tal caso non ci è

consentito fare operazioni algebriche su di essi.

Se Mario e Anna si trovano all’anno di corso “1” e Giulia all’anno “3”, possiamo dire

che Giulia si trova più avanti nel corso di studi rispetto a Mario e Anna, mentre questi

due si trovano allo stesso anno di corso.

Certo non possiamo sommare i due numeri: 1+3=4 che significa?

Le operazioni consentite su una scala ordinale sono: =, , >, <

.

Page 11: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Come si definisce l’ordinamento

G

Prima modalità stabilita in

modo naturale

Scala ordinale

RETTILINEA

Prima modalità stabilita per

convenzione

Scala ordinale

CICLICA

Anno di corso universitario,

gradi gerarchia militare, titolo

di studio

Giorni della settimana,

direzione del vento.

Una variabile le cui modalità possono essere classificate e ordinate viene detta

VARIABILE ORDINALE o variabile misurata su scala orinale.

Page 12: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Variabili a intervalli e di rapporti Se possiamo classificare e ordinare le unità statistiche ma anche calcolare l’esatta

distanza fra di esse, siamo in presenza di una scala a intervalli.

Serve una unità di misura che restituisce gli stessi risultati ogni volta che viene usata

e indipendentemente da chi fa la misurazione. (Lunghezza, peso, temperatura, velocità…)

Esempio, la statura.

170

Una variabile le cui modalità possono essere classificate, ordinate, sommate,

moltiplicate e divise, viene detta VARIABILE A INTERVALLI, o variabile

misurata su scala a intervalli.

Non solo possiamo dire che Antonio è più

alto di Beatrice (come accadeva per le scale

ordinali) ma possiamo affermare con

precisione che è più alto di 15 cm.

Operazione di sottrazione:

𝟏𝟖𝟓 − 𝟏𝟕𝟎 = 𝟏𝟓 Antonio 185cm

Beatrice

170 cm

170

185 15

Page 13: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

I numeri delle scale a intervalli sono detti numeri cardinali.

Le operazioni possibili in una scala a intervalli sono: =, , >, <, +, , ,

Intervalli e rapporti

Che differenza c’è fra la variabile “statura” e la variabile “temperatura”?

La statura si può misurare in metri o piedi

La temperatura si può misurare in gradi Centigradi o Fahrenheit.

Per la statura vi è un punto zero non arbitrario, che ha lo stesso significato sia in

metri che in piedi (assenza del fenomeno misurato).

Per la temperatura il punto zero è arbitrario. Lo zero della scala Centigradi non ha

un corrispondente con lo zero della scala Fahrenheit.

Gli zeri delle due scale non significano assenza del fenomeno temperatura.

Page 14: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

STATURA TEMPERATURA

Un soggetto alto due metri rispetto a

uno alto un metro ha una statura

doppia.

Quindi possiamo calcolare il rapporto

fra le due stature, ovvero 2/1=2.

Questo rimane vero anche se

misuriamo la statura in piedi:

1 metro = 3.28 piedi

2 metri = 6.56 piedi

per cui il rapporto rimane sempre lo

stesso, infatti 6.563.28=2.

L’uomo più alto è sempre il doppio di

quello piccolo, sia se lo misuriamo in

metri che in piedi.

Non possiamo dire che una

temperatura di 20° è doppia rispetto

a 10°.

Esempio:

20°C = 68°F

10°C = 50°F

Quindi 20 è il doppio di 10

ma 68 non è il doppio di 50.

Una temperatura doppia nella scala

centigradi non rimane doppia in quella

Fahrenheit, e questo significa che

non possiamo mai affermare che una

temperatura è il doppio di un’altra.

Page 15: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

STATURA TEMPERATURA

SCALE DI RAPPORTI SCALE A INTERVALLI

È il livello di misurazione più alto e si

ha quando è possibile individuare uno

zero assoluto o non arbitrario che

indica assenza del fenomeno.

Quando non è possibile avere uno

zero assoluto che indica assenza del

fenomeno.

Page 16: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Le operazioni che si possono fare su una scala nominale si possono fare anche

nella scala ordinale e a intervalli.

Le operazioni che si possono fare su una scala ordinale non sono possibili su una

scala nominale ma sono possibili su una scala a intervalli.

Le operazioni tipiche di una scala a intervalli o di rapporti non sono applicabili

alle scale nominali e ordinali.

Tipo di

variabile

Caratteristiche tipiche

dei valori

Procedura di

operativizzazione

Operazioni

consentite

Nominale Nomi Classificazione =

Ordinale Nomi o numeri ordinali Ordinamento = > <

Intervalli e

Rapporti

Numeri cardinali Misurazione = > < +

Page 17: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Classificazioni alternative delle variabili

Le variabili su scala a intervalli o di rapporti sono anche dette variabili

quantitative;

Le variabili su scale nominali e ordinali sono anche dette variabili qualitative.

Più esattamente le variabili nominali = variabili qualitative sconnesse e le

variabili ordinali = variabili qualitative ordinate.

A) Variabili quantitative discrete, quando fra due modalità consecutive non ve

ne sono altre. : . Le modalità di

questa variabile possono essere 1, 2, 3, …, (sono i numeri naturali). 3.2 o 5.7

non possono essere modalità di questa variabile.

B) Variabili quantitative continue, quando fra due distinte modalità esiste un

continuo, con infinite modalità intermedie. : .

Una persona può pesare 72 kg, ma con una bilancia più precisa potremmo avere

72.4 kg. Uno strumento ancora più preciso potrebbe darci 72.42, e il

ragionamento potrebbe teoricamente continuare fino all’infinito. Il peso è una

variabile quantitativa che può assumere qualunque valore all’interno di un

intervallo (nel nostro esempio fra 72 e 73 chilogrammi).

Page 18: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Le diverse classificazioni delle variabili

Classificazione

anglosassone

Classificazione

alternativa

Sottocategorie ESEMPI

Variabili

Nominali

Variabili qualitative

sconnesse

Colore degli occhi;

Religione

Variabili

Ordinali

Variabili qualitative

ordinate

Rettilinee Anno di corso;

Titolo di studio

Cicliche Giorno della settimana;

Segno dello zodiaco

Variabili a

Intervalli o di

rapporti

Variabili

quantitative

Discrete Numero comp. famiglia;

Numero di figli

Continue Peso;

Statura

Page 19: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Le scale Nell’ambito di un’indagine statistica, su ciascuna unità statistica (ad esempio

l’individuo) si andranno a rilevare una serie di variabili (per esempio genere, età,

peso, statura, titolo di studio ecc.).

Ogni variabile presenta un determinato numero di modalità (per il genere “maschio”

e “femmina”, per l’età avremo un numero corrispondente agli anni).

La rilevazione della modalità di una variabile assunta da un individuo presuppone una

operazione di misurazione che può avvenire tramite il questionario.

Per misurazione si intende il procedimento che si usa nelle scienze esatte.

Per misurare il peso di un oggetto si usa la bilancia.

Per misurare la lunghezza si usa il metro.

Dato uno strumento di misura, le procedure di misurazione sono standardizzate e

in tutto il mondo sono eseguite sempre allo stesso modo.

Nelle scienze umane, invece, la misurazione non è sempre agevole e chiara. Come si

può ad esempio misurare l’ansia, l’altruismo, oppure il dolore?

Page 20: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

La misurazione nelle scienze sociali

La statistica affronta il problema ricorrendo alla tecnica delle scale, o scaling.

Il concetto è il mezzo attraverso il quale l’uomo conosce e comprende il mondo che

lo circonda

Ad esempio è un concetto complesso, per il quale è difficile dare una

definizione operativa. A tal fine si ricorre a degli indicatori.

Gli indicatori sono concetti più semplici, detti anche concetti specifici, più facilmente

osservabili.

Ad esempio un potrebbe essere “fare prepotenze ai compagni

di scuola”.

Page 21: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Un concetto è espresso da più indicatori ma, allo stesso tempo, un indicatore dipende

solo parzialmente dal concetto cui si riferisce, perché spesso è legato anche ad altri

concetti.

Il concetto di non si può misurare solo con l’indicatore delle prepotenze e,

allo stesso tempo, il fare prepotenze non è un indicatore esclusivo del bullismo ma può

dipendere anche da altri concetti, come ad esempio il “disagio giovanile”.

Page 22: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Per rilevare operativamente un concetto complesso bisogna ricorrere a più indicatori.

Per organizzare coerentemente un insieme di indicatori si ricorre alla tecnica delle

scale (scaling).

Una scala è un gruppo di elementi, detti items, che sono indicatori di un concetto

generale.

Il concetto sottostante una scala è anche detto variabile latente.

Un item rappresenta una singola domanda mentre la scala è l’intera batteria di

domande volta a misurare una variabile latente.

Quindi, con il termine scala si intende il processo di rilevazione di una proprietà

latente, non direttamente osservabile, relativa alle unità statistiche oggetto di analisi.

Page 23: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

La variabile latente è una variabile quantitativa continua

Gli items in genere sono variabili ordinali.

Un item potrebbe essere:

Picchiare chi è più debole è giusto

modalità di risposta

non d’accordo

parzialmente d’accordo

completamente d’accordo.

Di conseguenza, i punteggi delle scale non hanno il significato pieno di numero

cardinale, perché vi è sempre un forte grado di soggettività nella loro attribuzione.

Tuttavia, tecnicamente i punteggi delle scale possono essere trattati come se fossero

numeri cardinali, cioè possono essere sommati, divisi ecc.

Per questo motivo si usa dire che le variabili derivanti dalle scale sono variabili quasi-

cardinali.

Page 24: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Alcune tecniche di scale

Serie di affermazioni (items) legate al concetto da misurare.

L’intervistato è chiamato a esprimere il suo grado di accordo o disaccordo scegliendo

fra cinque o sette modalità di risposta.

Ad esempio con cinque modalità di risposta si ha: 1. completamente d’accordo

2. d’accordo

3. incerto

4. in disaccordo

5. in completo disaccordo

Ad ognuna di queste modalità viene attribuito un punteggio decrescente, del tipo 5, 4,

3, 2, 1 e la somma dei punteggi di ogni rispondente su tutta la batteria di domande

rappresenta la posizione di quell’individuo rispetto al concetto sottostante.

Page 25: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Serie di domande con difficoltà crescente.

Chi ha risposto affermativamente ad una qualunque domanda deve aver risposto sì

anche a tutte quelle precedenti. Quindi, una sequenza di gradini (ecco perché

scalogramma)

Il punteggio di un soggetto si calcola attribuendo valore 1 alle risposte affermative e

0 a quelle negative, per poi sommare tutti i valori pari a 1.

Consiglieresti il tuo medico a: Sì No

Un conoscente

Un vicino di casa

Un amico

Un parente stretto

Una sequenza 1110 significa che chi è disposto a consigliare il proprio medico ad un

amico lo farebbe anche per un vicino di casa o un conoscente (in questo caso il

punteggio totale è 3).

Page 26: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

L’obiettivo è rilevare il significato che i concetti assumono per gli individui

Associazioni che gli individui instaurano fra il concetto analizzato e altri concetti

proposti in maniera standardizzata, cioè allo stesso modo per tutti gli intervistati.

Ad esempio, invece di chiedere “cosa significa per lei il termine razzismo”, si pone

una batteria di coppie di aggettivi contrapposti, detti bipolari, preceduti da un’unica

domanda, come nello schema seguente:

Per lei il razzismo è:

1 2 3 4 5 6 7 Duro Soffice

Veloce Lento

Gradevole Sgradevole

Allegro Triste

Giusto Ingiusto

Opportuno Inopportuno

L’intervistato deve rispondere segnando con una croce la casella più vicina

all’aggettivo che meglio esprime, secondo il suo atteggiamento, il concetto richiesto.

Page 27: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Scala per misurare un certo atteggiamento tramite un insieme di frasi semanticamente

autonome.

L’atteggiamento viene rilevato in base alle posizioni espresse dagli intervistati su

questo insieme di affermazioni.

La scala è composta da 11 frasi e la caratteristica è che queste sono selezionate da un

insieme di 150 frasi che vengono date in valutazione e dei “giudici”.

Page 28: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

LE DISTRIBUZIONI STATISTICHE Distribuzioni unitarie – variabile - modalità - frequenza

Siamo nella fase di registrazione dei dati.

Una volta rilevato 𝑝 variabili sul collettivo tramite un questionario, i dati sono

organizzati in una tabella chiamata matrice dei dati

Se il collettivo su cui la rilevazione è fatta si compone di 𝑁 unità statistiche, la tabella

dei dati avrà N righe e p colonne, ed è pertanto indicata come matrice 𝑁𝑝.

Un esempio di matrice dei dati 𝑵𝒑 𝑽𝟏 𝑽𝟐 𝑽𝟑 𝑽𝟒 … 𝑽𝒋 … 𝑽𝒑

Id. Nome Genere Età Occhi … … … Fuma

1 Alex M 15 Neri … … … Sì

2 Alessia F 12 Marroni … … … No

3 Andrea M 20 Marroni … … … No

4 Angelo M 30 Azzurri … … … Sì

5 Carmine M 35 Marroni … … … Sì

… … … … … … … … …

… … … … … … … … …

N Mauro M 59 Marroni … … … No

Page 29: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Distribuzione unitaria Analizziamo una generica colonna della matrice dei dati, che indichiamo con j.

Ogni unità statistica ha una e una sola modalità della variabile.

Nel linguaggio tecnico della statistica questa colonna costituisce la distribuzione

unitaria della variabile j-esima.

: su N=15 individui è stata rilevata la

variabile colore degli occhi, con 6 modalità.

neri, marroni, castani, verdi, grigi e azzurri.

I dati si organizzano in una tabella come questa

Si noti che ogni unità statistica possiede una sola

modalità della variabile ma ci sono due modalità che

non sono state rilevate (“castani” e “grigi”).

Page 30: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

È molto importante individuare la relativa scala di misurazione:

in questo caso “colore degli occhi” è una variabile nominale

Questa tabella è tecnicamente una distribuzione unitaria semplice.

Distribuzione perché la tabella mostra come le modalità della variabile osservata

si distribuiscono fra le unità del collettivo.

Unitaria perché viene indicata espressamente ogni unità statistica

Semplice, fa riferimento al fatto che si tratta di una sola variabile. Se si prendono

in considerazione due variabili si parlerà di distribuzione unitaria doppia (o

bivariata), con tre variabili distribuzione unitaria tripla, ecc.

La distribuzione unitaria semplice di una variabile è l’elencazione delle

modalità osservate su ogni unità statistica nel collettivo esaminato.

Se l’elencazione si riferisce a due o più variabili si parla di distribuzione unitaria

multipla.

Page 31: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Simbologia

Indichiamo con 𝑋 la generica variabile della matrice dei dati e con

le lettere minuscole le modalità rilevate sulle unità statistiche.

𝑥1 è la modalità della variabile 𝑋 rilevata sull’unità statistica 1

𝑥2 è la modalità della variabile 𝑋 rilevata sull’unità statistica 2

….

ecc.

Se estrapoliamo dalla matrice dei dati due colonne, ovvero due variabili, si ha una

distribuzione unitaria doppia

Se aggiungiamo ancora una variabile, ad esempio il titolo di studio, avremo una

distribuzione unitaria tripla.

Page 32: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Distribuzione unitaria tripla

𝑽𝟏 𝑽𝟐 𝑽𝟑

Id Nome Colore occhi età titolo di studio

1 Alessandro Neri 15 Licenza media

2 Alessia Marroni 12 Licenza elementare

3 Andrea Marroni 20 Diploma

4 Angelo Azzurri 30 Laurea

5 Carmine Marroni 35 Licenza media

6 Daniele Neri 40 Diploma

7 Dario Marroni 20 Laurea

8 Donatello Azzurri 22 Laurea

9 Eros Marroni 24 Laurea

10 Federica Neri 60 Diploma

11 Francesca Marroni 65 Licenza media

12 Ivan Azzurri 40 Diploma

13 Luca Verdi 35 Diploma

14 Mattia Neri 38 Diploma

15 Mauro Marroni 59 Licenza media

Quando le variabili sono più di due non si usa il termine distribuzione ma matrice dei dati.

Identificazione del tipo di variabili variabile nominale (o qualitativa sconnessa)

variabile a intervalli (o quantitativa continua)

variabile ordinale (o qualitativa ordinata)

Page 33: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

FREQUENZA

L’operazione di può essere effettuata su tutti i tipi di variabile. Si tratta

di verificare se due unità statistiche sono uguali o no, rispetto a una variabile.

Determinate le uguaglianze sulle 𝑁 unità del collettivo, queste si possono organizzare

in sottogruppi, che vengono detti .

Ogni classe accoglie tutte le unità con la stessa modalità di una variabile.

: distribuzione unitaria semplice del colore degli occhi.

NB: la tabella ha un numero di righe pari al numero delle modalità, cioè

6. Inoltre ci sono due classi vuote perché nel collettivo nessuna unità

presenta tali modalità.

Page 34: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Dalla distribuzione unitaria alla distribuzione di frequenze

Adesso facciamo una semplice operazione di , cioè contiamo quante unità

statistiche ci sono in ogni classe.

La somma di questi valori corrisponde alla numerosità del collettivo:

4 + 7 + 1 + 3 = 15.

Il numero di unità che appartengono a una classe, ovvero il numero di individui che

posseggono una data modalità della variabile, prende il nome di frequenza assoluta.

4

7

0

1

0

3

Page 35: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

La Frequenza Assoluta Il termine ha lo stesso significato che ha nel linguaggio comune: il numero

di volte che un fatto si ripete.

Il termine è una specifica per distinguere questo tipo di frequenza da altri tipi

(come la frequenza relativa o percentuale) che vedremo più avanti.

Quindi la frequenza assoluta di una modalità di una variabile è il numero delle volte

che quella modalità è osservata nel collettivo.

I valori delle modalità della

variabile affiancati alle

frequenze assolute

costituiscono una tabella

chiamata distribuzione di

frequenze assolute.

Distribuzione di frequenze assolute

Variabile

Colore degli

occhi

Frequenza

Assoluta

Neri 4

Marroni 7

Castani 0

Verdi 1

Grigi 0

Azzurri 3

Totale 15

Page 36: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Simbologia

: 𝑋

: 𝑥𝑖

: 𝑛𝑖

Generica distribuzione

di frequenze assolute

𝑋 ni

𝑥1 𝑛1

𝑥2 𝑛2 … …

𝑥𝑖 𝑛𝑖 … …

𝑥𝑘 𝑛𝑘

Totale 𝑁

Si noti che l’ultima modalità è indiata con 𝑥𝑘 da non

confondere con la distribuzione unitaria, dove si ha 𝒙𝑵.

Page 37: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Colore degli

occhi

Frequenza

Assoluta

Neri 4

Marroni 7

Castani 0

Verdi 1

Grigi 0

Azzurri 3

Totale 15

𝐼𝑑 𝑋

1 𝑥1

2 𝑥2 3 𝑥2

… …

𝑖 𝑥𝑖 … …

… …

𝑁 𝑥𝑁

𝑋 ni

𝑥1 𝑛1 … …

𝑥𝑖 𝑛𝑖 … …

𝑥𝑘 𝑛𝑘

Totale 𝑁

𝑖 = 1,… ,𝑁

𝑖 = 1, … , 𝑘

Page 38: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

La assolute altro non è che la

In simboli si ha la seguente identità:

𝑛1 + 𝑛2 +⋯+ 𝑛𝑘 =∑𝑛𝑖

𝑘

𝑖=1

= 𝑁

Una distribuzione di frequenze assolute è una

, in cui le diverse modalità

di una variabile si distribuiscono nelle unità

statistiche che compongono il collettivo oggetto di

studio.

Include 𝒌 coppie di valori di cui il primo elemento

indica la modalità della variabile e il secondo indica

il numero di unità su cui quella modalità è stata

osservata (la frequenza assoluta).

Page 39: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Il caso di due variabili

La consiste nel formare una classe per ogni coppia di modalità delle

due variabili.

Il numero delle possibili classi è dato dal prodotto del numero delle modalità delle due

variabili.

Se la prima variabile ha 3 modalità e la seconda 5 si possono formare 15 classi.

: prendiamo in considerazione le due variabili

X = “colore degli occhi” con 6 modalità

Y = “titolo di studio” con 4 modalità

abbiamo 24 classi

Partendo dalla matrice dei dati si tratta di inserire nella stessa classe le persone che

hanno lo stesso colore degli occhi e lo stesso titolo di studio.

Il risultato si inserisce in una tabella a doppia entrata

Page 40: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

All’interno di ogni cella ci sono le secondo le due variabili considerate

𝑋

𝑌 Titolo di studio

Lic. Elem. Lic. Media Diploma Laurea

Colo

re d

egli

occ

hi Neri Alessandro

Mattia, Daniele,

Federica

Marroni Alessia

Carmine, Mauro,

Francesca Andrea Dario, Eros

Castani

Verdi Luca

Grigi

Azzurri Ivan

Donatello,

Angelo

La suddivisione in classi per gruppi di tre o più variabili è più difficile da

rappresentare ma segue la stessa logica, ovvero il raggruppamento di unità che

presentano la stessa combinazione di modalità su tutte le variabili considerate.

Page 41: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Distribuzione doppia di frequenze assolute

Per una variabile:

Per due variabili: .

𝑋

𝑌 Titolo di studio

Lic.

Elem.

Lic.

Media Diploma Laurea

Tot.

riga

Colo

re d

egli

occ

hi

Neri 0 1 3 0 4

Marroni 1 3 1 2 7

Castani 0 0 0 0 0

Verdi 0 0 1 0 1

Grigi 0 0 0 0 0

Azzurri 0 0 1 2 3

Tot. colonna 1 4 6 4 15

Page 42: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

DISTRIBUZIONI MARGINALI

Se si uniscono prima colonna e totali di riga si ha la

distribuzione semplice di frequenze rispetto a X.

Se si uniscono prima riga e totali di colonna si ha la

distribuzione semplice di frequenze rispetto a Y.

𝑁 totale delle

frequenze

Frequenza

Marginale

di riga

Frequenza Marginale

di colonna

Frequenza

Congiunta

Distrib. Marginale

di X

Distrib. Marginale

di Y

Page 43: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

DISTRIBUZIONI CONDIZIONATE

Se consideriamo una riga o

una colonna interne alla

tabella abbiamo una

distribuzione condizionata

Page 44: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Da una distribuzione doppia di frequenza si possono ricavare:

due distribuzioni marginali

un numero di distribuzioni condizionate pari alla somma del numero di modalità

delle due variabili. (Nel nostro esempio: 6 + 4 = 10 distribuzioni condizionate).

Frequenza Congiunta 𝑛𝑖𝑗.

Frequenza Marginale di riga 𝑛𝑖° Frequenza Marginale di colonna 𝑛°𝑗

Totale Generale 𝑵

𝑦1 𝑦2 … 𝑦𝑗 … 𝑦𝑚 Marginali di riga

𝑥1 𝑛11 𝑛12 … 𝑛1𝑗 … 𝑛1𝑚 𝑛1°

𝑥2 𝑛21 𝑛22 … 𝑛2𝑗 … 𝑛2𝑚 𝑛2° … … … … … … … …

𝑥𝑖 𝑛𝑖1 𝑛𝑖2 … 𝑛𝑖𝑗 … 𝑛𝑖𝑚 𝑛𝑖° … … … … … … … …

𝑥𝑘 𝑛𝑘1 𝑛𝑘2 … 𝑛𝑘𝑗 … 𝑛𝑘𝑚 𝑛𝑘° Marginali

di colonna 𝑛°1 𝑛°2 … 𝑛°𝑗 … 𝑛°𝑚 𝑁

Page 45: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Identità

Marginale di

riga 𝑛𝑖1 + 𝑛𝑖2 +⋯+ 𝑛𝑖𝑚 =∑𝑛𝑖𝑗 = 𝑛𝑖°

𝑚

𝑗=1

Somma delle frequenze della riga i-esima

Marginale di

colonna 𝑛1𝑗 + 𝑛2𝑗 +⋯+ 𝑛𝑘𝑗 =∑𝑛𝑖𝑗 = 𝑛°𝑗

𝑘

𝑖=1

Somma delle frequenze della colonna j-esima

Totale generale 𝑛11 + 𝑛12 +⋯+ 𝑛𝑘𝑚 =∑∑𝑛𝑖𝑗 = 𝑁

𝑚

𝑗=1

𝑘

𝑖=1

Somma di tutte le frequenze

: Spesa media mensile familiare per categoria di consumo e numero di componenti – Anno 2007

CATEGORIE DI CONSUMO

Numero componenti della famiglia

1

2

3

4

5 e +

Pane e cereali 49,69 73,10 92,89 107,23 121,92

Carne 62,67 103,08 122,51 140,14 163,01

Pesce 24,81 41,37 47,91 56,24 60,84

Latte, formaggi e uova 40,46 60,31 72,55 81,99 94,83

Oli e grassi 12,79 18,47 19,65 19,84 23,57

Patate, frutta e ortaggi 58,93 84,59 93,37 101,34 112,15

Zucchero, caffè e drogheria 23,15 31,99 37,58 41,40 46,81

Bevande 27,71 42,18 50,44 53,80 57,35

Alimentari e bevande 300,22 455,10 536,90 601,98 680,48

Tabacchi 12,26 19,33 26,97 29,32 33,96

Abbigliamento e calzature 80,24 128,53 196,21 245,55 245,53

Abitazione 570,76 707,06 707,04 702,70 645,63

Combustibili ed energia 87,41 115,52 130,27 134,87 146,46

Mobili, elettrod. e servizi 81,96 144,40 171,73 186,05 191,35 Fonte: ISTAT, indagine sui consumi delle famiglie residenti in Italia, anno 2007

Page 46: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Serie storiche Serie: classificazione delle osservazioni di un fenomeno rispetto ad un carattere

qualitativo.

Un particolare tipo di variabile qualitativa ordinale è il tempo

(le modalità possono essere gli anni, i mesi, i giorni o altre suddivisioni temporali).

La relativa distribuzione di frequenze prende il nome specifico di serie storica o serie

temporale.

Popolazione residente in Italia anni 1998-2008

ANNI Popolazione

a inizio anno

1998 56904379

1999 56909109

2000 56923524

2001 56960692

2002 56994000

2003 57321000

2004 57888000

2005 58462000

2006 58751711

2007 59131287

2008 59619290 Fonte: ISTAT

Rappresentazione grafica della serie storica

55500000

56000000

56500000

57000000

57500000

58000000

58500000

59000000

59500000

60000000

1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008

Popolazione residente in Italia; anni 1998-2008

Page 47: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Serie geografiche Le variabili nominali sono qualitative sconnesse. Non è possibile ordinare le modalità.

Una importante tipologia di variabile nominale è quella territoriale.

Le modalità della variabile sono dei luoghi geografici (i comuni, le province, le regioni, le

nazioni o altre ripartizioni geografiche.)

La relativa distribuzione di frequenze prende il nome specifico di serie territoriale o

serie geografica. Popolazione residente in famiglia e numero di

famiglie, per regione - Anno 2008

REGIONI

Popolazione

residente in

famiglia

Numero di

famiglie

Piemonte 4399040 1983902

Valle d'Aosta 126137 59053

Lombardia 9691943 4203176

Trentino AA 1008964 420018

… … …

… … …

Sicilia 5019500 1968412

Sardegna 1664560 672526

Italia 60730890 25061218

Nati vivi per i grandi comuni - Anno 2008

Grandi

Comuni Nati vivi

Torino 8538

Milano 12583

Verona 2343

Venezia 2047

Genova 4777

Bologna 3009

Firenze 3223

Roma 27603

Napoli 9697

Bari 2791

Palermo 6989

Catania 3072

Totale 86672

Page 48: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Distribuzione di una variabile con modalità divise in classi

Un discorso a parte meritano le distribuzioni con modalità suddivise in classi.

Variabile quantitativa continua o quantitativa discreta con molte modalità

È impossibile prendere tutte le modalità oppure si rischia di avere troppi valori.

L’accorgimento è il raggruppamento delle modalità in classi di valori adiacenti.

: “statura” non è possibile riportare tutte le modalità della variabile, perché

sono infinite. È necessario allora costruire delle classi di valori

Statura Frequenze

da 130 a 150 1938

da 150 a 160 2609

da 160 a 165 1162

da 165 a 170 1195

da 170 a 190 468

da 190 a 230 219

Totale 7591

Page 49: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

il primo valore di una classe è detto estremo inferiore

il secondo valore di una classe è detto estremo superiore

La differenza fra questi due valori si chiama ampiezza della classe

Statura Frequenze Ampiezza

della classe

Valore

centrale

𝑿 𝒏𝒊 𝒅𝒊 𝐜𝐢′

130 ⊢ 150 1938 20 140

150 ⊢ 160 2609 10 155

160 ⊢ 165 1162 5 162,5

165 ⊢ 170 1195 5 167,5

170 ⊢ 190 468 20 180

190 ⊢ 230 219 40 210 Totale 7591

Inclusione o meno degli estremi nella classe

Classi chiuse a sinistra: (70 ⊢ 75) ; (75 ⊢ 80) 75 va inserito nella seconda classe.

Classi chiuse a destra: (70 ⊣ 75) ; (75 ⊣ 80) 75 va inserito nella prima classe

Classi chiuse: (70 ⊢⊣ 75) ; (76 ⊢⊣ 80) 75 va inserito nella prima classe

𝐜𝐢′ =

ci−1 + ci2

è il valore che nei

calcoli andrà

utilizzato al posto di

𝑥𝑖, perché

rappresentativo della

classe.

Page 50: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Frequenze assolute e frequenze relative

Problema del confronto fra gruppi di unità statistiche.

: due classi di studenti sulla base dei voti

Corso A Corso B

voto in

statistica Frequenze

Assolute

Frequenze

Assolute

18 0 0

19 1 0

20 2 1

21 3 2

22 6 3

24 9 7

26 4 2

27 2 2

28 1 2

30 0 0

Totale 28 19

Page 51: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Prima di fare qualunque confronto, dobbiamo fare in modo che i due collettivi abbiano

la stessa numerosità senza però cambiare i dati.

Frequenze relative: dividere ogni frequenza assoluta per il corrispondente totale.

Ciò equivale a calcolare una frequenza rispetto ad un totale pari a 1.

Corso A Corso B

voto in

statistica Frequenze

Assolute

Frequenze

Assolute

18 0 0

19 1 0

20 2 1

21 3 2

22 6 3

24 9 7

26 4 2

27 2 2

28 1 2

30 0 0

Totale 28 19

Corso A Corso B

voto in

statistica

Frequenze Relative

Frequenze Relative

18 0.00 0.00

19 0.04 0.00

20 0.07 0.05

21 0.11 0.11

22 0.21 0.16

24 0.32 0.37

26 0.14 0.11

27 0.07 0.11

28 0.04 0.11

30 0.00 0.00

Totale 1.00 1.00

Page 52: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Simbologia

La i-esima frequenza relativa si indica con 𝑓𝑖

𝑓𝑖 =𝑛𝑖

𝑁 per 𝑖 = 1,… , 𝑘

Vale la seguente identità:

𝑓1+𝑓2 +⋯+ 𝑓𝑘 =∑𝑓𝑖

𝑘

𝑖=1

= 1

Page 53: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Frequenze percentuali

Spesso è più agevole capire il significato di un valore come 34% piuttosto che 0.34.

Si ricorre perciò alle frequenze percentuali, moltiplicando quelle relative per 100.

Frequenze

Relative

Frequenze

Percentuali

Titolo di studio Gruppo

A

Gruppo

B Titolo di studio Gruppo

A

Gruppo

B

Licenza elementare 0.06 0.03 Licenza elementare 6% 3%

Licenza media 0.19 0.27 Licenza media 19% 27%

Diploma 0.56 0.50 Diploma 56% 50%

Laurea 0.20 0.20 Laurea 20% 20%

totali 1.00 1.00 totali 100% 100%

Page 54: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Simbologia

La i-esima frequenza percentuale si indica con 𝑝𝑖

𝑝𝑖 =𝑛𝑖

𝑁× 100 = 𝑓𝑖 × 100 per 𝑖 = 1,… , 𝑘

Vale la seguente identità:

𝑝1+𝑝2 +⋯+ 𝑝𝑘 =∑𝑝𝑖

𝑘

𝑖=1

= 100

Freq.

Assolute

Freq.

Percentuali

𝑋 𝑛𝑖 𝑝𝑖 𝑥1 𝑛1 𝑝1 = 𝑛1 𝑁⁄ × 100

𝑥2 𝑛2 𝑝2 = 𝑛2 𝑁⁄ × 100 … … …

𝑥𝑖 𝑛𝑖 𝑝𝑖 = 𝑛𝑖 𝑁⁄ × 100 … … …

𝑥𝑘 𝑛𝑘 𝑝𝑘 = 𝑛𝑘 𝑁⁄ × 100

Totale 𝑵 100

Page 55: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Frequenze cumulate Quante unità statistiche posseggono le modalità che si trovano al di sotto di un

determinato valore della distribuzione.

Frequenza cumulata.

Titolo di studio

Frequenze

Assolute

Frequenze

Cumulate

Licenza elementare 5 5

Licenza media 17 22

Diploma 50 72

Laurea 18 90

totali 90

Quante persone posseggono un titolo inferiore o uguale alla licenza media?

La prima frequenza cumulata corrisponde alla frequenza assoluta

L’ultima frequenza cumulata è sempre pari al totale delle frequenze.

Page 56: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Ordinamento delle modalità e Simbologia

Per calcolare le frequenze cumulate bisogna avere le modalità ordinate.

Ha senso calcolare le frequenze cumulate solo se la variabile è misurata su scala

ordinale o a intervalli (no per le scale nominali)

La i-esima frequenza cumulata è data da:

𝑁𝑖 = 𝑛1 + 𝑛2 +⋯+ 𝑛𝑖

Frequenze relative cumulate 𝐹𝑖

𝐹𝑖 = 𝑓1 + 𝑓2 +⋯+ 𝑓𝑖 oppure 𝐹𝑖 =𝑁𝑖

𝑁

Frequenze percentuali cumulate 𝑃𝑖

𝑃𝑖 = 𝑝1 + 𝑝2 +⋯+ 𝑝𝑖 oppure 𝑃𝑖 = 100 ×𝑁𝑖

𝑁

Page 57: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Titolo di studio

Freq.

Assolute

Freq.

Cumulate

Fr. Relative

Cumulate

Fr. Percent.

Cumulate

Licenza elementare 5 5 0.056 5.6%

Licenza media 17 22 = 5+17 0.244 24.4%

Diploma 50 72 = 22+50 0.800 80.0%

Laurea 18 90 = 72+18 1.000 100.0%

totali 90

Simbologia

Variabile

Freq.

Assolute

Freq.

Relative

Freq.

Percentuali

Freq. Assolute

Cumulate

Freq. Relative

Cumulate

Freq. Percentuali

Cumulate

𝑿 𝒏𝒊 𝒇𝒊 𝒑𝒊 𝑵𝒊 𝑭𝒊 𝑷𝒊

𝑥1 𝑛1 𝑓1 𝑝1 𝑁1 = 𝑛1 𝐹1 = 𝑓1 𝑃1 = 𝑝1

𝑥2 𝑛2 𝑓2 𝑝2 𝑁2 = 𝑁1 + 𝑛2 𝐹2 = 𝐹1 + 𝑓2 𝑃2 = 𝑃1 + 𝑝2

… … … … … … …

𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑝𝑖 𝑁𝑖 = 𝑁𝑖−1 + 𝑛𝑖 𝐹𝑖 = 𝐹𝑖−1 + 𝑓𝑖 𝑃𝑖 = 𝑃𝑖−1 + 𝑝𝑖 … … … … … … …

𝑥𝑘 𝑛𝑘 𝑓𝑘 𝑝𝑘 𝑁 = 𝑁𝑘−1 + 𝑛𝑘 1 100

Totale 𝑵 1 100

Page 58: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Esempi di distribuzioni di frequenza Quando si legge una tabella di dati non sempre è immediato capire quali sono le variabili, le modalità e

le frequenze oppure se si tratta di una serie storica o territoriale.

Nella pratica non ci troveremo mai di fronte a casi semplici come quelli visti.

Presidi residenziali socio-assistenziali, posti letto e ospiti presenti per regione al 31 dicembre 2005

REGIONI Presidi

residenziali

Totale

posti letto

OSPITI

Minori Adulti Anziani Totale

Piemonte 1163 48904 1387 5741 35825 42953

Valle d'Aosta 45 1073 20 98 919 1037

Lombardia 1129 64570 2610 9257 49308 61175

Trentino-Alto

Adige 381 11759 508 2586 7913 11007

Bolzano/Bozen 150 4585 139 949 3303 4391

… … … … … … …

Veneto 669 37685 1083 4558 29221 34861

Calabria 208 5102 1323 674 2075 4072

Sicilia 488 15522 2145 3034 6392 11571

Sardegna 234 6652 391 871 4179 5441

Nord-ovest 2800 130255 4621 17287 97377 119286

Nord-est 2779 99682 4092 14445 70113 88650

Centro 1543 52839 2593 9380 34357 46330

Sud 1027 33801 3956 5807 17208 26974

Isole 722 22174 2536 3905 10571 17012

TOTALE 8871 338750 17799 50824 229628 298251 Fonte: ISTAT indagine sui presidi residenziali socio assistenziali, anno 2005

Page 59: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Presidi residenziali socio-assistenziali per tipo di utenza e tipologia di presidio al 31 dicembre 2005

TIPOLOGIA DI PRESIDIO

Utenza

Minori

(0-17)

Minori e

adulti

Adulti

(18-64)

Adulti e

anziani

Anziani

(65 e +)

Utenza

mista Totale

presidi

Centro di pronta accoglienza 48 47 28 13 1 21 158 Centro di accoglienza notturna 0 0 33 58 0 2 93

Comunità familiare 215 167 35 27 25 188 658 Comunità socio-educativa per minori 591 164 0 0 0 0 755

Comunità socio-riabilitativa 11 140 266 135 2 167 722 Comunità alloggio 152 316 232 187 166 96 1150

Istituto per minori 103 17 0 0 0 0 120

Resid. assistenz. per anziani autosuff. 0 0 0 997 792 0 1789

Residenza socio-sanitaria per anziani 0 0 0 1030 501 0 1531 Residenza sanitaria assistenziale (Rsa) 0 0 71 912 391 37 1412

Centro di accoglienza immigrati 0 20 45 5 0 232 302 Altro 5 25 44 48 19 41 181

TOTALE 1124 897 754 3413 1898 785 8871 Fonte: ISTAT indagine sui presidi residenziali socio assistenziali, anno 2005

Tabella doppia di frequenze

Page 60: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Numero spettacoli, Ingressi, Spesa al botteghino,

Spesa del pubblico e Volume d'affari per Mese evento - Anno 2006

Mese

dell’evento

Numero

spettacoli Ingressi

Spesa al

botteghino

Spesa del

pubblico

Volume

d'affari

Gennaio 228012 22618119 158633217.82 307084256.51 572653335.34

Febbraio 216444 18750015 148734973.02 250756465.79 649225235.11

Marzo 234396 21260438 172080707.42 296604395.23 556037580.28

Aprile 231135 22980732 173518270.80 312667407.07 462120941.46

Maggio 214604 19151071 150208725.30 294308861.09 392007747.44

Giugno 202594 13162630 131235134.79 295754662.55 499807687.88

Luglio 202967 12689367 152901831.99 358750085.05 461984542.71

Agosto 192473 14539836 168984816.89 372531030.11 430817758.97

Settembre 199959 17729356 187429676.36 335743285.30 458228181.50

Ottobre 216566 18989435 171070190.50 286952933.81 399685707.29

Novembre 214639 19245425 163390729.52 248913855.45 355421888.36

Dicembre 240169 23926596 193629052.56 368865581.99 543793549.81

Totale 2593958 225043020 1971817326.97 3728932819.95 5781784156.15 Fonte: ISTAT, cultura in cifre, anno 2006

Attenzione a non confondere questa tipologia di tabella con quella doppia. Qui non si tratta di una

distribuzione di frequenze doppia, ma di 5 diverse distribuzioni di frequenze assolute.

Infatti, in questo caso non ha senso il calcolo dei totali per riga.

Page 61: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

L’Istat fa una serie di indagini chiamate Indagini Multiscopo sulle famiglie. Una di queste

indagini si chiama “i cittadini e il tempo libero”.

Persone di 10-59 anni per eventuale pratica sportiva attuale o passata, frequenza della pratica

sportiva, sesso, classe di età e ripartiz. geogr. - Anno 2000 (per 100 persone di 10-59 anni) SESSO, CLASSI DI ETÀ

E RIPARTIZIONI

GEOGRAFICHE

PRATICA SPORTIVA

Con continuità Saltuariamente Con continuità

in passato

Saltuariamente

in passato

Mai fatto

sport

SESSO

Maschi 30.0 15.8 12.2 9.7 31.2 Femmine 19.0 9.7 10.8 8.2 51.0 Totale 24.5 12.7 11.5 9.0 41.0

CLASSI DI ETÀ

10⊢⊣14 53.7 10.5 6.3 1.8 25.6 15⊢⊣17 44.9 16.6 10.5 3.7 23.6 … … … … … … 50⊢⊣54 11.1 9.4 8.5 9.5 60.0 55⊢⊣59 11.0 7.0 8.2 8.0 63.9 Totale 24.5 12.7 11.5 9.0 41.0

RIPARTIZIONI GEOGRAFICHE

Italia nord-occidentale 27.1 15.4 13.6 10.0 33.1 Italia nord-orientale 31.0 16.0 15.1 9.1 27.9 Italia centrale 26.9 11.5 13.7 9.2 37.2 Italia meridionale 18.0 10.3 6.5 7.5 55.9 Italia insulare 18.9 9.0 8.5 9.1 52.8 Italia 24.5 12.7 11.5 9.0 41.0

Fonte: ISTAT, Indagine Multiscopo sulle famiglie “I cittadini e il tempo libero”, Anno 2000

Page 62: (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia ...dipartimenti.unich.it/pers/dizios/file/03_Statistica_Di_Zio_MODULO... · Le variabili su scala a intervalli o di rapporti sono

Sempre nell’ambito dell’indagine multiscopo “i cittadini e il tempo libero” dell’anno 2000

proponiamo la lettura di un’altra tabella.

A differenza della precedente, i valori percentuali sono riferiti alle colonne.

Persone di 3 anni e più per classe di età, attività svolta nel tempo libero

Anno 2000 (per 100 persone di 3 anni e più)

ATTIVITÀ NEL

TEMPO LIBERO

CLASSI DI ETÀ

Tot. 3 ⊢⊣

5

6 ⊢⊣

10

11 ⊢⊣

14

15 ⊢⊣

17

18 ⊢⊣

19

20 ⊢⊣

24

25 ⊢⊣

34

35 ⊢⊣

44

45 ⊢⊣

54

55 ⊢⊣

59

60 ⊢⊣

64

65 ⊢⊣

74 75 e più

GITE, ESCURSIONI, PIC-NIC

Una o più volte a settim. 2.7 2.1 1.8 1.6 2.5 2.0 2.7 2.5 2.1 3.0 2.1 0.9 0.6 2.1 Una o più volte al mese 13.5 18.2 16.0 13.9 14.9 14.8 14.3 14.6 12.0 9.3 7.7 5.0 1.5 11.6

Più raramente 45.8 53.7 55.9 51.7 51.1 48.8 48.6 50.1 43.7 39.3 35.0 27.0 13.4 42.4 Mai 32.5 23.7 24.1 31.1 29.3 32.4 32.5 31.2 40.1 46.7 53.3 65.1 82.2 41.8

Non indicato 5.6 2.4 2.1 1.7 2.2 2.0 1.9 1.5 2.1 1.6 1.8 1.9 2.3 2.0

Totale 100 100 100 100 100 100 100 100 100 100 100 100 100 100

PASSEGGIATE IN CITTÀ

Una o più volte a settim. 13.2 15.1 22.9 30.5 31.1 26.8 23.0 18.1 18.6 20.9 21.1 19.8 12.8 20.2 Una o più volte al mese 21.3 22.2 26.0 26.3 28.1 29.2 28.6 26.4 22.2 19.9 17.3 14.6 6.7 22.3

Più raramente 29.9 33.9 25.9 22.5 22.4 23.0 27.3 29.7 28.4 26.4 26.1 21.3 18.3 26.2

Mai 29.8 25.7 23.0 19.1 16.5 19.0 19.4 24.2 28.8 31.5 34.0 42.7 60.2 29.4

Non indicato 5.7 3.0 2.1 1.7 1.9 2.0 1.8 1.5 2.0 1.3 1.5 1.6 2.1 1.9

Totale 100 100 100 100 100 100 100 100 100 100 100 100 100 100

Fonte: ISTAT, Indagine Multiscopo sulle famiglie “I cittadini e il tempo libero”, Anno 2000