Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19)...

61
Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof. Michele Marzulli [email protected]

Transcript of Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19)...

Page 1: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Sociologia generale e Statistica sociale (19)

Corso di Lingue, Letterature e Culture Straniere

Anno accademico 2019-2020

Prof. Michele Marzulli

[email protected]

Page 2: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Competenze di base

• Alla fine del corso di statistica sociale ci si aspettache gli studenti abbiano acquisito alcune competenze di base, utili per comprendere alcune informazioni (dati statistici) che contribuiscono a regolare la vita nella nostra società.

• Dati demografici, socio-economici, socio-culturali sono la base per la conoscenza della società in cui viviamo e per orientare le nostre scelte.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale2

Page 3: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Sintesi dei principali argomenti trattati

• Notazioni di base: gli studenti sono in grado di riconoscere le principali convenzioni utilizzate per comunicare i dati ed effettuare elaborazione e analisi dei dati.

• Per es.: i fenomeni statistici (X, Y, Z,…) e le loro manifestazioni (x, y,…); la popolazione di riferimento (U) e la sua numerosità (N).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale3

Page 4: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Sintesi dei principali argomenti trattati

• Il linguaggio delle variabili: è stato inoltre chiarito come quello della statistica sia un linguaggio culturalmente connotato, che intende e tratta i fenomeni sociali secondo un paradigma di scienza, che si differenzia da altri paradigmi (cfr. distinzione tra metodologia quantitativa e qualitativa).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale4

Page 5: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Competenze utili la prova d’esame

• In questa prima fase abbiamo visto come costruire una semplice tabella con frequenze in percentuali o in valori assoluti.

• Ci si attende che gli studenti siano in grado di costruire % a partire dai valori assoluti o viceversa, conoscendo N, siano in grado di indicare i v.a. a partire dai quelli %.

• L’arrotondamento delle cifre è considerata un’operazione elementare e indispensabile.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale5

Page 6: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Competenze utili la prova d’esame

• Ci si attende che gli studenti siano inoltre in grado di individuare le fonti statistiche dei dati, leggere le tabelle, organizzare le informazioni in modo formalizzato.

• Per es.: individuare la numerosità di un campione, oppure le variabili statistiche e le loro modalità.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale6

Page 7: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Tipologia dei fenomeni statistici

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale7

statistico

Page 8: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Classificazione delle scale di modalità

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale8

M/F; sì/no

t.studio

N° accessi web (0, 1, 2, 3, …)

0° C / 0° F

Page 9: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Competenze utili la prova d’esame

• Per ogni fenomeno sociale indicato, ci si aspetta che gli studenti siano in grado di individuare (1) la popolazione di riferimento; (2) il tipo di dato; (3) la scala di modalità più opportuna; (4) le operazioni effettuabili tra le modalità della scala.

– X: regione di residenza e genere dei laureati italiani in Lingue nell’anno 2017.

1= i laureati in Lingue in Italia nel 2017; 2= qualitativo categoriale; 3= Lombardia, Piemonte… M/F; 4= presenza /assenza, (=) e (≠).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale9

Page 10: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Statistica descrittiva monovariata

• Abbiamo parlato di frequenze, cioè della prima e indispensabile forma di organizzazione dei dati, che precede ogni analisi.

• La lettura e analisi delle frequenze è indispensabile per la prima forma di analisi statistica, quella monovariata, che prende in considerazione un fenomeno statistico alla volta.

• In questo caso, il passaggio fondamentale è quello dai dai grezzi alla tavola/tabella di frequenza.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale10

Page 11: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

La distribuzione di frequenza

• Operazione imprescindibile per effettuare l’analisi monovariata dei dati è quella di costruire la distribuzione di frequenza a partire dai dati grezzi (cioè raccolti per es. con un questionario).

• È possibile quindi rappresentare un fenomeno di interesse, a partire dai dati grezzi, individuando le frequenze assolute e relative (e anche rappresentarle graficamente).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale11

Page 12: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

La distribuzione di frequenza

• Esempio: regione di provenienza delle persone intervistate.

• Dati grezzi: X = Lombardia, Veneto, V, V, L, Piemonte, Friuli, F, L, V, F, F, P, L, L, V.

• Modalità (4), freq. ass. (fi), freq. relative (pi).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale12

xi fi pi

Lombardia 5 0,31

Veneto 5 0,31

Piemonte 2 0,12

Friuli 4 0,25

16 1

Page 13: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Rappresentazione grafica

Regione (X)

Lombardia Piemonte Veneto Friuli

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale13

0

1

2

3

4

5

6

Lombardia Veneto Friuli Piemonte

Regione (X)

Page 14: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Frequenze relative

• Per effettuare un confronto tra frequenze, devo depurare il dato dall’influenza di N (numerosità della popolazione). Più grande è N, maggiore sarà la frequenza (fi).

• La frequenza relativa associata alla modalità xi è il

rapporto tra la freq. ass. e N 𝑝𝑖 = 𝑓 ሶ𝑖

𝑁

• Le relative, in quanto grandezze adimensionali, sono sempre confrontabili.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale14

Page 15: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Frequenze relative

• Le f.r. (𝑝𝑖) sono rapporti che hanno al denominatore il totale del numeratore. Sono una parte del tutto, dell’intero. Quindi sono sempre comprese fra 0… 1

0 ≤ 𝑝𝑖 ≤ 1

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale15

Page 16: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Frequenze percentuali (%)

• Moltiplicando per 100 le frequenze relative si ottengono le frequenze percentuali (%).

pi ∙ 100

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale16

Page 17: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Frequenze cumulate

• È buona norma ordinare in senso crescente le modalità osservate. Aiuta a capire per es. quante sono le unità statistiche (tre le N) che manifestano una modalità grande fino a… xi.

• Frequenze cumulate assolute (Fi ) e relative o percentuali ( Фi ).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale17

Page 18: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Frequenze cumulate

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale18

xi fi pi 100 pi Fi Фi

Lombardia 5 0,31 31 5 31

Veneto 5 0,31 31 10 62

Piemonte 2 0,13 13 12 75

Friuli 4 0,25 25 16 100

16 1 100

Page 19: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

I valori medi

• La moda o norma (x0 ) di una variabile statistica è la modalità a cui è associata la frequenza più elevata fra le k osservate.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale19

Page 20: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

I valori medi

• La mediana (x0.5) è la modalità che, nell’ordinamento, occupa la posizione centrale.

– Il 50% di unità statistiche presenta valori di X inferiori o uguali alla mediana; il 50% valori superiori o uguali.

• Per calcolare la mediana useremo la formula:

𝑥0.5 = (𝑛+1)/2

[cioè: numero totale dei casi + 1 diviso 2]

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale20

Page 21: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Generalizzazioni della mediana

• La mediana di X permette di dividere U in due gruppiugualmente numerosi (50-50). Quindi permette di dividere in più gruppi: quartili, decili, percentili. Cioè si può generalizzare.

• I quartili di X sono le tre modalità:

– x0.25 il 25% di U (quartile inferiore)

– x0.5 il 50% di U ( = mediana)

– x0.75 il 75% di U (quartile superiore)

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale21

Page 22: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Sintesi in 5 numeri

• Per un fenomeno almeno ordinale (qualitativo ordinale o quantitativo) la v.s. può essere descritta da 5 numeri:

1. Minimo: x1

2. Primo quartile: x0.25

3. Mediana (2° quartile): x0.5

4. Terzo quartile: x0.75

5. Massimo: xk

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale22

Page 23: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

I blox-plot (1)

• La sintesi dei 5 numeri si può rappresentare graficamente con il blox-plot.

– I 3 quartili (primo, secondo, terzo) costituiscono il box.

• Minimo e massimo costituiscono le braccia: x1 = xmin , xk = xmax

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale23

Page 24: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

I blox-plot (2)

• Minimo x1 = 18; massimo = 25; x0.25 = 20; x0.5 = 22; x0.75 = 23.

• La rappresentazione dice che la distribuzione tende alla simmetria, con una lieve sovra-rappresentazione delle età maggiori.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale24

Page 25: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

La media

• La media aritmetica (തx) è la somma dei valori numerici divisa per il numero dei valori numerici

• Essa rappresenta un valore di sintesi che può essere utilizzato quando si hanno fenomeni quantitativi, in cui non solo le frequenze, ma anche le modalitàsono numeri.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale25

Page 26: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

La media aritmetica

• La sua formalizzazione è questa (media ponderata).

– Cioè moltiplicare tutte le k modalità osservate xi, per il numero di volte in cui è stato osservato (fi); sommare tutto; dividere per il numero di unità statistiche osservate (N).

– Se usiamo le frequenze relative (cioè divise per N), possiamo usare la seconda formula.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale26

Page 27: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Esempio (sintesi)

• Gli acquisti dei 12 clienti di una finanziaria (es. 5.9)

• Dati grezzi (in euro): 440, 330, 340, 420, 340, 340, 420, 310, 410, 380, 240, 270.

• Sintesi attraverso moda, media e mediana.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale27

Page 28: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Esempio (sintesi)

• Moda: 340

• Media: 353,33

• Mediana: 340

xi fi pi Фi

240 1 0.08 0.08

270 1 0.08 0.16

310 1 0.08 0.24

330 1 0.08 0.32

340 3 0.25 0.57

380 1 0.08 0.65

410 1 0.08 0.73

420 2 0.17 0.90

440 1 0.08 1

12 1 (circa)

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale28

Page 29: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Scarti/deviazioni dalla media

• Scarti o deviazioni dalla media: (𝑥𝑖 - ҧ𝑥)

• Scarto ponderato, su tutte le frequenze: (𝑥𝑖 - ҧ𝑥) 𝑓𝑖

• La media è sempre compresa tra il valore minimo e il valore massimo. Quindi vi saranno k scarti negativi e postivi. Se lo scarto è positivo (𝑥𝑖 - ҧ𝑥) > 0 è sopra-

media (altrimenti è negativo: < 0 ).

• Scarto quadratico: eliminare l’influenza del segno (𝑥𝑖 - ҧ𝑥)2 𝑓𝑖

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale29

Page 30: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Variabilità o dispersione

• La media è un valore che non coglie la variabilità o dispersione di un fenomeno, il fatto cioè che tende a manifestarsi sulle u di U in modo diverso e distante.

• Occorre misurarla. Una misura della variabilità è un indice sintetico che:

– Assume valore 0 in assenza di variabilità (X si manifesta su U con una sola modalità, è una v.s. costante).

– Assume valori positivi (> 0) quando X si manifesta con modalità differenti (cioè variabilità). Maggiore è la variabilità, maggiore è il valore della misura.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale30

Page 31: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Misura della variabilità

• La prima misura della variabilità è il range (o campo di variazione) cioè: xmax - xmin

• Se ordino le frequenze in modo crescente (19, … , 45), identifico il valore minimo e massimo (xmin =19, xmax =45). Il range è 26 (45-19=26).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale31

Page 32: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Differenza interquartile

• Una seconda misura della variabilità è la differenza interquartile, cioè tra i due quartili, superiore e inferiore o IQR (inter-quartile range):

IQR = x0.75 - x0.25 oppure IQ = Q3 - Q1

• Con l’IQR prendo solo metà delle osservazioni (la metà che va dal 25% al 75%), elimino le code (e i valori anomali).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale32

Page 33: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Deviazione standard

• Una misura più raffinata perché prende tutta la v.s. (non taglia le code) è la deviazione standard o scarto quadratico medio (𝝈).

• Essa confronta ciascuna delle modalità osservate (xi) con un valore fisso ( ҧ𝑥).

𝜎 =1

𝑁

𝑖=1

𝑘

𝑥𝑖 − ҧ𝑥 2 𝑓𝑖

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale33

Page 34: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Deviazione standard

• 𝜎 misura la variabilità di X considerando la dispersione dei suoi valori intorno al suo valore medio. Il fenomeno X si manifesta su U con valori che in media distano da ҧ𝑥 per ± 𝜎.

• Formula alternativa

𝜎 =1

𝑁σ𝑖=1𝑘 𝑥𝑖2𝑓𝑖 − ҧ𝑥2

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale34

Page 35: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Deviazione standard (esercizio, 7.2)

• Livello di difficoltà di navigazione internet per numero degli utenti.

• Livello: 1, 2, 3, 4, 5; n°utenti: 121, 130, 112, 80, 44.

• Risposta: ҧ𝑥= 1257/487= 2,58

• E la sigma?

xi fi xi fi

1 121 121

2 130 260

3 112 336

4 80 320

5 44 220

N=487 1257

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale35

Page 36: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Deviazione standard (esercizio, 7.2)

• Calcolo della deviazione standard.

• Primo di tutto: media degli scarti: 784,54.

• Radice^2 del rapporto degli scarti dalla media:

• 𝜎 =784,54

487= 1,27

xi fi xi fi (xi- ҧ𝑥)2fi

1 121 121 302,06

2 130 260 43,73

3 112 336 19,76

4 80 320 161,31

5 44 220 257,68

N=487 1257 784,54

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale36

257,68 = (5-2,58)2 ∙ 44

Page 37: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Varianza

• A partire dalla deviazione standard è possibile costruire altre misure di variabilità, come la varianza: 𝜎2

– È la formula precedente elevata al quadrato: il vantaggio è quello di fare a meno della radicequadrata.

• La 𝜎2 vale 0 nel caso di nessuna variabilità e aumenta all’aumentare della variabilità.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale37

Page 38: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Devianza

• Una seconda misura derivata è la devianza, cioè 𝜎2N (o somma dei quadrati degli scarti dalla media).

• Anch’essa ha il senso di semplificare l’analisi, perché elimina N dal denominatore.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale38

Page 39: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Il coefficiente di variazione

• Range, IQR, deviazione standard, varianza e devianza sono misure assolute della variabilità.

• Sono quindi influenzate dall’ordine di grandezza e dall’unità di misura, quindi non sono confrontabili.

• Ci vuole una misura di variabilità relativa, come il

coefficiente di variazione: 𝑐𝑣 =𝜎

ҧ𝑥

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale39

Page 40: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Dalla monovariata alla bivariata

• Bivariata: la rilevazione congiunta di una coppia di fenomeni statistici sulla stessa popolazione. Obiettivo: capire se e come esiste una relazione statistica tra i due fenomeni. È la base per capire se due fenomeni co-variano e si influenzano.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale40

Page 41: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Tabelle a doppia entrata

• Sono lo strumento fondamentale per analizzare due variabili alla volta. Rappresentano la distribuzione di frequenza per due VAR.

• Nella tabella, in riga e in colonna posso leggere le frequenze condizionate Y|xi e X|yi

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale41

Page 42: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Frequenze condizionate

• Le freq. cond. indicano il comportamento di un fenomeno è condizionato da un altro.

• Le v.s. condizionate si leggono sulle singole righe (o colonne): Y|xi e X|yi (cioè Y dato xi o X dato yi).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale42

Page 43: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Le variabili statistiche condizionate

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale43

La distribuzione condizionata di X|yj si ottiene fissando una modalità yj per il carattere Y ed esaminando la distribuzione di X limitatamente alle unità statistiche che possiedono quella modalità yj per il carattere Y.

Page 44: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Variabili condizionate

• La scelta delle colonne o delle righe non è indifferente. Si scelgono le % di colonna per analizzare l’influenza che la variabile in colonna ha su quella di riga. E viceversa (Amaturo, 2012: 409 e ss.).

• Un regola fondamentale per decidere la direzione delle % è definire quale tra le variabili è indipendente e fare le % all’interno delle sue modalità.

• Dopo aver costruita la tabella di contingenza va letta nella direzione opposta a quella in cui è stata calcolata la %. Se le % sono di colonna, la tabella si commenta di riga.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale44

Page 45: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Tabelle a doppia entrata: es.

nessuno 1 gen. fuma entrambi

Figlio non fuma

116 182 138 436

Figlio fuma 18 41 40 99

134 223 178 535

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale45

• La tabella incrocia i dati grezzi (valori assoluti) del fenomeno X (il figlio fuma oppure non fuma, k=2) con il fenomeno Y (i genitori non fumano, uno dei genitori fuma, entrambi fumano, h=3).

• L’esercizio consiste nel comprendere se esiste una relazione tra il comportamento dei genitori (variabile indipendente) e quello dei figli (dipendente).

Page 46: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Tabelle a doppia entrata: es.

nessuno 1 gen. fuma entrambi

Figlio non fuma

86,57 81,61 77,53

Figlio fuma 13,43 18,39 22,47

100,00 100,00 100,00

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale46

• Per capire se Y condiziona X, dobbiamo prendere inconsiderazione le frequenze condizionate X|yi cioè le colonne. Ecco i risultati in valori %.

• Si può commentare la tabella orizzontalmente dicendo che la propensione dei figli a fumare aumenta all’aumentare di quella dei genitori. È quasi doppia nei figli di due fumatori rispetto ai non fumatori.

Page 47: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Esercizio (n. 9.6, p. E40)

• Un’agenzia immobiliare effettua un’indagine sui prezzi dei suoi appartamenti, osservando il fenomeno «prezzo» (€) e il fenomeno «superficie calpestabile» (m2).

• Organizzare i dati grezzi in una tabella a doppia entrata, utilizzando per il prezzo gli intervalli (0-100, 100-300, 300-500, 500-700) e per le superfici gli intervalli (0-30, 30-60, 60-90).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale47

Page 48: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Esercizio (n. 9.6, p. E40)

• Dati grezzi (qui sotto sono già ordinati).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale48

M2 23 24 25 26 27 28 28 38 45

€ 136 263 220 99 238 180 236 297 316

M2 51 56 58 59 62 72 85

€ 308 390 399 436 413 588 679

Page 49: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Esercizio (n. 9.6, p. E40)

• In primo luogo si costruisce la tabella a doppia entrata.

• Poi si costruiscono le v.s. «prezzo» condizionate dalla modalità «superficie» (Y|xi).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale49

X Y 0-100 100-300 300-500 500-700 Tot. (fi.)

0-30 1 6 0 0 7

30-60 0 1 5 0 6

60-90 0 0 1 2 3

Tot. (f.j) 1 7 7 1 16

prezzo

sup

erfi

cie

Page 50: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Esercizio (n. 9.6, p. E40)

• Ecco la tabelle delle frequenze condizionate (Y|xi), valori % (i decimali sono assorbiti dall’arrotondamento, data l’esiguità dei

valori).

• La tabella mostra come i prezzi siano legati alla metratura (per gli amanti della matematica, si può intuire una diagonale).

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale50

X Y 0-100 100-300 300-500 500-700 Tot. (fi.)

Y|0-30 14 86 0 0 100

Y|30-60 0 17 83 0 100

Y|60-90 0 0 33 67 100

Tot. (f.j/N∙100) 6 44 38 12 100

Page 51: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Indipendenza statistica

• Due fenomeni X e Y sono indipendentistatisticamente (i.s.) se non esiste alcuna relazione statistica tra loro.

• Per verificarlo, bisogna confrontare le frequenze condizionate con le frequenze marginali.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale51

Page 52: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Indipendenza statistica

• Se tutte le frequenze condizionate (fij / fi) sono uguali fra loro e uguali alla marginale (relativa), significa che Y si comporta nello stesso modo. Quindi X e Y sono indipendenti statisticamente.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale52

Page 53: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Le frequenze attese

• Le frequenze che realizzano la condizione di indipendenza statistica sono definite frequenze attese (diverse dalle frequenze osservate).

• Tenendo fisse le frequenze marginali, possiamo calcolare le frequenze attese di i. s.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale53

Page 54: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Esempio (freq. oss. e attese)

nessuno 1 gen. fuma entrambi

Figlio non fuma

116 182 138 436

Figlio fuma 18 41 40 99

134 223 178 535

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale54

nessuno 1 gen. fuma entrambi

Figlio non fuma

109,20 181,73 145,06 436

Figlio fuma 24,80 41,27 32,93 99

134 223 178 535

Page 55: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Test di associazione

• La distinzione tra frequenze attese e frequenze osservate è indispensabile per effettuare test del χ2

• χ2 = 0 X e Y sono statisticamente indipendenti.

• χ2 > 0 è presente una qualche forma di associazione.

χ2 = σ 𝑓𝑜 −𝑓𝑒

2

𝑓𝑒

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale55

Page 56: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Test di associazione (esempio)

• Da tavole sul fumo:

• χ2 =116−109,20 2

109,20+

182−181,73 2

181,73+⋯+

40−32,93 2

32,93= 4,15

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale56

Page 57: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Dalla descrizione all’inferenza

• Normalmente in statistica non si dispone di dati sull’intera popolazione, ma di un sottoinsieme della popolazione totale, cioè con un campione (che ha una numerosità n < N).

• In questi casi, si tratta di estendere i risultati dell’analisi all’intera popolazione, cioè inferire.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale57

Page 58: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Il campionamento

• L’operazione di scelta casuale del campione di n unità statistiche fra le N che compongono l’intera U è chiamata campionamento.

• Il numero n è detto numerosità o ampiezza campionaria.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale58

Page 59: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Variabilità campionaria ed errore campionario

• L’inferenza statistica comporta dunque necessariamente incertezza e rischio di errore(errore campionario).

• Fare buona inferenza significa controllare e misurare l’errore campionario.

• Nell’inferenza statistica che si basa su campioni casuali, l’errore campionario è controllato e misurato scientificamente con le probabilità.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale59

Page 60: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Errore campionario

• Formula per calcolare l’errore standard:

se = 𝝈

𝑛

• Standard error = deviazione standard in rapporto alla radice quadrata del valore del campione.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale60

Page 61: Sociologia generale e Statistica sociale (19)€¦ · Sociologia generale e Statistica sociale (19) Corso di Lingue, Letterature e Culture Straniere Anno accademico 2019-2020 Prof.

Campionamento sistematico

• Il campione (n) è selezionato a intervalli regolari (k).– Passo di campionamento (k): si seleziona un caso ogni

k dove k = N/n.

– N = 1500, n = 100 k = 1500/100 = 15

– Seleziono un caso ogni 15 (nella lista della popolazione).

– In genere: se estrae anche un numero da 1 a 15, che sarà il primo della lista da cui partire: se esce 7, sarà il primo estratto, il secondo sarà 22, il terzo 37… fino all’esaurimento della lista.

a.a. 2019/2020Michele Marzulli - Sociologia e Statistica

sociale61