-1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di...

56
Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità Corso di Psicometria Progredito 2.1 Statistica descrittiva (Richiami) Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013 - 2014

Transcript of -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di...

Page 1: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Corso di Psicometria Progredito2.1 Statistica descrittiva (Richiami)

Prima Parte

Gianmarco AltoèDipartimento di Pedagogia, Psicologia e Filosofia

Università di Cagliari, Anno Accademico 2013 - 2014

Page 2: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Sommario

1 Distribuzioni di frequenza

2 Indici di tendenza centrale

3 Indici di posizione

4 Indici di variabilità

Page 3: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

L’importanza della statistica descrittiva!

La statistica descrittiva serve ascattare una prima fotografia aidati raccolti.

E’ utile per controllare,descrivere ed esplorare i dati.

Serve a riassumere i datiattraverso indici statistici,tabelle e grafici.

Non esiste una buona analisistatistica, senza una buonaanalisi descrittiva.

Tukey, 1977. Exploratory Data Analysis

Page 4: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Il corso preparto

Si supponga di aver chiesto aun gruppo di mamme chepartecipano ad un corsopre-parto il numero di figli giàavuti

I dati raccolti sono presentatinella seguente tabella

Codice mamma Numero di figli1 02 03 14 05 26 07 18 39 010 111 212 213 114 315 216 0

Page 5: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Alcune domande

Qual è l’unità statistica di riferimento?

Quante sono le unità statistiche rilevate?

Qual è la variabile rilevata?

Quali e quante sono le modalità della variabile rilevata?

Page 6: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Notazioni fondamentali

Sia X la variabile numero di figli.

Sia Xj la modalità j − esima di X,dove j = 1 . . . 4.

Sia n il totale delle unità statistiche (n = 16).

Page 7: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Le frequenze assolute semplici

La frequenza assoluta semplice di una modalità è il numeronaturale di unità statistiche che presentano tale modalità

La generica frequenza assoluta semplice associata allamodalità j si indica con il simbolo fj

Ad esempio nel nostro caso, f2 = 4, indica che 4 mammehanno già avuto un figlio

Page 8: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Le frequenze assolute cumulate

La frequenza assoluta cumulata di una modalità è la sommadelle frequenze assolute semplici delle modalità precedentialla modalità data più la frequenza assoluta semplice dellamodalità data.

La generica frequenza assoluta cumulata associata allamodalità j si indica con il simbolo Fj

Ad esempio, F2 = 10, indica che 10 mamme hanno avuto unnumero di figli uguale o inferiore a 1

Page 9: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Le frequenze relative semplici

La frequenza relativa semplice è data dal rapporto tra lafrequenza assoluta semplice di tale modalità e il numerototale di unità statistiche osservate.

La generica frequenza relativa semplice associata allamodalità j si indica con il simbolo pj

Ad esempio, p2 = .25, indica che il 25% delle mamme haavuto un figlio

NB. Una frequenza relativa semplice varia sempre tra 0 e 1

Page 10: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Le frequenze relative cumulate

La frequenza relativa cumulata di una modalità è la sommadelle frequenze relative semplice delle modalità precedentialla modalità data più la frequenza relativa semplice dellamodalità data.

La generica frequenza relativa cumulata associata allamodalità j si indica con il simbolo Pj

Ad esempio, P2 = .625, indica che il 62.5% delle mamme haavuto un numero di figli uguale o inferiore a 1

NB. Una frequenza relativa cumulata varia sempre tra 0 e 1

Page 11: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Aspetti computazionaliSupponiamo di aver rilevato su n unità statistiche la variabile Xavente k modalità: X1 , X2 . . . , XkPer la generica modalità j , dove j = 1, 2, . . . k avremo:

Frequenza assoluta semplice j

fj = numero di unità statistiche con modalità j

Frequenza assoluta cumulata j

Fj =∑i ≤ j

fi

Frequenza relativa semplice j

pj =fjn

Frequenza relativa cumulata j

Pj =∑i ≤ j

pi

Page 12: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Aspetti computazionaliDa quanto detto segue che ...

1 La frequenza assoluta cumulata riferita all’ultima modalità èpari al numero totale delle unità statistiche:

Fk = n

2 La frequenza relativa cumulata riferita all’ultima modalità èpari 1:

Pk = 1

ESERCIZIODimostrare queste due semplici proprietà.

Page 13: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Esempio: Il corso pre parto

Indice j Xj fj Fj pj Pj

1 0 6 6 .375 .3752 1 4 10 .250 .6253 2 4 14 .250 .8754 più di 2 2 16 .125 1

Distribuzione del numero di figli (X) per mamma

ESERCIZIOComprendere, interpretare e descrivere i risultati ottenuti.

Page 14: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Esercizio: Un Maestro di clarinetto

Un maestro di clarinetto dopoaver ascoltato le performancedei suoi studenti, decide diriassumere le sue valutazioni inmaniera sintetica.

Il prospetto creato dal Maestroè presentato nella seguentetabella

Valutazione Numero di studentiinsufficiente 0sufficiente 8discreto 6buono 4ottimo 2

Individuare le unità statistiche e la variabile misurata.Costruire una tabella riassuntiva contenente le frequenza assolutesemplici e cumulate e le frequenze relative semplici e cumulate.Commentare i risultati.

Page 15: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Introduzione agli indici di tendenza centrale

Un indice di tendenza centraleè un valore che descrive e riassumeil centro di una distribuzione di dati.

Page 16: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La Moda

La moda di una distribuzione di dati rilevati sulla variabile X,è la modalità che si presenta con la massima frequenza.

Ad esempio, rispetto ai dati relativi al “corso preparto”, lamoda è la modalità 0 (nessun figlio) a cui è associata unafrequenza di 6.

Page 17: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La Mediana (o “il dato di mezzo”)

La mediana di una distribuzione di dati ordinati rilevati sullavariabile X, è il dato che occupa la posizione centrale rispettoalla distribuzione dei dati.

La mediana si indica con il simbolo Mdn.

Il calcolo della mediana differisce a seconda se i dati sono onon sono raggruppati in classi di frequenza.

Page 18: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Calcolo della mediana per dati non raggruppati:caso n dispari

Se n (la numerosità dei dati raccolti) è dispari il valorecentrale della serie ordinata dei dati è la mediana.

La posizione i del dato corrispondente alla mediana è datodalla seguente formula:

i =n + 1

2

Page 19: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Calcolo della mediana per dati non raggruppati:caso n dispari

Esempio Calcolare la mediana dei seguenti dati cherappresentano il voto di 5 studenti all’esame di archeologia:

voto: 18 ; 28 ; 19 ; 18 ; 22

Ordiniamo i dati: 18 ; 18 ; 19 ; 22 ; 28

Calcoliamo la posizione i del dato corrispondente allamediana:

i =n + 1

2=5 + 1

2= 3

Posizione mediana = 3

Mdn = 19

Page 20: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Calcolo della mediana per dati non raggruppati:caso n pari

Se n è pari non esiste un valore della serie di dati che possaessere definito centrale.

Si potrà unicamente dire che la mediana è compresa tra ivalori aventi le seguenti posizioni “centrali”

iinf =n

2e isup =

n

2+ 1

Page 21: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Calcolo della mediana per dati non raggruppati:caso n dispari

Esempio Calcolare la mediana dei seguenti dati cherappresentano il voto di 6 studenti all’esame di storia del cinema:

voto: 24 ; 29 ; 30 ; 22 ; 22 ; 26

Ordiniamo i dati: 22 ; 22 ; 24 ; 26 ; 29 ; 30

Calcoliamo le posizioni centrali:

iinf =6

2= 3 isup =

6

2+ 1 = 4

Concluderemo che la mediana (Mdn) dei dati è compresa tra24 e 26.

Page 22: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Nota sull’uso dell’interpolazione lineare

Nel caso in cui n è pari e i dati a disposizione oltre cheordinali sono anche continui è possibile stimare la medianaattraverso l’interpolazione lineare:

XMdn =Xiinf +Xisup

2

Con i dati dell’esempio sul voto all’esame di storia del cinemaavremo che:

XMdn =24 + 26

2= 25

In conclusione la mediana stimata è 25.

Page 23: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Calcolo della mediana per dati raggruppati in classedi frequenze

Sei dati sono raggruppati in classi di frequenza ha sensoparlare di classe mediana più che di valore mediano.

Per determinare la classe mediana è necessario calcolare laposizione mediana:

i =n + 1

2

La classe che contiene il dato avente la posizione mediana,sarà denominata classe mediana

Anche in questo caso, se i dati oltre che ordinali sonocontinui, può essere stimato un valore mediano (la formula,che non vedremo, si trova in tutti i manuali di statistica dibase).

Page 24: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Calcolo della mediana per dati raggruppati in classedi frequenze

EsempioCalcolare la classe mediana dei seguenti dati:

Indice j Xj fj Fj pj Pj

1 0 6 6 .375 .3752 1 4 10 .250 .6253 2 4 14 .250 .8754 più di 2 2 16 .125 1

Distribuzione del numero di figli (X) per mamma

Calcoliamo la posizione mediana: i = 16+12 = 8.5

La mediana ricade quindi tra l’ottavo e il nono dato ordinato.

Sulla base delle frequenze cumulate si può concludere che laclasse mediana è quella con numero di figli pari a 1.

Page 25: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La Media aritmetica

La media aritmetica di una distribuzione di dati rilevati sullavariabile X, è il data dalla somma dei dati divisa per il numero diunità statistiche:

X =

∑ni=1Xin

Page 26: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La Media aritmetica

EsempioCalcolare la media dei seguenti dati che rappresentano il voto di 5studenti all’esame di archeologia:

voto: 18 ; 28 ; 19 ; 18 ; 22

Svolgimento

X =

∑5i=1Xin

=18 + 28 + 19 + 18 + 22

5= 21

Page 27: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La Media aritmetica

EsercizioCalcolare la media dei seguenti dati che rappresentano il voto di 6studenti all’esame di storia del cinema:

voto: 24 ; 29 ; 30 ; 22 ; 22 ; 26

Page 28: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La Media aritmetica ponderata per dati in classi difrequenza

Se i dati sono raccolti in classi di frequenza, la mediaaritmetica si calcola associando a ciascun dato la frequenza(“il peso”) con cui si manifesta.

Per questo motivo si usa il termine: media aritmeticaponderata (“pesata”).

Dal punto di vista computazionale avremo:

X =

∑ki=1Xi fi∑ki fi

dove k è il numero di modalità della variabile X

Page 29: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La Media aritmetica ponderata

EsempioSulla base dei dati riportati nella seguente tabella calcolare lamedia dei voti ottenuti dai 22 studenti che hanno partecipatoall’ultimo appello di Statistica per l’Ambiente:

Indice i voto Xi frequenze fi1 20 112 24 73 30 4

Svolgimento

X =

∑3i=1Xi fi∑3i=1 fi

=20× 11 + 24× 7 + 30× 4

22= 23.09

Page 30: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Alcune proprietà della media

Aggiungendo a ciascun dato originale una costante k siotterrà una media pari alla somma della media dei datioriginali e la costante k :

X =

∑(Xi + k)

n= Xdati originali + k

Moltiplicando ciascun dato per una costante k si otterrà unamedia pari alla moltiplicazione tra la media dei dati originali ela costante k:

X =

∑(kXi)

n= kXdati originali

La somma degli scarti tra i dati rilevati e la media è pari a 0:

X =∑(Xi −X) = 0

Page 31: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Alcune note su moda, mediana e media

Può accadere che data una distribuzione di dati, esista più diuna modalità a cui è associata la massima frequenza. Inquesti casi non esiste un’unica Moda, e si parlerà a secondadel caso di distribuzione bi-modale (con due mode),tri-modale (con tre mode) ....

La mediana è poco influenzata (al contrario della media) davalori estremamente grandi o piccoli presenti nelladistribuzione dei dati. Per questo viene detta stimatore“robusto”

Page 32: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Note su moda, mediana e media: Un esercizio

Costruire un prospetto riepilogativo contenente moda, mediana emedia della distribuzione del peso (espresso in kilogrammi) perciascuna delle seguenti squadre di calcetto:

Longobarda: {80, 80, 85, 90, 90}

Equality: {85, 85, 85, 85, 85}

I Cardi: {60, 60, 85, 90, 95}

I Bistecconi: {75, 80, 85, 120, 120}

I Classici: {75 ,80 ,85, 90, 95}

Ragionare sui risultati ottenuti.

Page 33: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Indici di tendenza centrale e scale di misura

Variabile Variabile Variabilenominale Ordinale Quantitativa

Moda SI SI SIMediana NO SI SIMedia NO NO SI

Applicabilità degli indici a seconda della scala di misura

Page 34: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

I quantili

Data una distribuzione di dati, si definisce come Quantile diindice p e si indica con Qp, il dato al di sotto del quale sisitua una percentuale p di dati.

Ad esempio, la mediana può essere considerata come ilquantile Q50, e cioè il dato al di sotto del quale si situa il50% dei dati.

Page 35: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Le Diverse tipologie di quantili

Esistono diverse tipologie di quantili.

Rispetto all’utilizzo nelle applicazioni in psicologia, i piùimportanti sono i Quartili e i Percentili.

Page 36: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

I quartiliI quartili dividono in 4 parti uguali la distribuzione dei dati. Essisono:

Il primo quartile Q25: il dato al di sotto del quale si situa il25% dei dati.

Il secondo quartile (o mediana) Q50: il dato al di sotto delquale si situa il 50% dei dati.

Il terzo quartile Q75: il dato al di sotto del quale si situa il75% dei dati.

I quartili vengono rappresentati all’interno di un grafico moltoutile per descrivere i dati detto diagramma a scatola (boxplot) ...che vedremo tra poco.

Page 37: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

I percentili

I percentili, spesso indicati con la lettera maiuscola P, dividono incento parti la distribuzione dei dati.Alcuni percentili molto importanti, sia dal punto di vista statisticoche rispetto alle applicazioni in psicologia, sono:

P5

P25

P50

P75

P95

Page 38: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Le abilità di calcolo

A 6 bambini di 8 anni è stato somministrato un teststandardizzato a livello nazionale sulle abilità di calcolo.Il numero di risposte corrette al test è presentato nella seguentetabella:

Codice Bambino 1 2 3 4 5 6Punteggio 40 50 30 80 23 42

Valutare le prestazioni dei 6 bambini alla luce dei valori normatividel test:

Percentile P5 P25 P50 P75 P95

Punteggio 31 42 51 68 78

Page 39: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

I Ranghi percentili

Il Rango percentile indica la posizione di un dato all’internodi una distribuzione di dati.

Ad esempio, se ci riferiamo alla distribuzione del peso neimaschi adulti italiani, e sappiamo che il rango percentileassociato al valore 90 kg è pari a 80 ( Rp90 = 80) ...potremo affermare che l’80% dei maschi adulti italiani pesameno di 90 kg.

Naturalmente:

Rp90 = 80 =⇒ P80 = 90

Page 40: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Introduzione agli indici di variabilità

“Variability is the reason whypeople have had to develop

sophisticated statistical methodsto filter out any messages

from the surrounding noise.”(Wild & Pfannkuch, 1999)

Page 41: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

A cosa servono gli indici di variabilità

Una distribuzione di dati contiene un insieme di informazionicomplesse e di per se poco maneggevole.

Il ricorso ad un indice di tendenza centrale comporta unaforte semplificazione, e da solo non fornisce informazioniesaurienti sulla distribuzione.

E’ fondamentale capire quanto i dati siano dispersiintorno all’indice di tendenza centrale.

Page 42: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Tizio, Caio o Sempronio?

Consideriamo i risultati dei compiti di Psicometria ottenuti daglistudenti di tre diversi Professori:

Professor Tizio = {18, 22, 24, 16, 19, 22 , 18, 21}

Professor Caio = {10, 10, 12, 10, 30, 28 , 30, 30}

Professor Sempronio = {20, 20, 20, 20, 20, 20 , 20, 20}

In ciascun gruppo di studenti la media dei voti è pari a 20, ma èevidente una diversa dispersione intorno a tale valore.

Page 43: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Gli indici di variabilità

Gli indici che vedremo servono a misurare la variabilità (odispersione) di una distribuzione di dati.

Per questo motivo vengono definiti come indici di variabilità(o di dispersione).

Gli indici di variabilità possono assumere solo valori positivi(non ha senso parlare di dispersione negativa) o nulli(quando i dati osservati hanno tutti lo stesso valore).

Page 44: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La gamma

La gamma (o campo di variazione) di una distribuzione di dati èla differenza tra il valore massimo e il valore minimo osservato:

gamma = Xmassimo −Xminimo

EsempioCalcolare la gamma dei seguenti dati che rappresentano ipunteggi ad un test di abilità di 8 soggetti:

{90, 20, 50, 50, 50, 10, 40, 80}

Svolgimento

gamma = Xmassimo −Xminimo = 90− 10 = 80

Page 45: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La differenza interquartilica

La differenza interquartilica di una distribuzione è la differenzatra il terzo e il primo quartile (o equivalentemente tra il75− esimo e il 25− esimo percentile) dei dati:

Q = Q75 −Q25

La differenza interquartilica è un indice di variabilitàrobusto,risente cioè poco della presenza di valori anomali (outliers)nei dati.

La differenza interquartilica, viene rappresentata all’interno diun grafico molto utile per descrivere i dati detto diagrammaa scatola (boxplot) ... che vedremo tra poco.

Page 46: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La varianza

La varianza σ2 di un insieme di dati è la media degli scarti alquadrato tra i dati e la media dei dati stessi:

σ2 =

∑ni (Xi −X)2

n

Nota bene. La varianza assume valore minimo 0 quandotutti i dati sono uguali tra loro e aumenta all’aumentare delladispersione dei dati rispetto alla media:

σ2 ≥ 0

Page 47: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Il calcolo della varianza: formula ridotta

La varianza può essere calcolata anche attraverso la seguenteformula, che consente un calcolo più agevole e veloce:

σ2 =

∑ni X2i

n−(∑n

i Xin

)2= X2 − (X)2

La varianza può essere quindi vista come:

la media dei quadrati meno il quadrato della media

Page 48: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Il calcolo della varianza: un esempio

Un ricercatore ha valutato la capacità di memoria di 10 bambiniin età prescolare ottenendo i dati riportati in tabella.La capacità di memoria viene usualmente espressa dal digit span,cioè dal numero di cifre che un soggetto è in grado di ricordare(Keppel, 1992).

Soggetto Digit Span1 82 63 74 75 96 67 78 99 410 7

Calcolare la varianza dei dati.

Page 49: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Il calcolo della varianza: formula generale

Per prima cosa calcoliamo la media dei dati:

X =

∑10i=1Xin

=8 + 6 + . . .+ 4 + 7

10=70

10= 7

Utilizziamo ora la formula generale per il calcolo dellavarianza:

σ2 =

∑ni (Xi −X)2

n

=(8− 7)2 + (6− 7)2 + . . .+ (4− 7)2 + (7− 7)2

10

=20

10= 2

Page 50: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Il calcolo della varianza: formula ridotta

Per prima cosa calcoliamo la media dei quadrati:

X2 =82 + 62 + . . .+ 42 + 72

10=510

10= 51

Calcoliamo il quadrato della media:

(X)2 = 72 = 49

Utilizziamo la formula ridotta:

σ2 = X2 − (X)2 = 51− 49 = 2

... i conti tornano :-)

Page 51: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Il calcolo della varianza: per dati raggruppati inclassi di frequenza

Se i dati sono raggruppati in classi di frequenza, per il calcolodella varianza, si utilizzerà la seguente formula:

σ2 =

∑ni (Xi −X)2fi

n

L’idea è quella di pesare i singolari scarti dalla media per lerelative frequenze associate.

Page 52: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

La deviazione standard

La deviazione standard (o scarto quadratico medio) è la radicedella varianza:

σ =√σ2

La deviazione standard è molto utile in chiave interpretativaperché, a differenza della varianza, è espressa nella stessa unità dimisura del fenomeno studiato.

EsempioIn campione di 20 soggetti è stata rilevata la variabile peso.In tale campione la media è pari a 70 kg e la deviazione standardè pari a 10.7.

Si potrà affermare che i soggetti differiscono mediamente di10.7 kg dal peso medio di 70 kg.

Page 53: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Il coefficiente di variazione

Il coefficiente di variazione è dato dal rapporto tra la deviazionestandard e il valore assoluto della media dei dati:

CV =σ∣∣X∣∣

Il CV è un indice di variabiltà relativa che tiene conto, oltreche della deviazione standard dei dati, anche della media.

Per questo motivo è molto utile per eseguire dei confronti intermini di variabilità tra fenomeni “diversi” tra loro.

Page 54: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Neonati e papà

Nel reparto di ostetricia di un ospedale è stato rilevato il peso diun campione di 80 neonati maschi e contemporaneamente il pesodei rispettivi papà:

gruppo media deviazione standardneonati 3.4 Kg 0.8

papà 82 Kg 15

Esiste più variabilità nel peso dei neonati o in quello dei papà?

Page 55: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Neonati e papà

Naturalmente confrontare le deviazioni standard non è digrande aiuto. Esse dipendono fortemente dalle media dei datisu cui sono state calcolate.

Per poter operare un confronto sulla variabilità dei due gruppiè opportuno calcolare i rispettivi coefficienti di variazione:

CVneonati =0.8

3.4= .24

CVpapà =15

82= .18

Osservando i risultati si può concludere che il gruppo deibambini presenta una maggiore variabilità rispetto a quellodei papà.

Page 56: -1cm Corso di Psicometria Progredito - 2.1 Statistica ... · Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità CorsodiPsicometriaProgredito

Distribuzioni di frequenza Indici di tendenza centrale Indici di posizione Indici di variabilità

Il consiglio del buon vecchio J. W. Tukey:The five number summary

Per avere una prima idea sulladistribuzione dei dati raccolti,Tukey suggeriva di utilizzare ilriassunto a 5 numeri :

Minimo

25-esimo percentile

Mediana

75-esimo percentile

MassimoTukey, 1977. Exploratory Data Analysis