Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo,...

14
Misure di diversità tra unità statistiche Loredana Cerbara

Transcript of Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo,...

Page 1: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Misure di diversità tra unità statistiche

Loredana Cerbara

Page 2: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre

discipline, dove, peraltro, si usa frequentemente fare riferimento allo spazio al massimo tridimensionale. I dati statistici invece spesso si trovano collocati in spazi non immaginabili con la comune esperienza perché sono spazi multidimensionali. La distanza tra due unità statistiche su cui siano rilevati k caratteri, è una distanza in uno spazio k-dimensionale ed esprime la differenza tenuto conto di tutte le k caratteristiche tra le due unità.

E la metrica utilizzata può anche non essere quella euclidea che tende a dare molta importanza alle coordinate più grandi, a differenza di altre metriche, come la metrica della città a blocchi.

Page 3: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze

Le distanze sono un concetto matematico fondamentale per molte applicazioni della statistica.

Una distanza rispetta le seguenti proprietà: ● d(Xi, Xj)=0 se e solo se Xi=Xj

● d(Xi, Xj)=d(Xj, Xi) (simmetria) ● d(Xi, Xj)<=d(Xi, Xh) + d(Xh, Xj) per ogni terna Xi , Xh , Xj

Un insieme E che in cui sia definita una distanza si chiama spazio metrico. Una distanza

è sempre non negativa Il quadrato di una distanza può non essere una distanza

Page 4: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze

DISTANZA DI MINKOWSKI o distanza city-block Si definisce come la distanza seguente di ordine t Per particolari valori di t si ottengono altre distanze note t=1: distanza di Manhattan o della città a blocchi (geometria del taxi) t=2: distanza euclidea

(teorema di Pitagora) Vale la relazione

Page 5: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze DISTANZA DI MINKOWSKI o city-block

Secondo la distanza che si adotta si può ottenere

una differente geometria. Ad esempio, ricordando

che la circonferenza è il luogo geometrico dei punti

del piano equidistanti (lunghezza del raggio) da un

punto fisso (centro), supponiamo di prendere come

centro A=(2,-1) e raggio r=3. L’insieme dei punti P,

secondo il sistema euclideo, sarà al circonferenza

rossa, mentre applicando la distanza di Minkowski

otteniamo il quadrato blu.

Page 6: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze DISTANZA DI MINKOWSKI o city-block

Una possibile applicazione pratica è quella

dell’urbanistica. Dovendo costruire una strada che

passi esattamente a metà tra due punti A e B e tale

che ogni punto di questa strada sia sempre

equidistante dai due punti A e B, con la distanza

euclidea si traccerebbe la strada lungo la linea nera.

Però, se sono presenti edifici all’interno dei quadrati

della figura, l’unica possibilità di costruire la strada è

quella di usare la metrica della città a blocchi. La

strada sarà più lunga ma non si abbatteranno edifici.

Page 7: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze Esempio: Consideriamo il reddito ed il consumo mensile con riferimento a 2 individui: (1050, 800) (1000, 900) La distanza euclidea tra i due individui, con riferimento a due variabili, reddito e consumo, è:

𝑑 𝑥1, 𝑥2 = 1050 − 1000 2 + 800 − 900 2 = 502 + 1002 = 2500 + 10000 = 111,8 Esempio: consideriamo ora 4 individui su cui sono stati rilevati due caratteri: numero di ordini effettuati e importo speso. Individuo Ordini Importo A 3 20 B 10 42 C 8 30 D 2 12

𝑑𝐴𝐵 = 3 − 10 2 + 20 − 42 2 = 23,087

Page 8: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze Possiamo costruire una matrice delle distanze calcolando la distanza tra tutte le coppie di unità Le distanze calcolate sono leggermente diverse ma restituiscono la stessa struttura dei dati

Page 9: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze

• La distanza city-block ≥ dist. euclidea • Distanza city-block risente in misura minore degli outliers,

cioè dei valori molto lontani da tutti gli altri valori rilevati sul collettivo

• Tra i due tipi di distanza non esiste sempre una relazione monotona (cioè gli ordinamenti o graduatorie possono essere diversi)

• Se le variabili sono espresse in unità di misura diverse occorre calcolare le distanze facendo riferimento agli scostamenti standardizzati, invece che alle modalità originali dei caratteri rilevati

Page 10: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze Per l’esempio precedente calcoliamo allora gli scarti standardizzati. Sapendo che la media degli ordini è 5,75 e lo scostamento quadratico medio è 3,862 e che la media degli importi è 26 e lo scostamento quadratico medio è 12,961, si ha: Individuo Ordini Importo Scarti standardizzati Ordini Importo A 3 20 -0,71 -0,46 B 10 42 1,10 1,23 C 8 30 0,58 0,31 D 2 12 -0,97 -1,08

Page 11: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze

Page 12: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

ESERCIZIO Per la seguente distribuzione doppia, calcolare la matrice delle distanze tra le aree geografiche. Il risultato è in basso a destra. Tassi di occupazione, disoccupazione e inattività della popolazione straniera e italiana, anno 2013, Fonte Istat

Indicatori Nord Centro Mezzogiorn

o

Totale

Tasso di

inattività

(15-64 anni)

Popolazione

straniera 28,8 27,3 37,4 29,7

Popolazione

nazionale 29,9 33,5 48,0 37,3

Tasso di

disoccupazione

Popolazione

straniera 17,5 16,8 17,6 17,3

Popolazione

nazionale 7,0 9,9 19,8 11,5

Tasso di

occupazione

(20-64 anni)

Popolazione

straniera 62,8 64,2 54,5 61,9

Popolazione

nazionale 69,5 64,1 45,2 59,5

Popolazione Nazionale

Nord Centro Mezzogiorno

Nord 0 7,1 32,9

Centro 0 25,8

Mezzogiorno 0

Popolazione straniera

Nord Centro Mezzogiorno

Nord 0 2,2 12,0

Centro 0 14,1

Mezzogiorno 0

Page 13: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze INDICI DI SIMILARITA’ E DISSIMILARITA’ Molti metodi di analisi dei dati in statistica si basano sul calcolo della similarità o

dissimilarità tra unità. DEFINIZIONE: Un indice di similarità è un’applicazione s su un insieme E nel campo dei

numeri reali non negativi nello spazio ExE, tale che: a) s(Xi, Xj)=s(Xj, Xi) per ogni (i,j) ExE (simmetria) b) s(Xi, Xi)=s(Xj, Xj)=Max per ogni i e j diversi tra loro (similarità massima) Analogamente, un indice di dissimilarità è un indice simmetrico e assume valore zero

quando le due unità coincidono. a) d(Xi, Xj)=d(Xj, Xi) per ogni (i,j) ExE (simmetria) b) d(Xi, Xi)=0 e d(Xi, Xj)=0 per i = j (distanza minima)

Page 14: Misure di diversità tra unità statistiche - diss.uniroma1.it · secondo il sistema euclideo, sarà al circonferenza rossa, mentre applicando la distanza di Minkowski otteniamo il

Distanze INDICI DI SIMILARITA’ E DISSIMILARITA’ Inoltre vale la disuguaglianza triangolare: d(Xi, Xj) ≤ d(Xi, Xk) + d(Xk, Xj) per ogni i, j, k Nel caso di caratteri qualitativi sconnessi, un indice di similarità tra due unità è il ma anche l’indice Phi ad esso collegato dalla relazione