Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6...

49
Gerardo Massimi Ambiti e sistemi territoriali Un approccio esplorativo alle tematiche geospaziali Strumenti esplorativi nell’analisi dei dati Versione preliminare al dicembre 2001 Spezzone di una carta dei posti letto per abitante negli esercizi turistici italiani al 1991. WP Web 2001 - Serie RE 6 Laboratorio di Geografia - Dipartimento di Studi Filosofici, Storici e Sociali Facoltà di Lingue e Letterature Straniere Ud’A di Chieti – sede di Pescara

Transcript of Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6...

Page 1: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

Gerardo Massimi

Ambiti e sistemi territoriali Un approccio esplorativo alle tematiche geospaziali

Strumenti esplorativi nell’analisi dei dati

Versione preliminare al dicembre 2001

Spezzone di una carta dei posti letto per abitante negli esercizi turistici italiani al 1991.

WP Web 2001 - Serie RE 6

Laboratorio di Geografia - Dipartimento di Studi Filosofici, Storici e Sociali Facoltà di Lingue e Letterature Straniere

Ud’A di Chieti – sede di Pescara

Page 2: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

2

STRUMENTI ESPLORATIVI NELL’ANALISI DEI DATI 4 Il grafico a rami e foglie o stem-and-leaf 4 I sommari a cinque numeri o letter-value displays 7 Numerosità dei rami nei diagrammi a rami e foglie e delle classi negli istogrammi e nelle carte a coroplete 8 I diagrammi a scatola o box plots 11 Medie ordinate o medie troncate 13 La media TRI 15 Impiego della mediana per la ricerca dei valori anomali 15 Analisi esplorativa dei dati spaziali – baricentro e mediana 16 Calcolo della mediana con dati raggruppati 18 La mediana spaziale bivariata 20 Un caso di studio 22 L’approccio esplorativo alla regressione 24 Procedure alternative per la regressione 27 I rischi della regressione 28 La standardizzazione esplorativa dei dati 29 Lo scaling 32 Osservazioni sulla trasformazione dei dati 34 I grafici del tipo Q-Q plots 37 Conclusioni interlocutorie 40 Applicazione al valore aggiunto nelle province per il 1991 41

Figura 1 Stesura preliminare di un diagramma a rami e foglie. 5 Figura 2 Versione intermedia e finale di un diagramma a rami e foglie. 6 Figura 3 Visualizzazione degli elementi caratteristici di un diagramma a rami e

foglie. 7 Figura 4 Schema di sommario a 5 numeri o letter-value display. 8 Figura 5Esempio di sommario a 5 numeri. 8 Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura 7 Rappresentazione degli elementi costitutivi di un diagramma a scatola. 11 Figura 8 Famiglia di diagrammi a scatola semplificati. 12 Figura 9 Medie ordinate per la stazione pluviometrica di Campli. 13 Figura 10 Sequenza di medie ordinate o troncate. 14 Figura 11 Confronto tra la posizione del baricentro e quella della mediana tra i capoluoghi di

provincia della regione Lombardia in assenza di ponderazione. 17

Page 3: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

3

Figura 12 Distribuzione spaziale dei baricentri ponderati nella regione Lombardia 17

Figura 13 Ogive delle frequenze e mediane. 18 Figura 14 L’area mediana dell’insieme di luoghi puntiformi “capoluoghi di provincia della

regione Lombardia”. 21 Figura 15 Popolazione residente nei comuni della provincia di Teramo al

censimento 1991 per aree anulari equivalenti. 23 Figura 16 Dispersione rispetto a Frosinone degli attributi superficie, popolazione e

valore aggiunto nei comparti indicati in legenda (anno di riferimento 1991), rilevati nelle province italiane, Frosinone inclusa. 23

Figura 17 Esempi di regressione con il metodo dei minimi quadrati - caso dei dipendenti regionali e caso dei dipendenti provinciali. 25

Figura 18 Esempio di regressione con il metodo dei minimi quadrati - caso dei dipendenti comunali. 25

Figura 19 Esempio di regressione esplorativa con il metodo dei 3 gruppi. 26 Figura 20 I rischi della regressione. 28 Figura 21 Distribuzione delle distanze dei capoluoghi comunali dal capoluogo

provinciale in provincia di Gorizia . 30 Figura 22 Confronto grafico tra nove distribuzioni statistiche. Indicatori originali.

30 Figura 23 Confronto grafico tra nove distribuzioni statistiche. Indicatori

standardizzati. 31 Figura 24 Esempio di scaling. 33 Figura 25 Esempio di applicazione dello scaling. 33 Figura 26 Famiglia di trasformazioni tramite potenze. 35 Figura 27 Popolazione residente nelle province italiane al censimento 1981:

diagrammi della radice quadrata e della radice cubica. 36 Figura 28 Popolazione residente nelle province italiane al censimento 1981:

diagramma della trasformazione logaritmica. 36 Figura 29 Schema metacartografico dell’attributo superficie nelle province italiane, 38 Figura 30 Confronto tra le distribuzioni degli attributi superficie e popolazione residente nelle

province italiane al censimento 1991. 39 Prospetto 1 Esempio di medie di posizione con distribuzioni discrete di dati

territoriali puntiformi. 19

Page 4: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

4

STRUMENTI ESPLORATIVI NELL’ANALISI DEI DATI

Il grafico a rami e foglie o stem-and-leaf

Il primo compito del ricercatore, nell'approccio tradizionale, di fronte a una serie di dati statistici consiste in una preliminare ispezione delle informazioni numeriche al fine di raggrupparle secondo prefissate regole, ritenute idonee a far emergere soggiacenti regolarità. In particolare, è antica e radicata consuetudine quella di disegnare istogrammi delle frequenze, ma le modalità di esecuzione non sono affatto pacifiche e comportano, in ogni caso, il sacrificio di un gran numero di informazioni, nel senso che situazioni distinte confluiscono in contenitori, le singole colonne dell'istogramma, nei quali tutte le differenze sono eliminate.

Considerazioni similari valgono per la costruzione di cartogrammi a coroplete nel senso che essi comportano, in via preliminare, la definizione del numero delle classi o colori (se si utilizzano tonalità di grigio o tratteggi, il problema è sempre lo stesso) da utilizzare; se esse sono stabilite in accordo ai criteri di numerosità dei rettangoli negli istogrammi, si possono seguire le raccomandazioni di Norcliffe (1977) che propone k = √ n, dove k è il numero delle classi e n il numero dei dati da rappresentare. Ma queste raccomandazioni non sono assecondabili in moltissimi casi; infatti, per n maggiore di 100 le rappresentazioni grafiche tendono a svolgere il ruolo di elementi decorativi, e in ogni caso possono obliterare aspetti di grande rilievo se le classi sono equispaziate 1.

Tornando al problema degli istogrammi, si rileva come l'EDA aggiri con eleganza e successo gli ostacoli con la proposta di un mix grafico numerico, chiamato stem-and-leaf, traducibile in italiano come grafico a rami e foglie.

La realizzazione del grafico (figg. xxx) – l’esempio è costruito con il valore dei seminativi nelle regioni agrarie abruzzesi (riferimento 1991; i dati sono riportati in tab. 1) – comporta i seguenti passi:

A - si stabilisce l'unità di misura, ad esempio i milioni di lire, e si inizia il diagramma con tale indicazione;

B - si individuano i valori minimo (2.120) e massimo (19.600) e si impone un or-dinamento ascendente (crescente) o discendente (decrescente) dei dati. Se l'ordine è crescente si scrivono in colonna le cifre dei milioni da 2 a 19; esse costituiscono i rami;

C - si ricercano le foglie: esse sono date dalle cifre delle centinaia di migliaia di lire. Ad esempio le foglie del ramo 2 si individuano isolando tutti valori compresi tra 2.0 e 2.9 milioni di lire;

D - si completa il diagramma con tutte le foglie e si eliminano, eventualmente (lo scrivente è d’opinione contraria) i rami secchi ( quelli, cioè, non rappresentati nella serie dei dati originali);

Page 5: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

5

E - si conteggiano le foglie ramo per ramo (o in altre parole si individuano le frequenze assolute) e le si cumulano, al fine di verificare che il numero delle foglie corrisponda al numero totale dei dati, e retrocumulano.

A questo punto la sintesi grafico-numerica dell'EDA mostra tutti i suoi vantaggi rispetto all'approccio tradizionale in quanto unifica efficacemente più strumenti tipici del secondo: il diagramma della dispersione, l'istogramma, la tabella delle frequenze relative cumulate e retrocumulate.

Il confronto tra i valori cumulati e retrocumulati permette l’introduzione di un importante e nuovo indicatore, la profondità, da intendersi come la distanza di un dato ramo dall’estremo più vicino della distribuzione. Il prodotto finale non include le colonne dei valori cumulati e retrocumulati, non necessari per la comprensione dei caratteri fondamentali delle distribuzioni, desumibili dalle profondità, ma si avvale di una linea verticale ben marcata da disegnare tra la colonna dei rami e la colonna delle foglie; il tutto, per l’esempio in esame, si presenta come in figura … U = 1 milione di lire Rami Foglie Numero delle foglie Cumulate Retrocumulate

2 7741774974 10 10 34 3 997770 6 16 24 4 5 1 17 18 5 0 1 18 17 6 534 3 21 16 7 01 2 23 13 8 0 1 24 11 9 52 2 26 10

10 _ 26 8 11 336 3 29 8 12 _ 29 5 13 _ 29 5 14 _ 29 5 15 98 2 31 5 16 _ 31 3 17 _ 31 3 18 61 2 33 3 19 6 1 34 1

Figura 1 Stesura preliminare di un diagramma a rami e foglie.

Page 6: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

6

Da notare il non ordinamento delle foglie. U = 1 milione di lire U = 1 milione di lire

Rami Foglie

Numero delle foglie o frequenze

idem cumulate

idem retrocumulate Profondità Rami Foglie

2 1444777779 10 10 34 10 2 1444777779 3 77799 6 16 24 16 3 77799 4 5 1 17 18 17 4 5 5 0 1 18 17 17 5 0 6 345 3 21 16 16 6 345 7 01 2 23 13 13 7 01 8 0 1 24 11 11 8 0 9 25 2 26 10 10 9 25

10 0 26 8 8 10 11 336 3 29 8 8 11 336 12 0 29 5 5 12 13 0 29 5 5 13 14 0 29 5 5 14 15 39 2 31 5 5 15 39 16 0 31 3 3 16 17 0 31 3 3 17 18 16 2 33 3 3 18 16 19 6 1 34 1 1 19 6

Figura 2 Versione intermedia e finale di un diagramma a rami e foglie.

Versione intermedia, a sinistra: da notare l’ordinamento delle foglie e la colonna intitolata profondità. La profondità è data dal valore più piccolo tra le frequenze cumulate e retrocumulate; sul piano concettuale corrisponde alla distanza, come numero di casi , dall'estremo (il minimo o il massimo più vicino);la profondità massima compete al ramo o ai rami con il valore mediano della distribuzione: al riguardo si noti che, essendo pari il numero dei casi (34, per la precisione), la distribuzione in esame ha 2 valori mediani, il 17° e il !8°, o la loro media aritmetica. Versione finale, a destra: nella versione finale, in forma semplificata al massimo di un diagramma a rami e foglie, traspare con grande immediatezza la configurazione asimmetrica della distribuzione statistica soggiacente e la poca significatività, in casi del genere, della media aritmetica come indicatore sintetico; infatti, essa vale 7.3 milioni di lire e risulta superiore a ben 22 regioni agrarie su 34. Osservazione generale: è strettissima la somiglianza del diagrammi a rami e foglie con il grafico a barre avente suddivisione uniforme delle classi. La somiglianza è accentuata laddove le foglie sono iscritte su un fondo in colore.

Page 7: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

7

0

5

10

15

20

25

30

35

40

0 5 10 15 20

Rami

Freq

uenz

e

FrequenzeFrequenze cum.Frequenze retrocum.Profondità

Figura 3 Visualizzazione degli elementi caratteristici di un diagramma a rami e foglie.

Il grafico è stato costruito con gli elementi del diagramma a rami e foglie riportato nella figura precedente.

I sommari a cinque numeri o letter-value displays

I diagrammi in esame possono essere integrati da indicazioni, consistenti nell’apposizione di simboli letterali, circa i rami che accolgono la mediana e i quartili, o anche da segmentazioni che discriminano i casi anomali (sul come riconoscerli, v. più avanti nel testo).

Sommari delle distribuzioni molto più semplici, ma parimenti utili per la loro essenzialità e immediatezza di lettura, sono nell’ambito dell’EDA i cosiddetti sommari a 5 numeri, conosciuti anche come letter-value displays. Essi si presentano in conformità allo schema grafico illustrato in figura 4 ed esemplificato in figura 6 per i dati già utilizzati per illustrare i diagrammi a rami e foglie.

Noti, ma poco diffusi, sono i sommari a 7 numeri, che si realizzano introducendo gli ottili; per le modalità di riconoscimento dei casi anomali si rinvia a quanto si scrive a proposito dei diagrammi a scatola.

Page 8: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

8

n (numero dei casi) Nome della distribuzione Mediana M (profondità della mediana Quartile inferiore Quartile superiore F (Profondità del quartile) Estremo inferiore Estremo superiore

Soglia di anomalia inferiore

Soglia di anomalia superiore

Eventuali casi anomali

Figura 4 Schema di sommario a 5 numeri o letter-value display.

La lettera F indica il quartile, in inglese fourth.

n = 34 Regioni agrarie abruzzesi

Valore dei seminativi per l'anno

1991 M = 17.5 56.7 F = 8.5 3722.5 9425 2120 19600 17979 18199;18653; 19600.

Figura 5Esempio di sommario a 5 numeri.

Numerosità dei rami nei diagrammi a rami e foglie e delle classi negli istogrammi e nelle carte a coroplete

Tornando ai diagrammi a rami e foglie, sembra opportuno rilevare come anche per essi possa manifestarsi il problema della numerosità delle linee diagrammatiche (i rami). A tal proposito, senza entrare in discussioni tecniche, si richiamano le formulazioni più seguite:

k = 10 log n; k = 2√ n; k = 1 + log2 n

Page 9: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

9

dove k è il numero delle linee ed n il numero dei casi: per n inferiore a 100 si preferisce la seconda formulazione; la prima, per n maggiore di 100; la terza, per n molto grande.

In linea generale, la numerosità dei rami nei diagrammi a rami e foglie, delle classi negli

istogrammi, e dei colori nelle carte a coroplete, deve rispondere a criteri di leggibilità delle rappresentazioni e di salvaguardia, per quanto possibile, del contenuto informativo nelle distribuzioni dei dati da raggruppare, specie quando il raggruppamento è la fase preliminare di un prodotto cartografico.

È ovvio che il numero k delle classi, se n è il numero dei valori distinti in una data distribuzione, deve risultare compreso tra 1 e n, ma soltanto l’esperienza e il buon senso possono guidare in una scelta per la quale mancano regole generali.

La letteratura geografica e statistica sembra comunque concordare verso valori di k compresi tra 4 e 12-16, a seconda - nel caso delle coroplete - dell’impiego di graduazioni delle intensità di 1 o 2 colori.

Non mancano, tuttavia, proposte precise che possono aiutare nella scelta del numero delle classi: 1) Norcliffe (1977) k = n0.5 2) Huntsberger (1961) k = 1 + 3.3logn 3) Brooks e Carruthers (1953) k < 5logn 4) Cowden (1948) 6 ≤k ≥ 16

Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi.

A: Norcliffe; B: Huntsberger; C. Brooks e Carruthers.

A parere dello Evans (1977),

il disegno delle classi, allorquando esse sono alla base delle carte a coroplete, dovrebbe fondarsi su una suddivisione uniforme quando, così facendo, esse risultassero, grosso modo, ugualmente numerose

(distribuzioni rettangolari). Negli altri casi valgono questi suggerimenti:

0

20

40

60

80

100

10 100 1000 10000

n

k

A B C

a) se la suddivisione uniforme implica un forte addensamento delle frequenze nella classe centrale (distribuzioni leptocurtiche), le classi dovrebbero essere ridisegnate con l’assunzione dello scarto quadratico medio come unità di misura;

b) se le classi equispaziate originano un disegno a J o a J rovesciata, le stesse si ridisegnano scandendo gli intervalli con progressioni geometriche, con ragioni tanto più elevate quanto più marcata è l’asimmetria nella distribuzioni dei dati;

c) se le classi equispaziate originano rappresentazioni a U o a M il ricorso a classi ridisegnate in maniera da risultare egualmente numerose, tramite il ricorso alle medie di posizione (mediana, quartili e percentili) può essere la soluzione più idonea.

Page 10: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

10

In conclusione i criteri più diffusi nella redazione di carte a coroplete si

riassumono in questi termini schematici: 1. Esogeni: significativi in relazione ai valori di soglia che non sono derivati dai dati cartografati, come un rapporto tra sessi pari a 1. 2. Arbitrari: numeri privi di particolare significato, sovente con intervalli diseguali tra le classi, come 5, 10, 20, 30, 80,120... 3. Sistemi ideogratici diversi, influenzati dalle particolarità insite nei dati da cartografare, del tipo:

a) multimodali, grazie all'impiego di intervalli naturali nella distribuzione di frequenza dei dati; b) multigraduati, con intervalli corrispondenti ai punti nei quali la curva delle frequenze cumulate presenta variazioni di inclinazione; c) basati sulla contiguità, al fine di rendere massima l'estensione e minimo il numero delle regioni di una data classe; d) basati sulla correlazione, al fine di rendere massima la somiglianza rispetto a una data carta; e) su classi percentuali, che contengono un numero uguale di aree o superfici grosso modo uguali delle aree; f) su limiti tra le classi ancorati alla media, quando la media della distribuzione di frequenza e utilizzata come una soglia per una prima suddivisione in due classi, poi queste ultime sono suddivise ottenendosi così quattro classi, e via di seguito.

4. Vari schemi periodici, con classi i cui limiti presentano tra di loro una relazione matematica definita, come:

a) percentuali rispetto alla normale, con limiti tra classi posti in relazione a classi di uguale frequenza in una prefissata curva normale; b) unita della deviazione standard, centrate sulla media, che e una classe centrale, se il numero delle classi e dispari, e un limite di classe, se le stesse sono pari; c) intervalli uguali; d) intervalli uguali in una scala dei reciproci; e) intervalli uguali in una serie trigonometrica; f) progressioni geometriche nell'ampiezza delle classi; g) progressioni aritmetiche; h) progressioni curvilineari, quando il grafico del logaritmo del limite di classe in funzione del logaritmo del numero della classe si configura come una retta.

Page 11: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

11

I diagrammi a scatola o box plots

Un carattere distintivo dell’EDA è la diffidenza nei riguardi della media aritmetica quando essa è impiegata per sintetizzare le distribuzioni di dati, in ragione della poca resistenza di tale media nei riguardi dei valori estremi, anomali o errati. Per contro, mediana e quartili sono utilizzati ampiamente nell’analisi esplorativa dei dati, nel cui ambito si utilizzano per una rappresentazione grafica efficace e molto semplice: i diagrammi a scatola (box-and-whiskers plots o semplicemente box plots)3.

Il tutto si riduce a riportare in scala, su una linea, questi valori: il minimo, il primo quartile, la mediana, il terzo quartile, il massimo: sulla linea si disegna inoltre un rettangolo avente per base l’intervallo tra i due quartili e altezza a piacere - il buon senso consiglia 4-5 mm - , rettangolo che poi si suddivide in due parti, che si estendono a destra e a sinistra della mediana (v. figura 7).

Intervallo interquartilico

Primo quartile Mediana Terzo quartileMinimo Massimo

Campo di variazione dei dati

Figura 7 Rappresentazione degli elementi costitutivi di un diagramma a scatola.

La differenza tra il terzo quartile e il primo quartile prende il nome di campo di variazione interquartilico; essa è utilizzata nell’analisi esplorativa, della quale parleremo in seguito, per il riconoscimento dei valori anomali da un punto di vista statistico (ma non geografico):

quartile superiore - quartile inferiore = dF I valori anomali sono quelli maggiori di terzo quartile +1.5 dF e inferiori a primo

quartile -1.5 dF. Il grado di anomalia può essere discriminato introducendo soglie più severe

corrispondenti a terzo quartile +3dF e primo quartile -3dF. (numerosi esempi di distribuzioni con valori anomali sono reperibili in uno studio dello scrivente sul valore aggiunto attribuito alle province italiane nel 1991).

Page 12: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

12

I programmi di statistica consentono di disegnare con immediatezza i diagrammi a scatola di distribuzioni contenenti centinaia di elementi, ma tali programmi sono costosi e di non facile utilizzo per i non esperti che, però, si possono avvalere di software più semplici e molto diffusi.

Un esempio del genere è il programma Microsoft Excel, che offre diverse alternative, con il quale sono stati realizzati i grafici semplificati riportati nel testo.

Totale

Di cui: non alimentari

Commercio ambulante

Ristoranti, osterie e tavole calde

Bar, caffè, gelaterie e birrerie

Alberghi: numero

Alberghi: posti letto

Esercizi extralberghieri

posti letto

0 5 10 15 20

Minimo Quartile I Mediana Quartile III Max

Figura 8 Famiglia di diagrammi a scatola semplificati.

Il grafico illustra, tramite diagrammi a scatola semplificati, i valori di posizione caratteristici delle distribuzioni statistiche “autorizzazioni per il commercio ecc” nelle province italiane, espresse in termini di densità (rapporto con la superficie) e intensità (rapporto con la popolazione) relative nei riguardi dell’Italia (il valore medio nazionale è sempre uguale a 1). Per tutti i raggruppamenti statistici: in basso, l’intensità relativa; in alto, la densità relativa. I dati analitici sono riportati nella tab. xxxx.

Page 13: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

13

Medie ordinate o medie troncate

Anche l’Eda si avvale delle medie aritmetiche, ma con una selezione preliminare dei dati sui quali effettuare le elaborazioni. In particolare si segnalano le medie ordinate (anche medie troncate), o trimmed means, molto utili per valutare o per eliminare l'incidenza dei valori estremi, verso l’alto e verso il basso. Per il loro calcolo, dopo aver ordinato i dati in senso crescente o decrescente, si procede come per una normale media aritmetica, ma omettendo una pari percentuale iniziale e terminale dei dati.

È consuetudine (Rent, , p. 203) eliminare il primo e l'ultimo 10% (decili estremi), oppure il primo e l'ultimo 25% (così facendo si ottiene la cosiddetta media interquartile).

Se si indica con p la % dei dati da eliminare, risulta: (100 - 2p)% = media aritmetica, per p = 0 % (100 - 2p)% = mediana, per p=50 % (100 - 2p)% = semimediana o media interquartile, per p=25 %

Si noti che, in linea di principio, il valore di p deve essere scelto a secondo del grado di resistenza che si intende attribuire alla media (massima quando p = 50), ma anche in ragione della natura e dell'andamento dei dati. Pertanto, non bisognerebbe mai limitarsi ad un solo valore di p e, al contrario, avvalersi di una successione di termini piuttosto numerosa, rivelatrice di una più o meno rapida convergenza, dalla media aritmetica classica alla mediana: i risultati così conseguiti sono visualizzabili con un grafico elementare di correlazione tra medie e p%.

Campli - Medie ordinate delle precipitazioni

980

990

1000

1010

1020

0 5 10 15 20 25 30 35 40 45 50

p%

mm

di p

iogg

ia

Figura 9 Medie ordinate per la stazione pluviometrica di Campli.

Il commento è immediato, nel senso che l'incidenza dei valori estremi si deve ritenere modesta, seppure con un maggiore grado di anomalia dei valori più elevati, in ragione dell'andamento discendente del grafico.

Esempio: nella stazione pluviometrica di Campli il Servizio Idrografico Italiano

ha registrato tra il 1924 e il 1950 gli afflussi annui in mm indicati nella prima parte della tabella che seguenel testo. Ordinando i dati in senso crescente si ottiene una nuova tabella dalla quale si ottengono immediatamente (ricorrendo ad un comune foglio elettronico di calcol, quale Excel 97) le medie p% per

Page 14: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

14

p = 0; 1015 media aritmetica p = 7; 1016 p = 17; 1017 p = 28; 1006 p = 38 999 p = 50 991 mediana

I risultati così conseguiti sono visualizzabili con un grafico elementare di

correlazione tra medie e p%, al fine di verificare il tipo di percorso che si compie per passare dalla media aritmetica alla mediana.

1 644 n = 29; p = 02 668 p = 03 777 n = 25 media 10154 865 p = 7%5 870 media = 10176 887 n = 197 892 p = 17 %8 903 media = 9999 915 n = 13

10 920 p = 28 %11 924 media = 98712 953 n = 713 978 p = 38 %14 982 media = 98615 993 mediana =99316 99617 99718 100219 102120 107221 108422 112923 115524 118325 126226 132427 133228 135029 1357

Figura 10 Sequenza di medie ordinate o troncate.

L’esempio è stato costruito con i dati della stazione pluviometrica Campli in provincia di Teramo per il periodo 1921-1950.

Page 15: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

15

La media TRI Altra particolare media aritmetica è la TRI, utilizzata nelle procedure che si

richiamano all’EDA per riassumere le caratteristiche dell’intervallo interquartilico, allorquando tale intervallo risulta asimmetrico o si ritiene possa essere tale:

media TRI = ((primo quartile + mediana) + (mediana + terzo quartile))/4 Da precisare che l’asimmetria è tanto più marcata quanto maggiore è la differenza

tra la mediana e la media TRI. Esempio: superficie territoriale delle province italiane al censimento 1991: Minimo 212.0 Primo quartile 2079.0 Mediana 2759.0 Terzo quartile 3645.0 Massimo 7520.0 Media aritmetica 3171.6 Media TRI 2810.5

Impiego della mediana per la ricerca dei valori anomali

La procedura, riportata in Sprent (p. 196-197), si basa sulla seguente condizione di anomalia

xo - med(xi) / med[xi - med(xi) ]> 5 il valore 5 sarebbe giustificato dal fatto che in una distribuzione approssimativamente normale tale rapporto dovrebbe risultare inferiore per tutti i dati, tranne quelli anomali. Il denominatore med[xi - med(xi) ] prende il nome di deviazione assoluta dalla mediana o MAD. Dati originali

Dati ordinati Deviazioni dalla mediana

Deviazioni assolute dalla mediana

Id. ordinate Rapporti d'anomalia

Iid. in valoee assoluto

8.9 2.8 -4.1 4.1 0 1 1 6.2 3.7 -3.2 3.2 0.3 -0.35 0 7.2 5.4 -1.5 1.5 0.7 0.15 0 5.4 6.2 -0.7 0.7 1.5 -0.75 1 3.7 6.9 0 0 2 -1.6 2 2.8 7.2 0.3 0.3 3.2 -2.05 2

Page 16: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

16

17.2 8.9 2 2 4.1 5.15 5 13.7 13.7 6.8 6.8 6.8 3.4 3 6.9 17.2 10.3 10.3 10.3 0 0

Mediana = 6.9 Mediana (MAD) = 2.0 Rapporto superiore alla soglia d'anomalia Valore anomalo

L’interesse verso questo rapporto d’anomalia sembra, allo scrivente, alquanto

modesto.

Analisi esplorativa dei dati spaziali – baricentro e mediana

L’interesse dell’EDA nei riguardi delle medie di posizione si riflette nello studio delle tendenze centrali e della dispersione nelle distribuzioni di punti. Il luogo centrale per eccellenza è, secondo una radicata e lunga consuetudine, identificato nel baricentro o nel luogo puntiforme più vicino ad esso, ma può essere ricercato anche con il criterio della mediana spaziale4, più in linea con le normali esigenze geografiche in quanto quest’ultima gode della proprietà del minimo rispetto alla somma delle distanze lineari5

(il baricentro, invece, rappresenta il minimo della somma delle distanze al quadrato; la mediana è alla base dell’impostazione della localizzazione secondo Isard, il baricentro di Weber, che però aveva intuito alcune proprietà della mediana, senza trarne tutte le conclusioni).

La procedura per ricercare la mediana è illustrata (figure 11 e 13) assumendo

come caso esemplificativo i capoluoghi provinciali della regione Lombardia, in relazione al carico di bovini al 1991 nelle corrispondenti province, e distinguendo i due casi fondamentali: la mediana semplice e quella ponderata.

Page 17: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

17

m edianam edia

M ANTOVACREM ONAPAVIA

BRESCIA

BERGAM O

M ILANO

SONDRIO

COM O

VARESE

0

20

40

60

80

100

120

140

0 20 40 60 80 100 120 140 160 180

km

km

Figura 11 Confronto tra la posizione del baricentro e quella della mediana tra i capoluoghi di provincia della regione Lombardia in assenza di ponderazione.

Ovini

Suini

Bovini

SAU

SAT

STbar. semplice

-30

-20

-10

0

10

20

0 10 20 30 40

km

km

Figura 12 Distribuzione spaziale dei baricentri ponderati nella regione Lombardia

Page 18: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

18

Coordinata x

0.00

25.00

50.00

75.00

100.00

0 20 40 60 80 100 120 140 160 180

% Cum Retrocum

Coordinata y

0.00

25.00

50.00

75.00

100.00

0 20 40 60 80 100 120 140

% Cum Retrocum

Figura 13 Ogive delle frequenze e mediane.

Sinistra: andamento nel senso della longitudine delle percentuali e delle percentuali cumulate dei capi bovini nelle province lombarde. Destra: andamento nel senso della latitudine delle percentuali e delle percentuali cumulate dei capi bovini nelle province lombarde.

Osservazione: Devono essere sempre ben presenti due fondamentali proprietà della mediana: a) la mediana spaziale dipende dall’orientamento degli assi: se essi ruotano, il punto mediano può spostarsi e disegnare un’area centrale (il baricentro è, invece, sempre un punto, indipendente dagli orientamenti degli assi); b) se un elemento ha un peso pari o superiore al 50%, il valore mediano compete, in ogni caso, a tale elemento. Nel caso della regione Lazio la popolazione residente nella città di Roma (2.693.383 ab.), alla data del censimento 1991, è pari al 53,5% del totale (5.031.230 ab.); pertanto, senza necessità di elaborazioni dei dati si può assegnare a Roma la posizione mediana.

Calcolo della mediana con dati raggruppati

Per il calcolo della mediana con dati raggruppati, come le classi quinquennali d’età, si procede prima ad individuare la classe contenente la mediana (quella che accoglie il 50% della popolazione cumulata), e poi ad applicare la seguente relazione:

lm +((Pt/2) - SPa)/(Pm-Pm-i)]. i

Page 19: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

19

dove: lm = limite inferiore in anni della classe contenente la mediana; SPa = popolazione cumulata fino alla classe contenente la mediana; Pm = popolazione effettiva della classe contenente la mediana; Pt = popolazione totale; i = intervallo di ciascuna classe. In maniera analoga si procede per il calcolo dell’età del primo e del terzo quartile.

Prospetto 1 Esempio di medie di posizione con distribuzioni discrete di dati territoriali puntiformi.

Capoluoghi comunali della provincia di Teramo ordinati per distanze (in km) crescenti a partire dal capoluogo; le frequenze cumulate e retrocumulate si riferiscono alla popolazione residente (in % del totale provincia) alla data del censimento 1921. Nome distanza Cum Retrocum Nome distanza Cum Retrocum Teramo 0.0 12.5 100.0 Pietracamela 18.2 56.5 44.2 Torricella Sicura 4.1 14.1 87.5 Torano Nuovo 18.6 57.4 43.5 Campli 8.0 18.6 85.9 Sant'Egidio alla Vibrata 18.7 59.2 42.6 Basciano 8.1 19.5 81.4 Nereto 19.1 60.8 40.8 Canzano 8.1 20.5 80.5 Castelli 19.3 62.4 39.2 Castellalto 9.3 22.0 79.5 Arsita 19.7 63.3 37.6 Penna Sant'Andrea 9.7 22.6 78.0 Ancarano 19.9 64.1 36.7 Montorio al Vomano 9.7 26.0 77.4 Valle Castellana 20.3 66.4 35.9 Cermignano 11.3 27.6 74.0 Corropoli 20.3 68.6 33.6 Bellante 11.6 29.8 72.4 Crognaleto 20.7 71.1 31.4 Tossicia 12.7 31.0 70.2 Montefino 20.9 72.0 28.9 Cortino 13.3 32.2 69.0 Giulianova 21.6 76.0 28.0 Castel Castagna 13.3 32.9 67.8 Tortoreto 21.6 78.3 24.0 Colledara 13.3 34.1 67.1 Castiglione Messer Raimondo 21.8 80.0 21.7 Civitella del Tronto 13.6 38.7 65.9 Controguerra 22.7 81.6 20.0 Notaresco 15.2 41.0 61.3 Castilenti 23.9 82.5 18.4 Rocca Santa Maria 15.3 41.7 59.0 Alba Adriatica 24.2 82.8 17.5 Sant'Omero 15.4 43.9 58.3 Roseto degli Abruzzi 24.9 87.2 17.2 Cellino Attanasio 15.9 45.8 56.1 Atri 25.3 92.7 12.8 Fano Adriano 16.7 46.6 54.2 Colonnella 25.5 94.8 7.3 Mosciano Sant'Angelo 16.8 50.2 53.4 Martinsicuro 28.4 95.9 5.2 Morro d'Oro 17.0 51.5 49.8 Pineto 31.1 97.7 4.1 Isola del Gran Sasso d'Italia 17.5 54.1 48.5 Silvi 36.5 100.0 2.3 Bisenti 17.7 55.8 45.9

Alla base di questa procedura vi sono due ipotesi: la distribuzione statistica è continua; è giustificata, ai fini pratici, l’interpolazione lineare per la ricerca del valore mediano.

La procedura in questione appare inapplicabile con dati territoriali discreti, come quelli che si riferiscono a luoghi puntiformi. In tali evenienze l’unica strada percorribile appare il ricorso alle frequenze cumulate, o a quelle retrocumulate.

Page 20: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

20

In merito, si consideri (vedi prospetto) quale caso concreto la distribuzione dei capoluoghi comunali della provincia di Teramo, ordinati per distanze crescenti a partire dal capoluogo di provincia e qualificati dalla popolazione residente nei corrispondenti comuni alla data del censimento 1921, popolazione espressa in termini percentuali del totale provinciale.

Si conviene di considerare quale a) espressivo del primo quartile delle distanze, ponderate con la popolazione, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 25% e quelle retrocumulate risultano pari o superiori al 75% (Montorio al Vomano, alla distanza di 9.7 km); b) espressivo della mediana, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 50% e quelle retrocumulate risultano pari o superiori al 50% (Mosciano Sant’Angelo, alla distanza di 16.8 km); c) espressivo del terzo quartile, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 75% e quelle retrocumulate risultano pari o superiori al 25% (Giulianova, a 21.6 km).

La mediana spaziale bivariata

La mediana spaziale calcolata sulle singole coordinate non assicura, come visto in precedenza, la proprietà del minimo al ruotare degli assi; pertanto, laddove lo si ritenga utile, è necessario rifarsi alla mediana spaziale bivariata.

La mediana in questione si calcola con procedura iterativa, manca infatti la possibilità di una soluzione analitica generale, sotto il vincolo di rendere minima la somma delle distanze complessive dei luoghi puntiformi in esame e il punto immagine della mediana.

L’iterazione porta a soluzioni rapidamente convergenti, ma dobbiamo rilevare la laboriosità dei calcoli necessari anche per poche ripetizioni delle elaborazioni (la procedura è illustrata più avanti nel testo di questo paragrafo).

Come esempio introduttivo si propone la situazione di coordinate e pesi di 8 luoghi A, B...H definiti nel prospetto che segue nel testo: luoghi coordinate pesi X Y P A 4 6 9 B 6 6 4 C 3 3 10 D 7 2 4 E 2 9 20 F 6 2 8

Page 21: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

21

G 2 7 20 H 5 3 6 totale pesi 81 coordinate del baricentro X1 = 3.407; Y1 = 5.802

Effettuate le iterazioni, emerge il seguente quadro riassuntivo:

Iterazioni x y Sommatoria delle distanze Differenze I 3.407 5.802 228.254 II 3.358 6.045 226.449 -1.805 III 3.285 6.145 225.906 -0.543 IV 3.21 6.205 225.506 -0.400

dal quale si desumono differenze progressivamente contenute tra successive sommatorie delle distanze, e la possibilità di attribuire con sufficiente precisione la qualità di punto mediano a quello individuato con la quarta iterazione.

IVIII

II

I

5.5

6

6.5

3 35

x

y

.

224

225

226

227

228

229

I II III IV

Sommatoria delle distanze

Figura 14 L’area mediana dell’insieme di luoghi puntiformi “capoluoghi di provincia della regione Lombardia”.

A sinistra, spostamenti della mediana spaziale bivariata per successive iterazioni; a destra, progressiva contrazione della distanza complessiva.

Infatti, se le coordinate dei luoghi hanno il chilometro come unità di misura, ulteriori iterazioni potrebbero comportare variazioni globali di qualche centinaia di metri, del tutto irrilevanti in un’analisi territoriale.

Page 22: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

22

Circa la dispersione nell’intorno dell’area mediana, o di un qualsiasi punto assunto come centrale, la logica interna all’EDA suggerisce di apprezzarla tramite rappresentazioni grafiche o cartografiche delle frequenze cumulate, computate dal centro verso la periferia per anelli successivi.

La procedura è abbastanza semplice e comporta, come primo passaggio, la ricerca del baricentro che funge da prima e provvisoria soluzione; successivamente si calcolano le distanze dei luoghi dal baricentro e le quantità:

Σ (pi/di)xi e Σ (pi/di)yi dalle quali si derivano le coordinate della seconda provvisoria soluzione:

x’ = Σ( (pi/di)xi)/Σ (pi/di) e y’ = Σ ((pi/di)yi)/ Σ (pi/di) della quale si verifica la correttezza con il calcolare nuovamente la somma delle distanze complessive dai luoghi sotto indagine, nel senso che dovrà risultare inferiore alla somma trovata in precedenza. La procedura si arresta allorquando le differenze tra le sommatorie delle distanze diventano irrilevanti ai fini concreti della ricerca.

Da precisare che, allorquando ai luoghi sono attribuiti pesi diversi da caso a caso, le coordinate del baricentro e le sommatorie delle distanze devono essere, ovviamente, ponderate, previa verifica della non attribuzione ad un singolo luogo di un peso pari o superiore al 50% del totale dei pesi. Infatti, in un caso del genere la qualità di mediana compete, per definizione, a tale luogo. Un caso di studio

L’utilizzo meccanico ed acritico degli strumenti quantitativi, specie se associato a procedure automatiche di calcolo, può facilmente condurre non solo a interpretazioni erronee, ma anche a rappresentazioni del tutto fuorvianti. Non sfugge a questo rischio l’analisi esplorativa in generale e, in particolare, la mediana bivariata e le medie di posizione delle distanze, specie quando sono impiegate nello studio della distribuzione spaziale di un solo attributo.

Un caso concreto, la distribuzione delle ampiezze demografiche comunali in provincia di Teramo al censimento 1991, è di aiuto nell’esplicitare i rischi.

Effettuate tutte le elaborazioni, se si assume come centro della provincia di Teramo la mediana spaziale bivariata, ponderata con la popolazione residente, le circonferenze concentriche, aventi raggio pari al primo quartile, alla mediana, al terzo quartile e al valore massimo delle distanze ponderate con la popolazione residente, disegnano quattro fasce in ciascuna delle quali, a prima vista, risiede un quarto della popolazione residente nella provincia. In realtà, poiché la distribuzione spaziale dei capoluoghi comunali è discreta, le quantità non sono del tutto uguali.

Page 23: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

23

Figura 15 Popolazione residente nei comuni dprovincia di Teramcensimento 1991 per areanulari equivalenti.

ella o al

e

Commento nel testo.

Figura 16 Dispersione rispetto a Frosinone degli attributi superficie, popolazione e valore aggiunto nei

-40

-30

-20

-10

0

10

20

30

40

-40 -30 -20 -10 0 10 20 30 40

5

0

250

500

750

1000

0 100 200 300 400 500 600 700

pop.zionesup.Agricoltura foreste e pesca industriaServizi destinabili alla vendita

comparti indicati in legenda (anno di riferimento 1991), rilevati nelle province italiane, Frosinone inclusa.

Page 24: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

24

Le ogive delle frequenze cumulate per distanze crescenti forniscono preziose informazioni circa la concentrazione o la rarefazione di insiemi di attributi geografici negli intorni spaziali dei luoghi assunti come origine delle misure. Nel caso della provincia di Frosinone il grafico ne sottolinea il ruolo subordinato nel contesto italiano.

L’approccio esplorativo alla regressione

Il metodo più diffuso, ma non sempre soddisfacente e comunque molto laborioso, per adattare una funzione matematica ad un insieme di coppie di dati empirici, x e y, si avvale della procedura dei minimi quadrati. Essa, inoltre, deve essere applicata due volte - regressione di y rispetto ad x, regressione di x rispetto ad y - in quanto si tratta di rendere minima la sommatoria

( )

( )

y yoppure

x x

i i

i i

'

'

2

2

dove xi e yi sono i dati empirici e xi’ e yi’ sono quelli teorici.

Se la regressione è di tipo lineare, il problema implica il calcolo dei parametri delle rette

y ax bx my

' '' '= += +n

x−

x

Il coefficiente angolare a si ottiene con la relazione

a x x y y xi i i= −

− −

∑ ∑/2

dove indicano le medie aritmetiche dei valori x e y; la costante b, a sua volta, è espressa da

x e y− −

b y a= −− −

Il computo dei parametri, se i dati sono numerosi, è agevole soltanto se si dispone di una calcolatrice espressamente progettata per i calcoli statistici, o di un foglio elettronico.Ma quel che maggiormente conta è che le funzioni di regressione, calcolate con il vincolo dei minimi quadrati, rispecchiano in maniera accentuata i casi estremi.

Page 25: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

25

Notevole interesse presenta l’approccio esplorativo alla regressione, essendo orientato a discriminare, molto opportunamente da un punto di vista geografico, le situazioni anomale da quelle rilevabili nella maggioranza dei casi.

y = 0.4437x + 2.7801R2 = 0.2333

0

10

20

30

0 10 20 30

% Popolazione

% a

ddet

ti ne

lle p

rovi

nce

y = 0.3787x + 3.1057R2 = 0.1262

0

10

20

30

0 10 20 30

% Popolazione

% a

ddet

ti ne

lle re

gion

i

Figura 17 Esempi di regressione con il metodo dei minimi quadrati - caso dei dipendenti regionali e caso dei dipendenti provinciali.

Il calcolo della retta di regressione è stato effettuato con procedura automatica tramite Microsoft Excel.

Figura 18 Esempio di regressione con il metodo dei minimi quadrati - caso dei dipendenti comunali.

Il calcolo della retta di regressione è stato effettuato con procedura automatica tramite Microsoft Excel.

In sostituzione del metodo dei minimi quadrati, fondato sulla media aritmetica e sullo scarto quadratico medio, nell’ambito dell’EDA sono disponibili diverse procedure tra le quali piuttosto diffuso risulta il cosiddetto metodo dei tre gruppi, illustrato tramite un esempio: la costruzione della retta lordo, rilevato nelle province italiane (anno di

y = 0.9226x + 0.387R2 = 0.9434

0

10

20

30

0 10 20 30

% Popolazione

% A

ddet

ti ne

i com

uni

di regressione del valore aggiunto globale riferimento: 1991), in funzione del valore aggiunto pertinente al comparto industria. I dati

Page 26: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

26

originali sono stati preliminarmente riespressi in parti per 1000 del totale Italia (figura 19).

La procedura esplorativa in esame - dopo l’attribuzione al comparto industria del ruolo di

è multiplo di 3 si formano i gruppi, di numerosità k, per con

variabile x, indipendente, e al valore aggiunto globale lordo quello di variabile y, dipendente - comporta l’ordinamento dei dati in senso crescente della variabile x per ottenere una nuova tabella ( tab. xxx) da suddividere in 3 gruppi egualmente numerosi che prendono, rispettivamente, il nome di gruppo di sinistra o left (acronimo: L), centrale o middle (M) e di destra o right (R).

Se il numero n dei dati non venzione, come dal prospetto:

formazione dei gruppi

aso III 1

sinistra o left dle 1

1

a con il

feriti al

Poiché il numero delle pr

riassunt

caso I caso II c n=3k n= 3k + n= 3k +2k k k+1

centrale o mid k k+ k destra o right k k+1 k+

Figura 19 Esempio di regressione esplorativmetodo dei 3 gruppi.

I dati dell’esempio sono ri1991.

ovince italiane è 95 (si discorre della situazione amministrativa anteriore al 1991), si ricade nel caso III.

I tre gruppi sonoi dalle rispettive

mediane che si indicano con i simboli delle variabili, specificati da un pedice che richiama i gruppi (L, M, R). Effettuate le operazioni del

caso si ottiene questo prospetto:

0

20

40

60

80

100

120

0 50 100 150

Valore aggiunto dell'industria in parti per mille del totale Italia

valo

re a

ggiu

nto

lord

o co

mpl

essi

vo in

par

ti pe

r mille

del

to

tale

Ital

ia

datiempirici

regr.esplor

Page 27: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

27

x y

L’equazione della retta di regressione di y in funzione di x:

si quantifica calcolando, per primo, il coefficiente angolare b con la relazione:

corrispondente a quello della retta c mediani L e R; effettuati i calcoli

etermina ponendo R-bxR)]

da cui segue a = 1.52216 ressione è:

A proposito di a si tro sia stato individuato in maniera

regressione deve essere sempre saggiata con l’esame dei residui e l’apprez

Procedure alternative per la regressione

I metodi alternativi più noti sono: ta di un metodo, di tipo non esplorativo, ritenuto utile

allorquasuddivisi in 2 gruppi

ugualm1 + ......+ xn)]

dove y’ e x’ indicano le medie aritmetiche dei valori empirici y e x.

b) Metodo di Nair e Shrivastava. Si utilizzano direttamente solo i dati del primo e del terz

’L = (y1 + ...ynL)/nL

La retta di regressione i punti riassuntivi:

mediana L 2.811 3.826 mediana M 6.362 6.921 mediana R 16.126 14.945

y = a +bx

b = (yR-yL)/(xR-xL) he passa per i punti

richiesti si ottiene b = 0.835057845. A sua volta il parametro a si d

a = (1/3)*[(yL-bxL)+(yM-bxM)+(Y9367, sicché la richiesta equazione di reg

y = 1.522169367 +0.835057845x può rilevare come questo parame

tale da far passare la retta di regressione in un punto medio tra i 3 punti mediani riassuntivi dei gruppi.

La bontà della zamento visuale delle distribuzioni tramite un congruo numero di grafici; inoltre,

è bene confrontare i risultati con quelli conseguenti all’applicazione di metodi alternativi.

a) Metodo di Wald. Si tratndo si ritiene che i dati empirici possano contenere errori. I dati, dopo essere stati ordinati rispetto alla x, sono ente numerosi e si calcolano i parametri con le relazioni:

b = [(ym+1 + ....+yn) - (y1+.....ym)]/[(xm+1 +....+ xn) - ( xa =y’-bx’

o gruppo con i quali si individuano 2 punti riassuntivi L e U (da low ‘basso’ e upper ‘superiore’) tramite le medie aritmetiche:

x’L = (x1 + ... + xnL)/nL ; yx’U = (xn-nU + ...xn)/nU; y’U = (yn-nU + ...yn)/nU è, molto semplicemente, quella che passa per

Page 28: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

28

b = (y’U-y’L)/(x’U-x’L) a = y’L -bx’L

c) Metodo di Bartlett. La suddivisione in 3 gruppi ugualmente numerosi è

richiest

L (x’L;y’L)

baricentro (x’; y’) la retta di regressione è definita com r il baricentro e parallela alla retta

U-y’L)/(x’U-x’L)

I rischi della regressione

Le linee di tendenza costruite con la regressione, qualunque sia la procedura, sono m

isce gli aspetti in discussione: immagi

Figura 20 I rischi della regressione.

’equazione di regress

o anche per questo metodo che si avvale di tre punti riassuntivi: le medie aritmetiche del primo (L) e dell’ultimo gruppo (U), e le medie aritmetiche delle due distribuzioni:

U (x’U; y’U)

e quella passante pecongiungente i punti L e U; pertanto:

b = (y’a = y’ -bx’

olto utili in geografia allorquando sono utilizzate per analisi retrospettive, ma nel contempo possono condurre a valutazioni previsionali sempre dubbie e sovente assurde allorquando sono impiegate in indagini prospettiche.

Un semplice esempio (figura 20) chiarniamo di trovarci nel comune di Milano all’indomani del censimento della

popolazione effettuato nel 1951 e di voler effettuare una previsione per il quarantennio successivo sulla base dei risultati dei censimenti effettuati tra il 1921 e il 1951.

0

500000

1000000

1500000

2000000

2500000

1921 1931 1941 1951 1961 1971 1981 1991

Anno di censimento

Popo

lazi

one

Pop effettiva Pop teorica

Commento nel trsto. Lione lineare, calcolata

con il programma Excel (o con altro similare) secondo il principio dei minimi quadrati (y = 1.8898x+101.4) si adegua molto bene ai dati empirici, come documentano i modesti residui (dato teorico-dato empirico) e l’alto valore di R

Page 29: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

29

quadro (0.9655), pertanto riassume efficacemente il trend del periodo 1921-1951. Al contrario, la proiezione della tendenza storica verso il futuro conduce ad errori

via via

Censimento Popolazione Popolazione teorica Residuo In %

1 1061522

-134364

39.63

La standardizzazione esplorativa dei dati

Un cenno anche sulla standardizzazione dei dati, una procedura che consente di trasform

m Nel secondo caso scendono da una formula

similare

ore - quartile inferiore)

dipendentemente dal criterio seguito nella standardizzazione l’utilità della trasform

più appariscenti, tanto che al 1991 il residuo sfiora il 40 % del dato reale. In merito è illuminante questo quadro analitico1:

1921 818148 829602 11454 1.40 1931 960660 984216 23556 2.45 1936 115768 -54246 -4.86 1951 1274154 1293443 19289 1.51 1961 1582421 1448057 -8.49 1971 1732000 1602670 -129330 -7.47 1981 1604773 1757284 152511 9.50 1991 1369231 1911897 542666

are in puri numeri i valori di una tabella statistica e, conseguenza di rilievo, di confrontare tabelle diverse, riferite ad un certo insieme territoriale, anche se i valori originali sono espressi in differenti unità di misura.La standardizzazione si avvale di due distinti approcci: quello tradizionale e quello esplorativo (figura 21.Nel primo caso i valori standardizzati, zi, si ottengono tramite la relazione:

zi = (xi - media aritmetica)/sqi valori standardizzati, z’i , di

, in ragione della sostituzione della media aritmetica con la mediana e dello scarto quadratico medio con la differenza interquartilica:

z’i = (xi - mediana)/(quartile superi

Inazione dei dati risulta evidente se si ricorda che tutte le tabelle standardizzate

con il metodo tradizionale sono accomunate dall’avere la media aritmetica pari a zero e

1 L’esempio dovrebbe mettere in guardia verso le false profezie, propalate con corredi ingannevoli di grafici, estrapolazioni statistiche e scenari fittizi, dei circoli ambientalisti più agguerriti e amplificate dai mass-media circa l’esaurirsi a breve di risorse minerarie e alimentari . I tanti studi del Club di Roma, pubblicati nella seconda metà del Novecento offrono una casistica tanto numerosa quanto sconcertante. In realtà, per evitare gli sprechi dovrebbe bastare il buon senso.

Page 30: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

30

lo scarto quadratico medio pari a 1, le tabelle standardizzate con l’approccio esplorativo hanno invece pari a zero la mediana.

Inoltre, numerose tabelle possono essere facilmente confrontate con la visualiz

igura 21 Distribuzione delle distanze dei

Figura 22 Confronto grafico tra nove

è stato costruito con gli

zazione dei valori su linee graduate, sovrapposte o affiancate.

Fcapoluoghi comunali dal capoluogo provinciale in provincia di Gorizia .

-3

-2

-1

0

1

2

3

4

0 10 20 30 40

Dati originali (km)

Dati

stan

dard

izza

ti

tradizionale esplorativa

0

10000

20000

30000

40000

50000

60000

min quartile I mediana quartile III max

distribuzioni statistiche. Indicatori originali.

Il grafico elementi, riportati nel prospetto che segue, che si riferiscono ai 47 comuni della provincia di Teramo.

Page 31: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

31

Attributo Minimo Quartile I Mediana Quartile III Massimo Superficie in ha 704 2032 3088 5151.5 15200 Popolazione al censimento 1921 738 2125 3558 5046.5 27275 Popolazione al censimento 1931 1402 2332 3868 5341.5 31790 Popolazione al censimento 1936 1385 2443.5 4121 5598.5 33796 Popolazione al censimento 1951 1389 2739 4255 6364.5 38643 Popolazione al censimento 1961 716 2377.5 3934 6038 41899 Popolazione al censimento 1971 519 1748.5 3100 6088 47804 Popolazione al censimento 1981 402 1733.5 2964 6593 51092 Popolazione al censimento 1991 350 1692.5 2936 7198 51756

Figura 23 Confronto grafico tra nove distribuzioni statistiche. Indicatori standardizzati.

-2

0

2

4

6

8

10

12

min quartile I mediana quartile III max

Il grafico è stato costruito con gli elementi, riportati nel prospetto che segue, che si riferiscono ai 47 comuni della provincia di Teramo.

Attributo Minimo Quartile I Mediana Quartile III Massimo Superficie in ha -0.764 -0.339 0.000 0.661 3.883 Popolazione al censimento 1921 -0.965 -0.491 0.000 0.509 8.118

Page 32: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

32

Popolazione al censimento 1931 -0.819 -0.510 0.000 0.490 9.278 Popolazione al censimento 1936 -0.867 -0.532 0.000 0.468 9.406 Popolazione al censimento 1951 -0.791 -0.418 0.000 0.582 9.485 Popolazione al censimento 1961 -0.879 -0.425 0.000 0.575 10.372 Popolazione al censimento 1971 -0.595 -0.311 0.000 0.689 10.302 Popolazione al censimento 1981 -0.527 -0.253 0.000 0.747 9.904 Popolazione al censimento 1991 -0.470 -0.226 0.000 0.774 8.867

Lo scaling

La trasformazione dei dati è, nell’approccio esplorativo, un’abitudine da acquisire, e da coniugare con la sistematica rappresentazione grafica, al fine di saggiare, in via preliminare, l’esistenza di possibili regolarità statistiche, da interpretare per analogia ed omologia con isomorfismi scientifici o con specifici modelli esplicativi.

Si inizia con lo scaling (dall’inglese to scale), un’importante trasformazione dei dati consistente nel sostituire le unità di misura originali con nuove unità, rappresentate per punti percentuali, e nel trasformare i campi di variazione dei dati in campi aventi per minimo il valore 0 e per massimo il valore 100.

La procedura di trasformazione dei dati originali xi nei dati trasformati x’i si avvale di questa relazione:

x’i = 100(xi - xmin)/(xmax - xmin) dalla cui applicazione al caso della popolazione residente nelle province italiane (censimento 1981) discende il grafico illustrativo riportato in figura 24.

0.00

10.00

20.00

30.00

40.00

50.00

60.00

70.00

80.00

90.00

100.00

0 1000000 2000000 3000000 4000000 5000000

x

x'

Page 33: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

33

Figura 24 Esempio di scaling.

Popolazione residente nelle province italiane al censimento 1981.

Lo scaling va utilizzato con buon senso: il suo impiego deve facilitare i confronti tra dati territoriali e non comportare la pura e semplice sostituzione delle unità di misura. Pertanto, la regola di trasformazione si riscrive sostituendo xmin con xpeggiore e xmax con xmigliore , e si assume la convenzione di intendere peggiore e migliore in conformità alle specificità del particolare attributo geografico in esame. In altre parole, se si esaminano dati concernenti la disoccupazione, il dato minimo è quello che riflette una migliore situazione sociale; per contro il dato massimo implica la situazione peggiore.

Ancora il buon senso suggerisce di avvalersi dello scaling per confrontare gruppi di almeno 3-4 attibuti, altrimenti il cambiamento di unità di misura rischia di tradursi in un esercizio di operazioni aritmetiche, prive di signifivatività geografica.

È possibile avvalersi dei dati trasformati, semplicemente cumulandoli, attributo per attributo, al fine di addivenire a punteggi complessivi, utilizzabili come indicatori sintetici delle singole tessere territoriali, ma sempre con grande prudenza.

Un caso applicativo concreto (figura 25) è costituito dagli attributi persone in cerca di occupazione, prodotto interno lordo per abitante e apparecchi istallati per il servizio telefonico attribuiti dall’ISTAT alle regioni amministrative italiane per il 1991 o al 31 dicembre 1991 (apparecchi telefonici). Al riguardo, il grafico illustrativo evidenzia un buon accordo tra le distribuzioni dei singoli attributi analitici, specie per quel che riguarda la condizione della Calabria - sempre qualificata dalla condizione peggiore -, e di tali distribuzioni con l’indicatore sintetico, ottenuto dalla somma dei valori scalati x’, y’ e z’.

0

25

50

75

100

0 25 50 75 100

indicatore sintetico

indi

cato

ri an

alitic

i

x' y' z'

Figura 25 Esempio di applicazione dello scaling.

Il grafico è stato disegnato a partire dai dati raccolti in prospetto. Intitolazione delle colonne: x: persone in cerca di occupazione in % forze di lavoro; y: prodotto interno lordo per abitante (Italia pari a 100); z: apparecchi istallati per il servizio telefonico per 100 abitanti; x’, y’ e z’ valori scalati; w:

Page 34: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

34

indicatore sintetico; w’: indicatore sintetico scalato. I dati sono riferiti all’anno 1991 per gli attributi x ed y, al dicembre 1991 per l’attributo z.

Regioni x y z x' y' z' w (= x'+y'+z') w' Piemonte 7 120 66 81 85 64 230 79 Valle d'Aosta 4 127 82 98 95 100 293 100 Lombardia 4 131 69 95 100 71 267 91 Trentino Alto Adige 3 120 67 100 86 68 253 87 Veneto 5 115 58 93 79 47 219 75 Friuli Venezia Giulia 6 117 64 87 82 61 230 79 Liguria 9 111 76 71 74 86 231 79 Emilia-Romagna 5 123 70 91 90 73 254 87 Toscana 8 107 65 75 67 63 206 70 Umbria 10 93 55 66 48 41 155 53 Marche 7 105 55 82 65 40 187 64 Lazio 11 111 66 59 74 64 197 67 Abruzo 11 86 52 62 39 33 134 46 Molise 15 72 42 40 20 11 71 24 Campania 22 69 39 8 15 4 27 9 Puglia 16 73 40 35 21 7 63 22 Basilicata 21 59 39 13 2 4 19 7 Calabria 23 58 37 0 0 0 0 0 Sicilia 23 65 44 1 10 15 26 9 Sardegna 19 73 47 22 20 22 64 22 ITALIA 11 100 57 61 58 45 164 56

Osservazioni sulla trasformazione dei dati

Trasformazioni radicali dei dati si ottengono con procedure più complesse, come la standardizzazione classica o quella esplorativa, tramite le quali le unità di misura originali sono sostituite con puri numeri, o con manipolazioni algebriche, da effettuare con grande prudenza in quanto esse consistono nell’impiego di funzioni che devono essere esplicitate e giustificate; in generale si pone: x’i = f(xi).

La funzione più impiegata, anzi raccomandata nell’ambito dell’EDA, è la radice quadrata, ma anche quella logaritmica è utilizzata frequentemente dai geografi, in particolare nello studio delle relazioni del tipo rango-dimensione e della crescita relativa (discusse in altra parte di questo studio); tuttavia, in linea di principio non vi sono, a priori, regole specifiche da seguire nella scelta delle funzioni di trasformazione, salvo le

Page 35: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

35

trasformazioni mirate al conseguimento di particolari proprietà statistiche nelle nuove distribuzioni, come la simmetria.

Le trasformazioni più diffuse sono raggruppabili nei seguenti tipi fondamentali (figura 26): x’ = xp per p > 0

x’= - xp per p < 0

x’= logx per p = 0 x’= (xp - 1)/p per p diverso da 0 x’= lgx per p = 0 (lgx indica il logaritmo con base e)

Trasformazioni dei dati tramite funzioni del tipo p

0.00

1.00

2.00

3.00

0.00

0.50

1.00

1.50

2.00

2.50

3.00

dati originali

dati

tras

form

ati

p = 2

p = 1

p = 0.5

p = -0.5

p = -1

p = -2

x^xp

Figura 26 Famiglia di trasformazioni tramite potenze.

Quale caso applicativo riprendiamo in esame la popolazione residente nelle

province italiane al censimento 1981 per trasformare i dati originali tramite le relazioni: x’ = x0.5 ; x’’ = x1/3 e x’’= logx

Page 36: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

36

e verifichiamo tramite i corrispondenti grafici le caratteristiche delle nuove distribuzioni. Il grafico di x’ o diagramma delle radici, raccomandato dalla letteratura

geografico-statistica, mostra una buona relazione empirica dei dati trasformati con una funzione di potenza (figura 27), mentre il grafico logaritmico (figura 28) presenta un apprezzabile andamento lineare nei dati: in entrambi i casi le funzioni interpolanti e lo stimatore R2 indicano una apprezzabile regolarità statistica nei dati, il che non implica alcuna valutazione territoriale in quanto i dati non sono spazializzati.

Radice cubica dei dati originali

y = 172.55x-0.2393

R2 = 0.9294

0

20

40

60

80

100

120

140

160

180

200

0 50 100

Rango

Popo

lazi

one

Radice quadrata dei dati originali

y = 2450.5x-0.3625

R2 = 0.9294

0

500

1000

1500

2000

2500

3000

0 50 100

Rango

Popo

lazi

one

Figura 27 Popolazione residente nelle province italiane al censimento 1981: diagrammi della radice quadrata e della radice cubica.

Logaritmo base 10 dei dati originali

y = 6.8559x-0.0544

R2 = 0.91154

5

6

7

0 50 100

Rango

Popo

lazi

one

Figura 28 Popolazione residente nelle pitaliane al censimento 1981: diagrammtrasformazione logaritmica.

rovince a della

In questa figura, come nella precedente, la popolazione è visualizzata in funzione del rango secondo un ordine decrescente della popolazione residente.

Page 37: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

37

A proposito del grafico logaritmico (la denominazione corretta è grafico

semilogaritmico in quanto uno degli assi è a suddivisione uniforme) si noti che procedendo in senso inverso la funzione lineare di tendenza si può scrivere:

y = k/xq del tipo:

y = a/xb già noto quale espressione formale della regolarità statistica rango-dimensione2.

I grafici del tipo Q-Q plots

Un gruppo particolare di raffigurazioni è costituito da metacarte, progettate e realizzate dallo scrivente (sono novità per l’impostazione, non per la tecnica che si richiama ai grafici del tipo Q-Q plots della letteratura statistica, sarebbe a dire grafici che pongono a confronto i quantili di due fenomeni interconnessi), del tutto coerenti con lo spirito dell'EDA.

Si tratta di computare in via preliminare le frequenze ponderate (con i singoli attributi del valore aggiunto della popolazione e della superficie) della longitudine e della latitudine, rilevate con coordinate piane per ciascun capoluogo di provincia, ai quali si attribuisce inoltre il peso nell'intera provincia per l'attributo da cartografare. Successivamente si rilevano per la longitudine e per la latitudine i valori ponderati corrispondenti al primo quartile, alla mediana e al terzo quartile, tutti ovviamente com-presi tra gli estremi del valore minimo e del valore massimo sempre costanti per la longitudine o per la latitudine, indipendentemente dalla ponderazione: longitudine* min km 0 (Aosta) max km 974 (Lecce) latitudine* min km 0 (Ragusa) max km 1064 (Bolzano) * La longitudine e la latitudine sono quelle conseguenti alla traslazione degli assi dei valori originali in modo tale da far coincidere in ambo i casi i minimi con il valore zero.

Rappresentando su un grafico cartesiano i valori suddetti si ottiene una metacarta caratterizzata da sedici comparti, come illustrato in figura per il caso dei valori ponderati con la superficie: è evidente che al mutare degli attributi si modifica la configurazione

2 L’analogia non è completa perché nel caso della regola rango dimensione la trasformazione logaritmica è duplice (rango e popolazione).

Page 38: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

38

all'interno della rappresentazione ed è possibile analizzare ciascuno dei sedici comparti come un caso particolare (figura 29).

Figura 29 Schema metacartografico dell’attributo superficie nelle province italiane,

Per esplicitare ulteriormente il metodo di rappresentazione si propone come

esperimento mentale il rettangolo delimitato dai valori minimi e dai primi quartili: se la ponderazione con l'attributo industria comporta una dilatazione di tale rettangolo rispetto a quello conseguente alla ponderazione con l'attributo superficie, significa che le province sud-occidentali hanno un valore aggiunto nel comparto dell'industria men che proporzionale rispetto a quello richiesto dall'estensione areale di tali province.

Poiché il raffronto visivo tra coppie di carte può non risultare facile e la sovrapposizione di carte non sembra praticabile, le raffigurazioni sono state ulteriormente semplificate con la costruzione di semplici linee diagrammatiche con valore meta-cartografico: le linee sono rappresentate da spezzate che collegano per un dato attributo i punti di incontro di longitudine e di latitudine per il primo quartile, per la mediana e il terzo quartile. Tali linee diagrammatiche sono inseribili a gruppi di due o più all'interno

Page 39: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

39

di un rettangolo standard (figura 30) e rendono immediato e semplice l'apprezzamento visivo degli spostamenti.

200

300

400

500

600

700

800

900

1000

200 400 600 800 1000

sup.

pop

Figura 30 Confronto tra le distribuzioni degli attributi superficie e popolazione residente nelle province italiane al censimento 1991.

Nulla vieta, per particolari esigenze, di procedere a misure areali o lineari degli spostamenti al passare da un attributo a un altro. Al riguardo si propone come caso d'esempio il confronto tra valori di posizione, ponderati con la superficie e la popolazione: la linea diagrammatica della popolazione è tutta al di sopra di quella della superficie quale conseguenza di un significativo addensamento del carico demografico nelle province settentrionale rispetto a quelle meridionali.

Inoltre, si può rilevare come anche nel Mezzogiorno vi sia un maggior addensamento relativo delle popolazioni nella sua posizione più a nord. Infatti, i dati analitici c’informano che il primo quartile della latitudine cade in corrispondenza della provincia di Salerno per la superficie, e di Napoli per la popolazione.

Page 40: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

40

Conclusioni interlocutorie

In conclusione, le linee fondamentali dell’EDA, delineate finora, dovrebbero essere bastevoli delle potenzialità applicative, specie sul versante della didattica universitaria, pur nell’eccessiva sintesi di aspetti molto rilevanti, come le anomalie e i residui. Sul versante della ricerca molto resta da fare. In particolare, lo scrivente ritiene che l’analisi esplorativa, opportunamente affinata e arricchita di strumenti progettati per l’impiego in geografia, possa qualificarsi come uno degli approcci più idonei per esaltare la geo-graficità e orientare con forte carica innovativa l’interpretazione dei dati territoriali.

Un filone che appare molto promettente riguarda una più soddisfacente descrizione delle linee di tendenza (rispetto alle metodologie tradizionali) finalizzate a far emergere le specificità regionali, subregionali e locali, in genere non congruenti. Alla base della procedura, in via di sperimentazione, si colloca l’uso sistematico della mediana spaziale mobile per terne di punti vicini, o di tessere areali contigue.

Page 41: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

41

Applicazione al valore aggiunto nelle province per il 1991 Valore aggiunto relativo per abitante Intitolazione delle colonne: A: Agricoltura foreste e pesca; B: Industria; C: Servizi destinabili alla vendita; D: Totale parziale; E: Servizi non destinabili alla vendita; F: Valore aggiunto al costo dei fattori al lordo dei servizi bancari imputati; G: Servizi bancari imputati; H: Valore aggiunto al costo dei fattori al netto dei servizi bancari imputati. Indicatori classici A B C D E F G H Media tra province 1250 973 950 971 997 975 888 980 SQM 694 446 254 266 207 226 357 222 SQM/media 0.56 0.46 0.27 0.27 0.21 0.23 0.40 0.23 Min 122 291 493 472 608 532 334 536 Max 3212 1945 1739 1489 1848 1412 2074 1426 Asimmetria 0.64 0.34 0.21 -0.23 1.08 -0.24 0.55 -0.25 Curtosi 0.22 -0.91 -0.26 -1.19 2.61 -1.19 -0.03 -1.18 Max-min 3090 1654 1245 1017 1240 880 1740 890 (Max-min)/media 2.47 1.70 1.31 1.05 1.24 0.90 1.96 0.91

Page 42: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

42

Valore aggiunto pro capite nelle province al 1995 Indicatori esplorativi A B C D E F G H min 122 291 493 472 608 532 334 536 quartile I 838 550 714 717 857 752 568 759 mediana 1159 967 963 1051 979 1052 874 1051 quartile III 1581 1298 1128 1168 1104 1158 1168 1159 max 3212 1945 1739 1489 1848 1412 2074 1426 dF 743 747 414 451 247 406 600 400 Q1 - 1.5dF -277 -571 94 40 487 143 -331 160 Q3 + 1.5dF 2695 2419 1749 1845 1474 1767 2068 1759 Q1 - 3dF -1391 -1692 -527 -637 116 -466 -1231 -440 Q3 + 3dF 3809 3539 2370 2522 1844 2375 2967 2358

-2000

-1000

0

1000

2000

3000

4000

5000

A B C D E F G H

min quartile I medianaquartile III max Q1 - 1.5dFQ3 + 1.5dF Q1 - 3dF Q3 + 3dF

Page 43: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

43

Percentili Indicatori A B C D E F G H

0.000 122 291 493 472 608 532 334 536 0.125 441 434 634 618 787 680 471 692 0.250 838 550 714 717 857 752 568 759 0.375 1025 773 875 901 922 889 747 896 0.500 1159 967 963 1051 979 1052 874 1051 0.625 1351 1114 1063 1108 1031 1092 956 1096 0.750 1298 1128 1168 1104 1158 1168 1159 0.875 2091 1595 1221 1275 1197 1228 1310 1226 1.000 3212 1945 1739 1489 1848 1412 2074 1426

1581

100

1000

10000

A B C D E F G H

Comparti

Val

ore

aggi

unto

Page 44: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

44

Valori scalati Indicatori esplorativi A B C D E F G H min 0 0 0 0 0 0 0 0 quartile I 23 16 18 24 20 25 13 25 mediana 34 41 38 57 30 59 31 58 quartile III 47 61 51 68 40 71 48 70 max 100 100 100 100 100 100 100 100

0

20

40

60

80

100

A B C D E F G H

Comparti

Val

ore

aggi

unto

min quartile I mediana quartile III max

Percentili dei valori scalati Indicatori A B C D E F G H

0.000 0 0 0 0 0 0 0 0 0.125 10 9 11 14 14 17 8 18 0.250 23 16 18 24 20 25 13 25 0.375 29 29 31 42 25 41 24 40 0.500 34 41 38 57 30 59 31 58 0.625 40 50 46 63 34 64 36 63 0.750 47 61 51 68 40 71 48 70 0.875 64 79 58 79 47 79 56 78 1.000 100 100 100 100 100 100 100 100

Page 45: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

45

Valori standardizzati con criterio esplorativo A B C D E F G H min -1.40 -0.90 -1.14 -1.28 -1.50 -1.28 -0.90 -1.29 quartile I -0.43 -0.56 -0.60 -0.74 -0.50 -0.74 -0.51 -0.73 mediana 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 quartile III 0.57 0.44 0.40 0.26 0.50 0.26 0.49 0.27 max 2.76 1.31 1.87 0.97 3.52 0.89 2.00 0.94 dF -0.56 -0.29 -1.33 -1.33 -2.97 -1.59 -0.46 -1.63 Q1 - 1.5dF -1.93 -2.06 -2.10 -2.24 -2.00 -2.24 -2.01 -2.23 Q3 + 1.5dF 2.07 1.94 1.90 1.76 2.00 1.76 1.99 1.77 Q1 - 3dF -3.43 -3.56 -3.60 -3.74 -3.50 -3.74 -3.51 -3.73 Q3 + 3dF 3.57 3.44 3.40 3.26 3.50 3.26 3.49 3.27

-5

-4

-3

-2

-1

0

1

2

3

4

A B C D E F G H

min quartile I mediana quartile III maxQ1 - 1.5dF Q3 + 1.5dF Q1 - 3dF Q3 + 3dF

Page 46: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

46

Percentili A B C D E F G H

0.000 -1.40 -0.90 -1.14 -1.28 -1.50 -1.28 -0.90 -1.29 0.125 -0.97 -0.71 -0.80 -0.96 -0.78 -0.91 -0.67 -0.90 0.250 -0.43 -0.56 -0.60 -0.74 -0.50 -0.74 -0.51 -0.73 0.375 -0.18 -0.26 -0.21 -0.33 -0.23 -0.40 -0.21 -0.39 5.000 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.625 0.26 0.20 0.24 0.13 0.21 0.10 0.14 0.11 0.750 0.57 0.44 0.40 0.26 0.50 0.26 0.49 0.27 0.875 1.25 0.84 0.62 0.50 0.88 0.44 0.73 0.44 1.000 2.76 1.31 1.87 0.97 3.52 0.89 2.00 0.94

Riepilogo delle distanze in cui si collocano i quartilidi ordinando i dati per distanze crescenti nel senso della longitudine e della latitudine. I quartilidi nelle distribuzioni con due variabili corrispondono ai quartili nelle distribuzioni con una sola variabile. A:Superficie; B: Popolazione; C: Industria in senso stretto; D: Costruzioni e lavori del Genio civile;E. Commercio, riparazioni e attività di recupero; F: Alberghi e pubblici esercizi; G: Trasporti e comunicazioni;H: Credito e assicurazioni; I: Altri servizi destinabili alla vendita. Longitudine A B C D E F G H I Quartilidi km km km km km km km km km Max min Q0 0 0 0 0 0 0 0 0 0 Q1 225 218 150 192 150 192 184 150 150 225 150 Q2 393 397 292 361 349 337 397 335 337 397 292 Q3 636 633 440 603 544 467 556 467 510 636 440 Q4 974 974 974 974 974 974 974 974 974 Latitudine A B C D E F G H I Quartilidi km km km km km km km km km Max min Q0 0 0 0 0 0 0 0 0 0 Q1 417 437 726 465 504 552 504 552 552 726 417 Q2 687 742 905 810 810 833 769 833 833 905 687 Q3 905 942 949 949 947 949 946 949 949 949 905 Q4 1064 1064 1064 1064 1064 1064 1064 1064 1064

Page 47: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

47

Parti per 1000/km Longitudine

A B C D E F G H I Max min Intervalli Q1-Q0 1.14 1.20 2.27 1.31 1.74 1.33 1.37 1.98 1.79 2.27 1.14 Q2-Q1 1.46 1.39 1.16 1.48 1.24 1.81 1.28 1.13 1.25 1.81 1.13 Q3-Q2 1.01 1.11 1.71 1.09 1.28 1.87 1.43 2.05 1.45 2.05 1.01 Q4-Q3 0.74 0.66 0.45 0.63 0.57 0.47 0.60 0.44 0.53 0.74 0.44 Latitudine

A B C D E F G H I Max min Intervalli Q1-Q0 0.63 0.61 0.34 0.57 0.50 0.51 0.50 0.60 0.62 0.63 0.34 Q2-Q1 0.94 0.77 1.68 0.70 0.84 0.81 0.94 0.64 0.59 1.68 0.59 Q3-Q2 1.13 1.27 5.51 2.18 1.81 2.48 1.54 2.95 2.92 5.51 1.13 Q4-Q3 1.50 2.00 1.82 1.69 2.09 1.76 1.93 1.28 1.34 2.09 1.28

Prospetti analitici per raggruppamento statisrico

Superficie Popolazione Longitudine Longitudine

km Capoluogo Parti cum Parti /km km Capoluogo Parti cum Parti /km 0 Aosta 11 0 Aosta 2

225 Nuoro 257 1.1447466 218 Cagliari 262 1.2010379 393 Arezzo 504 1.4628459 397 Venezia 511 1.3949965 636 Caserta 750 1.0128429 633 Napoli 773 1.1101161 974 Lecce 1000 0.7405093 974 Lecce 1000 0.6646603

Latitudine Latitudine km Capoluogo Parti cum Parti /km km Capoluogo Parti cum Parti /km

0 Ragusa 5 0 Ragusa 5 417 Salerno 263 0.6310444 437 Napoli 268 0.6125828 687 Perugia 516 0.9354186 742 Ancona 504 0.7744681 905 Torino 762 1.1287061 942 Padova 758 1.2687155

1064 Bolzano 1000 1.5020445 1064 Bolzano 1000 1.9950247

Page 48: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

48

Industria in senso stretto Costruzioni e lavori del Genio civile Ordinamento longitudine Ordinamento longitudine

km Capoluogo Parti cum Parti /km km Capoluogo Parti cum Parti /km 0 Aosta 2 0 Aosta 5

150 Milano 341 2.2690727 192 Sondrio 251 1.305803 292 Trento 506 1.1634617 361 Padova 500 1.4762074 440 Perugia 759 1.7079717 603 Palermo 764 1.0928682 974 Lecce 1000 0.4512729 974 Lecce 1000 0.6348514

Ordinamento Latitudine Ordinamento Latitudine km Capoluogo Parti cum Parti /km km Capoluogo Parti cum Parti /km

0 Ragusa 1 0 Ragusa 5 726 Arezzo 250 0.3440191 465 Bari 263 0.5651271 905 Torino 549 1.6763673 810 Forlì 503 0.6966107 949 Milano 791 5.5144055 949 Milano 806 2.1837157

1064 Bolzano 1000 1.8228861 1064 Bolzano 1000 1.6898275

Commercio, riparazioni e attività di recupero Alberghi e pubblici esercizi Ordinamento longitudine Ordinamento longitudine

km Capoluogo Parti cum Parti /km km Capoluogo Parti cum Parti /km 0 Aosta 2 0 Aosta 10

150 Milano 261 1.7356698 192 Sondrio 256 1.3285123 349 Ferrara 506 1.2350718 337 Firenze 519 1.8142781 544 Frosinone 755 1.2757876 467 Roma 760 1.8660704 974 Lecce 1000 0.5696502 974 Lecce 1000 0.4726854

Ordinamento Latitudine Ordinamento Latitudine km Capoluogo Parti cum Parti /km km Capoluogo Parti cum Parti /km

0 Ragusa 4 0 Ragusa 3 504 Foggia 252 0.4994614 552 Roma 282 0.5114386 810 Forlì 509 0.8385731 833 Genova 510 0.8106321 947 Novara 755 1.8057217 949 Milano 798 2.4834202

1064 Bolzano 1000 2.089185 1064 Bolzano 1000 1.7583263

Page 49: Ambiti e sistemi territoriali - geolab.unich.itgeolab.unich.it/didatticadir/06 RE.pdf · Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura

G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6

49

Trasporti e comunicazioni Credito e assicurazioni Ordinamento longitudine Ordinamento longitudine

km Capoluogo Parti cum Parti /km km Capoluogo Parti cum Parti /km 0 Aosta 3 0 Aosta 1

184 Bergamo 251 1.3657033 150 Milano 297 1.9819515 397 Venezia 523 1.2750246 335 Bologna 506 1.1333592 556 Teramo 751 1.433191 467 Roma 778 2.0498936 974 Lecce 1000 0.595544 974 Lecce 1000 0.4381795

Ordinamento Latitudine Ordinamento Latitudine km Capoluogo Parti cum Parti /km km Capoluogo Parti cum Parti /km

0 Ragusa 2 0 Ragusa 3 504 Foggia 251 0.4984948 552 Roma 331 0.5994162 769 Lucca 501 0.9417042 833 Genova 510 0.6378397 946 Venezia 773 1.5360628 949 Milano 853 2.9519317

1064 Bolzano 1000 1.930549 1064 Bolzano 1000 1.282983

Altri servizi destinabili alla vendita Ordinamento longitudine

km Capoluogo Parti cum Parti /km 0 Aosta 3

150 Milano 269 1.7874472 337 Firenze 502 1.2466155 510 Latina 753 1.4508205 974 Lecce 1000 0.5332718

Ordinamento Latitudine km Capoluogo Parti cum Parti /km

0 Ragusa 3 552 Roma 341 0.6171523 833 Ravenna 506 0.5880653 949 Milano 846 2.9230434

1064 Bolzano 1000 1.3436503