Una procedura statistica multivariata per l’ottimizzazione di reti di monitoraggio, di Maria...

UNA PROCEDURA STATISTICA MULTIVARIATA PER L’OTTIMIZZAZIONE DI RETI DI

MONITORAGGIO

Marinella Ragosta, Andrea Tundo

Dipartimento di Ingegneria e Fisica dell’Ambiente – Università della Basilicata

Senatro Di Leo

Istituto di Metodologie per l’Analisi Ambientale – CNR – Tito Scalo (PZ)

1. IL CONTESTO

Migliorare la gestione, l’interpretazione e l’utilizzo dei dati nell’analisi di fenomeni di stess ambientale.

2. LA METODICA DI ANALISI

Il metodo è basato sulla valutazione combinata del contenuto informativo delle diverse variabili di rete e della struttura dicorrelazione della rete.

3. IL CASO STUDIO

Analisi della rete di monitoraggio della qualità dell’aria della regione Basilicata, relativamente ad un semestre di dati orari.

IL CONTESTO (1.1)

I biosistemi sono sistemi complessi, tipicamente non lineari, caratterizzati da un gran numero di variabili, biotiche e abiotiche, con ampie fluttuazioni, intrinseche ed indotte da forzanti esterne, e con una complessa struttura di correlazione che include meccanismi di feedback e di sinergismo fra le diverse variabili. Inoltre va considerato che i fenomeni ambientali che inducono stati di stress dei biosistemi (degrado della componente biotica, inquinamento dell’aria e del suolo, dissesto idrogeologico, rischio antropico ed ambientale) avvengono su scale spaziali e temporali che possono essere molto diverse fra loro.

Il monitoraggio deve diventare rappresentativo dell’intero

processo conoscitivo e non deve servire soltanto a misurare lo

stato dell'ambiente, ma anche a determinare dinamiche di

causa-effetto, a sviluppare modelli previsionali e ad

individuare le aree prioritarie di intervento.

IL CONTESTO (1.2)

La diffusione sul territorio di centraline per il monitoraggio di parametri ambientali (reti per il controllo della qualitàdell’aria, delle acque e dei suoli) ha comportato un notevole aumento dei dati disponibili, ma, contestualmente, non c’èstato un adeguato sviluppo delle procedure di gestione, controllo e analisi dei dati raccolti.

L’uso integrato di diverse metodologie di analisi dei dati può comportare un notevole miglioramento nella caratterizzazione ed interpretazione della struttura di correlazione fra i dati

raccolti, per una gestione ottimale della rete.

Inoltre l’introduzione di procedure innovative di modellazione dei dati (modelli auto regressivi non lineari, reti neurali, logica fuzzy), può supportare costruttivamente l’evoluzione delle attuali reti di monitoraggio verso un approccio più in senso prognostico che diagnostico.

LA METODICA DI ANALISI (2.1)

Organizzazione dei dati e analisi statistica esplorativa

I dati possono essere organizzati in matrici 3D

[R siti di misura ×

S parametri misurati (e/o stimati) ×

W campionamenti temporali] Nella fase preliminare vengono esclusi tutti i campionamenti chepresentano data missing in modo da ottenere le migliori matrici di dati, in termini di massima dimensionalità, senza i vincoli della consecutività temporale e/o della contiguità spaziale fra le osservazioni.

Alle matrici selezionate vengono applicate le tecniche di analisi statistica esplorativa al fine di caratterizzare la distribuzione ed i relativi parametri di ciascuna delle variabili in esame.


Analisi della ridondanza

L’analisi del contenuto informazionale dei dati è rivolto alla valutazione dell’informazione contenuta nelle diverse configurazioni possibili di rete ridotta.

Siano n le variabili di rete considerate (siti di misura o parametri misurati), M ed U siano i due sottoinsiemi delle variabili in esame, il primo contenente le variabili candidate ad essere confermate, ilsecondo contenente le variabili candidate ad essere escluse;

Se H è la dimensione del vettore U, per ogni H, il numero delle diverse configurazioni possibili della rete è

In particolare se H=1, una sola variabile candidata all’ esclusione, Nconf = n.

)!(!!

HnHnN conf −

=


L’esclusione dal sistema di monitoraggio di una qualsiasi variabile determina una perdita di informazione.

Una stima quantitativa della perdita di informazione dovuta all’eliminazione di H variabili è data dall’ Infomation Loss Index(indice di perdita di informazione) e dal suo complemento ad uno espresso in percentuale, detto Effectiveness Index (indice di efficacia), definiti rispettivamente come

H

H

k

H

H

kI

IIP

max

max −= ( ) 100*1 H

k

H

k PQ −=

k = 1,…,Nconf

Essi sono basati sull’indice di Shannon calcolato a partire dai determinanti delle matrici di covarianza ricavate dalle matrici dei dati.


L’ indice di Shannon è definito come

in cui x e y rappresentano due generiche variabili, i vettori M e U rappresentano i due

sottoinsiemi in cui è stato suddiviso l’insieme delle variabili, fM,U rappresenta la funzione

di densità congiunta di M e U mentre fM, fU sono le corrispondenti densità marginali.

In pratica esso può essere calcolato come

dove det(Cn,n), det(CH,H) e det(Cn-H,n-H) indicano rispettivamente il determinante della

matrice di covarianza dei dati e i determinanti delle due sottomatrici di covarianza. In

particolare serve individuare

dxdyyxfyfxf

yxfUMI UM

UM

UM),(

)()(

),(ln),( ,

,

∫

=

HnHnHH

nnH

kCC

CI

−−

−=

,,

,ln

2

1

{ }H

N

HH

confIII ,...,max 1max =


In particolare è il minimo valore assunto da Q ad essere indicativo della configurazione ottimale

),...,min( 1min

H

N

HH

confQQQ =

Il calcolo di questi indici va ripetuto non solo per ciascuna configurazione, ma anche per ciascuna delle variabili di rete che non sono oggetto della procedura di ottimizzazione. Se ad esempio si sta valutando il contenuto informazionale delle diverse stazioni di monitoraggio, la procedura va ripetuta per ciascuno dei parametri misurati nelle diverse stazioni.

Il Total Effectiveness Index (indice di efficacia totale) è l’indice aggregato finale che è utilizzato per individuare la configurazione ottimale ottenuta riducendo di H variabili la rete di monitoraggio.

{ }( )h

H

tot QQ minmax=


Esempio: Matrice [8 x 3 x 76]

Quale fra le 8 stazioni di misura posso eliminare (H = 1, Nconf = 8)?

[8 x 3 x 76]

Pr.1 [8 x 76]

Pr.3 [8 x 76]

………………………………………………

Conf.1 [8x8],[7x7]gld=76

Conf.8 [8x8],[7x7]gld=76

Conf.1 [8x8],[7x7]gld=76

Conf.8 [8x8],[7x7]gld=76


IH PH QH H=1

NO2 O3 SO2 NO2 O3 SO2 NO2 O3 SO2

HQmin

Ferrandina 0,17 0,53 0,04 0,68 0,33 0,84 31,6 67,1 16,2 16,2

Lavello 0,29 0,78 0,17 0,45 0,00 0,37 55,1 100 62,9 55,1

Matera 0,04 0,09 0,03 0,93 0,89 0,88 7,5 11,1 12,4 7,5

Melfi 0,18 0,30 0,27 0,66 0,61 0,00 34,1 38,6 100 34,1

PZ_1 0,53 0,70 0,15 0,00 0,11 0,46 100 89,2 54,3 54,3

PZ_2 0,51 0,70 0,25 0,04 0,11 0,09 95,8 89,2 91,4 89,2

San Nicola 0,32 0,68 0,16 0,40 0,13 0,41 60,1 86,9 58,6 58,6

Viggiano 0,01 0,72 0,08 0,98 0,09 0,72 1,8 91,4 28,3 1,8

Esempio: Matrice [8 x 3 x 76]


Analisi della struttura di correlazione

L’analisi della struttura di correlazione si basa sull’ analisi statistica multivariata ed in questo caso viene determinata dall’applicazione congiunta di tecniche di clusterizzazione (Cluster Analysis CA) e di ordinamento in spazio di dimensionalità ridotta (Principal Component Analysis PCA). Cluster e componenti principali permettono di definire ed interpretare la struttura di correlazione esistente fra i dati forniti dalla rete.

Le due tecniche multivariate saranno applicate iterativamente, seguendo lo schema individuato nell’analisi della ridondanza, per ottenere un peso, in termini di struttura di correlazione, da assegnare alle diverse configurazioni ridotte della rete in mododa indiiduare quale ha maggiore rilevanza quantitativa e significatività statistica


NO2 O3 SO2

PC1 PC2 PC3 PC4 PC1 PC2 PC3 PC1 PC2 PC3 PC4 PC5

λ>1 2,98 1,17 1,04 0,96 4,18 1,41 0,83 1,97 1,49 1,21 1,04 0,84

p% 37,2 14,6 13.0 12,0 52,2 17,6 10,4 24,7 18,7 15,1 13,0 10,5

pcum% 51,8 64,8 76,8 69,8 80,2 43,4 58,5 71,5 82,0

Loading NO2 Loading O3 Loading SO2

Ferrandina 0,42 0,08 0,00 0,01 0,52 0,25 0,07 0,00 0,01 0,54 0,27 0,01

Lavello 0,56 0,06 0,00 0,02 0,81 0,01 0,00 0,00 0,70 0,06 0,00 0,05

Matera 0,02 0,00 0,92 0,01 0,18 0,09 0,72 0,07 0,00 0,08 0,71 0,03

Melfi 0,29 0,31 0,04 0,02 0,17 0,50 0,00 0,70 0,00 0,03 0,01 0,02

PZ_1 0,63 0,14 0,00 0,02 0,53 0,17 0,00 0,23 0,16 0,31 0,02 0,00

PZ_2 0,58 0,20 0,00 0,01 0,74 0,02 0,01 0,30 0,41 0,08 0,00 0,04

San Nicola 0,45 0,20 0,05 0,08 0,72 0,01 0,00 0,34 0,19 0,11 0,00 0,14

Viggiano 0,02 0,17 0,03 0,79 0,35 0,51 0,02 0,32 0,03 0,00 0,02 0,56

Dendrogramma NO2

Viggiano

Matera

San Nicola

Lavello

Melfi

PZ_2

PZ_1

Ferrandina

-0,100,100,300,500,700,90

Dendrogramma O 3

Melfi

Lavello

PZ_2

PZ_1

San Nicola

Matera

Ferrandina

Viggiano

-0,020,180,380,580,780,98

Dendrogramma SO2

PZ_1

Melfi

Viggiano

Ferrandina PZ_2

Lavello

San Nicola Matera

-0,38-0,180,020,220,420,620,82

Dendrogramma NO2

Viggiano

Matera

San Nicola

Lavello

Melfi

PZ_2

PZ_1

Ferrandina

-0,100,100,300,500,700,90

Dendrogramma O 3

Melfi

Lavello

PZ_2

PZ_1

San Nicola

Matera

Ferrandina

Viggiano

-0,020,180,380,580,780,98

Dendrogramma SO2

PZ_1

Melfi

Viggiano

Ferrandina PZ_2

Lavello

San Nicola Matera

-0,38-0,180,020,220,420,620,82

IL CASO STUDIO (3.1)

Analisi della rete di monitoraggio della qualità dell’aria della regione Basilicata, a partire da un semestre di rilevamenti orari (Giu-Dic 2006).

Melfi

SO2NO

2O3CO

PM10

S.N. di Melfi

SO2NO

2O3CO

PM10

Lavello

SO2NO

2O3CO

PM10C6H6

Potenza_3

CO PM10C6H6

Potenza_2

SO2NO

2O3CO

PM10

Potenza_4

CO PM10

Potenza_1

SO2NO

2O3CO

PM10CH

4C6H6

Matera

SO2NO

2O3CO

PM10CH

4C6H6

Viggiano

SO2NO

2O3CO

PM10CH

4C6H6

Pisticci(data no available)

Ferrandina

SO2NO

2O3CO

PM10CH

4C6H6


Siti in aree

urbane

Siti in are

e industra

li

Inquinanti misurati Siti di misura

C6H6 CH4 CO NO2 O3 PM10 SO2

Ferrandina 29,8 68,8 6,8 67,9 8,8 n.a. 10,1

Matera 30,6 54,1 62,3 38,1 40,2 n.a. 66,3

Viggiano 9,9 59,8 66,2 22,4 22,6 n.a. 33,7 Pisticci n.a. n.a. n.a. n.a. n.a. n.a. n.a.

PZ_1 14,5 37,1 9,0 9,8 14,1 n.a. 7,6

PZ_2 n.a. n.a. 76,0 18,3 15,0 50,0 34,9

PZ_3 2,9 n.a. 3,1 n.a. n.a. 55,9 n.a.

PZ_4 n.a. n.a. 15,3 n.a. n.a. 56,5 n.a.

S. Nicola di Melfi n.a. n.a. 99,5 50,8 20,6 59,4 23,8

Melfi n.a. n.a. 20,5 28,5 35,0 57,6 19,3

Lavello 22,7 n.a. 20,2 21,1 20,2 59,0 27,2

Quattro sotto-matrici significative (W>75) ottenute massimizzando o il numero di stazioni in cui si misuravano gli stessi inquinati (matrici M1 [8×3×76] e M3 [5×2×106]) o il numero di inquinanti misurati nelle stesse stazioni (matrici M2

[7×4×163] e M4 [4×6×92]).


La qualità del dato


Potenza_2

SO2NO2 O3

CO PM10

Potenza_3

CO PM10

C6H6

Potenza_4

CO PM10

Potenza_1

SO2NO2 O3 CO

PM10CH

4C6H6

Matera

SO2NO

2O3CO

PM10CH

4C6H6

Ferrandina

SO2NO

2O3

PM10CH

4C

Lavello

SO2NO2 O3

CO PM10C6H6

Melfi

SO2NO

2O3CO

PM10

S.N. di Melfi

SO2NO2 O3

CO PM10

Viggiano

SO2NO

2O3 CO

PM10CH

4C6H6

Pisticci(data no available)

SO2NO

2O3CO

PM10CH

4C6H6

ConclusioniLa metodologia di analisi ha carattere generale, è flessibile ed èfacilmente utilizzabile

I risultati forniti hanno significatività statistica

I risultati sono facilmente traducibili in azioni concrete da chi èpreposto alla tutela, al controllo ed alla prevenzione

I risultati possono essere notevoli anche in presenza di dati con un grado di qualità non elevato

E’ auspicabile una maggiore automatizzazione della procedura e la possibilità di analizzare dati provenienti da reti di monitoraggio piùcomplesse.

Una procedura statistica multivariata per l’ottimizzazione di reti di monitoraggio, di Maria...

Documents

Transcript of Una procedura statistica multivariata per l’ottimizzazione di reti di monitoraggio, di Maria...