Una procedura statistica multivariata per l’ottimizzazione di reti di monitoraggio, di Maria...
-
Upload
informatica-e-pianificazione-urbana-e-territoriale -
Category
Documents
-
view
906 -
download
0
description
Transcript of Una procedura statistica multivariata per l’ottimizzazione di reti di monitoraggio, di Maria...
UNA PROCEDURA STATISTICA MULTIVARIATA PER L’OTTIMIZZAZIONE DI RETI DI
MONITORAGGIO
Marinella Ragosta, Andrea Tundo
Dipartimento di Ingegneria e Fisica dell’Ambiente – Università della Basilicata
Senatro Di Leo
Istituto di Metodologie per l’Analisi Ambientale – CNR – Tito Scalo (PZ)
1. IL CONTESTO
Migliorare la gestione, l’interpretazione e l’utilizzo dei dati nell’analisi di fenomeni di stess ambientale.
2. LA METODICA DI ANALISI
Il metodo è basato sulla valutazione combinata del contenuto informativo delle diverse variabili di rete e della struttura dicorrelazione della rete.
3. IL CASO STUDIO
Analisi della rete di monitoraggio della qualità dell’aria della regione Basilicata, relativamente ad un semestre di dati orari.
IL CONTESTO (1.1)
I biosistemi sono sistemi complessi, tipicamente non lineari, caratterizzati da un gran numero di variabili, biotiche e abiotiche, con ampie fluttuazioni, intrinseche ed indotte da forzanti esterne, e con una complessa struttura di correlazione che include meccanismi di feedback e di sinergismo fra le diverse variabili. Inoltre va considerato che i fenomeni ambientali che inducono stati di stress dei biosistemi (degrado della componente biotica, inquinamento dell’aria e del suolo, dissesto idrogeologico, rischio antropico ed ambientale) avvengono su scale spaziali e temporali che possono essere molto diverse fra loro.
Il monitoraggio deve diventare rappresentativo dell’intero
processo conoscitivo e non deve servire soltanto a misurare lo
stato dell'ambiente, ma anche a determinare dinamiche di
causa-effetto, a sviluppare modelli previsionali e ad
individuare le aree prioritarie di intervento.
IL CONTESTO (1.2)
La diffusione sul territorio di centraline per il monitoraggio di parametri ambientali (reti per il controllo della qualitàdell’aria, delle acque e dei suoli) ha comportato un notevole aumento dei dati disponibili, ma, contestualmente, non c’èstato un adeguato sviluppo delle procedure di gestione, controllo e analisi dei dati raccolti.
L’uso integrato di diverse metodologie di analisi dei dati può comportare un notevole miglioramento nella caratterizzazione ed interpretazione della struttura di correlazione fra i dati
raccolti, per una gestione ottimale della rete.
Inoltre l’introduzione di procedure innovative di modellazione dei dati (modelli auto regressivi non lineari, reti neurali, logica fuzzy), può supportare costruttivamente l’evoluzione delle attuali reti di monitoraggio verso un approccio più in senso prognostico che diagnostico.
LA METODICA DI ANALISI (2.1)
Organizzazione dei dati e analisi statistica esplorativa
I dati possono essere organizzati in matrici 3D
[R siti di misura ×
S parametri misurati (e/o stimati) ×
W campionamenti temporali] Nella fase preliminare vengono esclusi tutti i campionamenti chepresentano data missing in modo da ottenere le migliori matrici di dati, in termini di massima dimensionalità, senza i vincoli della consecutività temporale e/o della contiguità spaziale fra le osservazioni.
Alle matrici selezionate vengono applicate le tecniche di analisi statistica esplorativa al fine di caratterizzare la distribuzione ed i relativi parametri di ciascuna delle variabili in esame.
LA METODICA DI ANALISI (2.2)
Analisi della ridondanza
L’analisi del contenuto informazionale dei dati è rivolto alla valutazione dell’informazione contenuta nelle diverse configurazioni possibili di rete ridotta.
Siano n le variabili di rete considerate (siti di misura o parametri misurati), M ed U siano i due sottoinsiemi delle variabili in esame, il primo contenente le variabili candidate ad essere confermate, ilsecondo contenente le variabili candidate ad essere escluse;
Se H è la dimensione del vettore U, per ogni H, il numero delle diverse configurazioni possibili della rete è
In particolare se H=1, una sola variabile candidata all’ esclusione, Nconf = n.
)!(!!
HnHnN conf −
=
LA METODICA DI ANALISI (2.3)
L’esclusione dal sistema di monitoraggio di una qualsiasi variabile determina una perdita di informazione.
Una stima quantitativa della perdita di informazione dovuta all’eliminazione di H variabili è data dall’ Infomation Loss Index(indice di perdita di informazione) e dal suo complemento ad uno espresso in percentuale, detto Effectiveness Index (indice di efficacia), definiti rispettivamente come
H
H
k
H
H
kI
IIP
max
max −= ( ) 100*1 H
k
H
k PQ −=
k = 1,…,Nconf
Essi sono basati sull’indice di Shannon calcolato a partire dai determinanti delle matrici di covarianza ricavate dalle matrici dei dati.
LA METODICA DI ANALISI (2.4)
L’ indice di Shannon è definito come
in cui x e y rappresentano due generiche variabili, i vettori M e U rappresentano i due
sottoinsiemi in cui è stato suddiviso l’insieme delle variabili, fM,U rappresenta la funzione
di densità congiunta di M e U mentre fM, fU sono le corrispondenti densità marginali.
In pratica esso può essere calcolato come
dove det(Cn,n), det(CH,H) e det(Cn-H,n-H) indicano rispettivamente il determinante della
matrice di covarianza dei dati e i determinanti delle due sottomatrici di covarianza. In
particolare serve individuare
dxdyyxfyfxf
yxfUMI UM
UM
UM),(
)()(
),(ln),( ,
,
∫
=
HnHnHH
nnH
kCC
CI
−−
−=
,,
,ln
2
1
{ }H
N
HH
confIII ,...,max 1max =
LA METODICA DI ANALISI (2.5)
In particolare è il minimo valore assunto da Q ad essere indicativo della configurazione ottimale
),...,min( 1min
H
N
HH
confQQQ =
Il calcolo di questi indici va ripetuto non solo per ciascuna configurazione, ma anche per ciascuna delle variabili di rete che non sono oggetto della procedura di ottimizzazione. Se ad esempio si sta valutando il contenuto informazionale delle diverse stazioni di monitoraggio, la procedura va ripetuta per ciascuno dei parametri misurati nelle diverse stazioni.
Il Total Effectiveness Index (indice di efficacia totale) è l’indice aggregato finale che è utilizzato per individuare la configurazione ottimale ottenuta riducendo di H variabili la rete di monitoraggio.
{ }( )h
H
tot QQ minmax=
LA METODICA DI ANALISI (2.1)
Esempio: Matrice [8 x 3 x 76]
Quale fra le 8 stazioni di misura posso eliminare (H = 1, Nconf = 8)?
[8 x 3 x 76]
Pr.1 [8 x 76]
Pr.3 [8 x 76]
………………………………………………
Conf.1 [8x8],[7x7]gld=76
Conf.8 [8x8],[7x7]gld=76
Conf.1 [8x8],[7x7]gld=76
Conf.8 [8x8],[7x7]gld=76
LA METODICA DI ANALISI (2.1)
IH PH QH H=1
NO2 O3 SO2 NO2 O3 SO2 NO2 O3 SO2
HQmin
Ferrandina 0,17 0,53 0,04 0,68 0,33 0,84 31,6 67,1 16,2 16,2
Lavello 0,29 0,78 0,17 0,45 0,00 0,37 55,1 100 62,9 55,1
Matera 0,04 0,09 0,03 0,93 0,89 0,88 7,5 11,1 12,4 7,5
Melfi 0,18 0,30 0,27 0,66 0,61 0,00 34,1 38,6 100 34,1
PZ_1 0,53 0,70 0,15 0,00 0,11 0,46 100 89,2 54,3 54,3
PZ_2 0,51 0,70 0,25 0,04 0,11 0,09 95,8 89,2 91,4 89,2
San Nicola 0,32 0,68 0,16 0,40 0,13 0,41 60,1 86,9 58,6 58,6
Viggiano 0,01 0,72 0,08 0,98 0,09 0,72 1,8 91,4 28,3 1,8
Esempio: Matrice [8 x 3 x 76]
LA METODICA DI ANALISI (2.1)
Analisi della struttura di correlazione
L’analisi della struttura di correlazione si basa sull’ analisi statistica multivariata ed in questo caso viene determinata dall’applicazione congiunta di tecniche di clusterizzazione (Cluster Analysis CA) e di ordinamento in spazio di dimensionalità ridotta (Principal Component Analysis PCA). Cluster e componenti principali permettono di definire ed interpretare la struttura di correlazione esistente fra i dati forniti dalla rete.
Le due tecniche multivariate saranno applicate iterativamente, seguendo lo schema individuato nell’analisi della ridondanza, per ottenere un peso, in termini di struttura di correlazione, da assegnare alle diverse configurazioni ridotte della rete in mododa indiiduare quale ha maggiore rilevanza quantitativa e significatività statistica
LA METODICA DI ANALISI (2.1)
NO2 O3 SO2
PC1 PC2 PC3 PC4 PC1 PC2 PC3 PC1 PC2 PC3 PC4 PC5
λ>1 2,98 1,17 1,04 0,96 4,18 1,41 0,83 1,97 1,49 1,21 1,04 0,84
p% 37,2 14,6 13.0 12,0 52,2 17,6 10,4 24,7 18,7 15,1 13,0 10,5
pcum% 51,8 64,8 76,8 69,8 80,2 43,4 58,5 71,5 82,0
Loading NO2 Loading O3 Loading SO2
Ferrandina 0,42 0,08 0,00 0,01 0,52 0,25 0,07 0,00 0,01 0,54 0,27 0,01
Lavello 0,56 0,06 0,00 0,02 0,81 0,01 0,00 0,00 0,70 0,06 0,00 0,05
Matera 0,02 0,00 0,92 0,01 0,18 0,09 0,72 0,07 0,00 0,08 0,71 0,03
Melfi 0,29 0,31 0,04 0,02 0,17 0,50 0,00 0,70 0,00 0,03 0,01 0,02
PZ_1 0,63 0,14 0,00 0,02 0,53 0,17 0,00 0,23 0,16 0,31 0,02 0,00
PZ_2 0,58 0,20 0,00 0,01 0,74 0,02 0,01 0,30 0,41 0,08 0,00 0,04
San Nicola 0,45 0,20 0,05 0,08 0,72 0,01 0,00 0,34 0,19 0,11 0,00 0,14
Viggiano 0,02 0,17 0,03 0,79 0,35 0,51 0,02 0,32 0,03 0,00 0,02 0,56
Dendrogramma NO2
Viggiano
Matera
San Nicola
Lavello
Melfi
PZ_2
PZ_1
Ferrandina
-0,100,100,300,500,700,90
Dendrogramma O 3
Melfi
Lavello
PZ_2
PZ_1
San Nicola
Matera
Ferrandina
Viggiano
-0,020,180,380,580,780,98
Dendrogramma SO2
PZ_1
Melfi
Viggiano
Ferrandina PZ_2
Lavello
San Nicola Matera
-0,38-0,180,020,220,420,620,82
Dendrogramma NO2
Viggiano
Matera
San Nicola
Lavello
Melfi
PZ_2
PZ_1
Ferrandina
-0,100,100,300,500,700,90
Dendrogramma O 3
Melfi
Lavello
PZ_2
PZ_1
San Nicola
Matera
Ferrandina
Viggiano
-0,020,180,380,580,780,98
Dendrogramma SO2
PZ_1
Melfi
Viggiano
Ferrandina PZ_2
Lavello
San Nicola Matera
-0,38-0,180,020,220,420,620,82
IL CASO STUDIO (3.1)
Analisi della rete di monitoraggio della qualità dell’aria della regione Basilicata, a partire da un semestre di rilevamenti orari (Giu-Dic 2006).
Melfi
SO2NO
2O3CO
PM10
S.N. di Melfi
SO2NO
2O3CO
PM10
Lavello
SO2NO
2O3CO
PM10C6H6
Potenza_3
CO PM10C6H6
Potenza_2
SO2NO
2O3CO
PM10
Potenza_4
CO PM10
Potenza_1
SO2NO
2O3CO
PM10CH
4C6H6
Matera
SO2NO
2O3CO
PM10CH
4C6H6
Viggiano
SO2NO
2O3CO
PM10CH
4C6H6
Pisticci(data no available)
Ferrandina
SO2NO
2O3CO
PM10CH
4C6H6
IL CASO STUDIO (3.2)
Siti in aree
urbane
Siti in are
e industra
li
Inquinanti misurati Siti di misura
C6H6 CH4 CO NO2 O3 PM10 SO2
Ferrandina 29,8 68,8 6,8 67,9 8,8 n.a. 10,1
Matera 30,6 54,1 62,3 38,1 40,2 n.a. 66,3
Viggiano 9,9 59,8 66,2 22,4 22,6 n.a. 33,7 Pisticci n.a. n.a. n.a. n.a. n.a. n.a. n.a.
PZ_1 14,5 37,1 9,0 9,8 14,1 n.a. 7,6
PZ_2 n.a. n.a. 76,0 18,3 15,0 50,0 34,9
PZ_3 2,9 n.a. 3,1 n.a. n.a. 55,9 n.a.
PZ_4 n.a. n.a. 15,3 n.a. n.a. 56,5 n.a.
S. Nicola di Melfi n.a. n.a. 99,5 50,8 20,6 59,4 23,8
Melfi n.a. n.a. 20,5 28,5 35,0 57,6 19,3
Lavello 22,7 n.a. 20,2 21,1 20,2 59,0 27,2
Quattro sotto-matrici significative (W>75) ottenute massimizzando o il numero di stazioni in cui si misuravano gli stessi inquinati (matrici M1 [8×3×76] e M3 [5×2×106]) o il numero di inquinanti misurati nelle stesse stazioni (matrici M2
[7×4×163] e M4 [4×6×92]).
IL CASO STUDIO (3.3)
La qualità del dato
IL CASO STUDIO (3.4)
Potenza_2
SO2NO2 O3
CO PM10
Potenza_3
CO PM10
C6H6
Potenza_4
CO PM10
Potenza_1
SO2NO2 O3 CO
PM10CH
4C6H6
Matera
SO2NO
2O3CO
PM10CH
4C6H6
Ferrandina
SO2NO
2O3
PM10CH
4C
Lavello
SO2NO2 O3
CO PM10C6H6
Melfi
SO2NO
2O3CO
PM10
S.N. di Melfi
SO2NO2 O3
CO PM10
Viggiano
SO2NO
2O3 CO
PM10CH
4C6H6
Pisticci(data no available)
SO2NO
2O3CO
PM10CH
4C6H6
ConclusioniLa metodologia di analisi ha carattere generale, è flessibile ed èfacilmente utilizzabile
I risultati forniti hanno significatività statistica
I risultati sono facilmente traducibili in azioni concrete da chi èpreposto alla tutela, al controllo ed alla prevenzione
I risultati possono essere notevoli anche in presenza di dati con un grado di qualità non elevato
E’ auspicabile una maggiore automatizzazione della procedura e la possibilità di analizzare dati provenienti da reti di monitoraggio piùcomplesse.