TECNICHE DI ANALISI DEI DATI IN ECOLOGIA - chierici.biz di analisi dati.pdf · TECNICHE DI ANALISI...
Transcript of TECNICHE DI ANALISI DEI DATI IN ECOLOGIA - chierici.biz di analisi dati.pdf · TECNICHE DI ANALISI...
TECNICHE DI ANALISIDEI DATI IN ECOLOGIA
Michele Scardi
Laboratorio di Oceanografia BiologicaStazione Zoologica "A. Dohrn" di NapoliVilla Comunale80121 Napoli
e-mail: [email protected] page: http://www.mare-net.com/mscardi
Versione 1.2a, aprile 1998
Tavola dei contenuti.
1. Introduzione . ..................................................................................1
2. Misure di distanza e di similarità . .................................................3
2.1. Coefficienti di similarità. ........................................................3
2.1.1. Generalità. ................................................................3
2.1.2. Coefficienti binari. .....................................................4
2.1.3. Coefficienti semi-quantitativi e quantitativi. ...............6
2.2. Coefficienti di distanza..........................................................9
2.2.1. Generalità. ................................................................9
2.2.2. Distanze metriche. ....................................................10
2.2.3. Dissimilarità metriche. ...............................................13
2.3. Coefficienti di dipendenza. ...................................................14
3. Tecniche di clustering. ..................................................................19
3.1. Note introduttive. ..................................................................19
3.2. Clustering gerarchico............................................................20
3.2.1. Generalità. ................................................................20
3.2.2. Algoritmo del legame singolo. ...................................21
3.2.3. Algoritmo del legame completo.................................22
3.2.4. Algoritmi di legame intermedio..................................23
3.2.5. Algortimi di legame medio.........................................24
3.3. Clustering non gerarchico.....................................................26
3.4. Clustering vincolato. .............................................................27
4. Tecniche di ordinamento. .............................................................29
4.1. Analisi delle Componenti Principali.......................................29
4.2. Analisi delle Coordinate Principali. .......................................31
4.3. Analisi Fattoriale delle Corrispondenze. ...............................33
4.4. Analisi delle Correlazioni Canoniche. ...................................36
5. Analisi di serie spaziali e temporali. .............................................39
5.1. Autocorrelazione...................................................................39
5.2. Test di Mantel. ......................................................................39
6. Interpolazione. .................................................................................42
6.1. Note introduttive. ..................................................................42
6.2. Le tecniche di interpolazione ................................................43
6.3. Il kriging: teoria. ....................................................................45
6.4. Il kriging: note applicative. ....................................................50
7. Diversità. .........................................................................................52
7.1. L'indice di Shannon. .............................................................52
7.2. Diagrammi rango-frequenza e modello di Zipf-Mandelbrot. ..53
8. Bibliografia. ....................................................................................56
pag. 1
1. Introduzione.
Gli insiemi di dati che vengono abitualmente prodotti nell'ambito
delle attività di ricerca e/o monitoraggio svolte su ecosistemi marini o
terrestri hanno la caratteristica di essere quasi sempre di tipo
multivariato. E' molto raro, infatti, che nel corso di una campagna di
campionamento si focalizzi l'attenzione su una sola variabile, anche nei
casi in cui le operazioni di campo vengono svolte a fini estremamente
specifici.
Le ragioni di ciò sono molteplici, ma certamente un ruolo primario
è quello giocato dall'elevato costo delle operazioni di campo e dalla
natura imperfetta e incompleta delle nostre effettive conoscenze
ecologiche. Se il primo motivo spinge ad una acquisizione "a tappeto"
di tutti i dati rilevabili su una singola stazione, il secondo è responsabile
della natura tipicamente ridondante dei piani di campionamento per ciò
che riguarda il numero di variabili di cui si prevede la misura. Infatti,
poichè non sono note a priori le eventuali correlazioni fra di esse, non è
possibile definire un filtro a monte delle operazioni di campo.
In generale un insieme tipico di dati ecologici può essere
rappresentato in forma matriciale. Le righe della matrice corrispondono
al vettore di tutte le misure previste per un campione, per una
osservazione o per un oggetto. Al contrario, i vettori-colonna di questa
stessa matrice conterranno l'insieme di tutti i valori relativi ad ogni
singolo descrittore fra quelli previsti. Evidentemente è del tutto
plausibile che si verifichi il caso opposto e che le righe corrispondano ai
vettori-descrittore. In linea di massima, comunque, si tende ad
organizzare i dati, per motivi pratici e, in qualche caso, anche
computazionali, in modo da avere un numero di righe maggiore del
numero delle colonne.
Ai fini della comprensione di quanto esposto nei capitoli che
seguono, si tenga presente che si è preferito il termine descrittore a
quello, più limitativo, di variabile. Analogamente, i termini osservazione
ed oggetto sono stati preferiti ad altri più specifici, come campione,
prelievo, misura, etc..
pag. 2
La maggior parte delle tecniche di analisi dei dati presentate in
questo contesto hanno essenzialmente finalità descrittive e di sintesi
dell'informazione. Solo in alcuni casi, infatti, è possibile ed utile, nel
campo della ricerca ecologica, ricorrere ad una impostazione basata su
test formali di ipotesi. La maggior difficoltà, in questo senso, sta nel
fatto che i dati ecologici assai raramente possono soddisfare tutte le
assunzioni necessarie a questo tipo di approccio.
D'altra parte, lo scopo dell'analisi dei dati in Ecologia è
essenzialmente quello di fornire un supporto ad un percorso
conoscitivo che si basa in larga misura sull'osservazione piuttosto che
sulla sperimentazione in senso stretto: dunque, la possibilità di
formulare delle inferenze informali è molto spesso più utile della
possibilità di testare ipotesi formali.
Le tecniche di analisi che vengono presentate nei capitoli seguenti
costituiscono un sottoinsieme rappresentativo di quello, più vasto, che
raccoglie tutti gli strumenti dell'Ecologia Numerica. In molti casi
l'esposizione fa riferimento a problemi correnti nel campo della ricerca
ecologica, piuttosto che ad un eccesivo formalismo. Inoltre, si è
preferito omettere la descrizione di tutte le possibili varianti delle singole
tecniche, poichè la scelta dell'alternativa più corretta in funzione del
problema da trattare costituisce un argomento di complessità superiore
a quello compatibile con le finalità di queste pagine. Per lo stesso
motivo, si è preferito non affrontare il problema della trasformazione dei
dati.
Per quanto riguarda questi aspetti ed altri ancora fra quelli che
non vengono trattati, si rimanda il lettore che desideri un
approfondimento a testi specifici di maggior respiro (Davis, 1986;
Legendre & Legendre, 1983; Pielou, 1984; etc.).
Infine, va sottolineato il fatto che queste pagine sono state
assemblate raccogliendo ed adattando materiale prodotto in occasione
di corsi e seminari dal 1986 ad oggi, senza però essere mai sottoposte
ad una approfondita revisione. Al di là della possibilità di incontrare
piccoli errori, ciò implica che lo spazio dedicato ai diversi argomenti non
ne rispecchia necessariamente l'effettiva rilevanza.
pag. 3
2. Misure di distanza e di similarità.
2.1. Coefficienti di similarità.
2.1.1. Generalità.
I coefficienti di similarità forniscono una misura del grado di
associazione fra osservazioni e variano generalmente da 0 ad 1. Tali
valori limite corrispondono, rispettivamente, al caso di osservazioni del
tutto disgiunte, prive di elementi comuni, ed al caso di osservazioni
identiche fra loro.
Fra i molti coefficienti disponibili una importante distinzione è
quella che deve essere fatta fra coefficienti simmetrici e coefficienti
asimmetrici. All'interno di un vettore di misure relativo ad una
osservazione può accadere che per uno o più descrittori siano stati
rilevati dei valori nulli. E' evidente che in alcuni casi tali valori
corrispondono ad un dato certo, almeno nei limiti dell'errore proprio dei
metodi di campionamento e di determinazione (es. un certo inquinante
è assente), mentre in altri casi lo zero indica piuttosto l'assenza di
informazione (es. una certa specie non è stata rinvenuta in un certo
campione). Nel primo caso la scelta dovrà cadere su un coefficiente
simmetrico, ai fini del cui calcolo i dati nulli hanno il medesimo valore
comparativo degli altri, mentre nel secondo caso dovranno essere
utilizzati coefficienti asimmetrici, in modo tale da evitare di definire una
elevata similarità sulla base di informazioni non certe (quale ad
esempio, la simultanea assenza di un elevato numero di specie in due
stazioni che hanno poche o nessuna specie in comune).
Nel seguito di questo capitolo vengono presentati alcuni
coefficienti di similarità, scelti fra quelli il cui impiego in campo
ecologico è più frequente. E' evidente che possono esistere dei casi
specifici in cui un altro coefficiente, non compreso fra quelli descritti in
questo contesto, potrebbe risultare più adatto ad affrontare una
particolare problematica, ma è bene sottolineare il fatto che la scelta di
pag. 4
un coefficiente di similarità rappresenta comunque, in qualche misura,
un passo arbitrario in una procedura di analisi. Proprio per questo
motivo è consigliabile affinare le proprie esperienze su un insieme
relativamente piccolo di coefficienti, piuttosto che spaziare su tutta la
gamma di quelli noti senza una motivazione più che solida.
2.1.2. Coefficienti binari.
Ai fini della descrizione dei coefficienti binari è utile definire i
quattro casi possibili nel confronto fra gli elementi corrispondenti di due
vettori-osservazione. Tale definizione può essere rappresentata in
forma schematica come segue:
Osservazione j
1 0
Osservazione k1 a b
0 c d
p = a + b + c + d
Dunque, con a si indica il numero di elementi in comune fra due
vettori-osservazione, mentre con d si indica il numero di elementi nulli
(assenti) in entrambi e con b e c il numero di elementi non nulli
(presenti) esclusivamente nell'uno e nell'altro vettore. Con p, infine, si
identifica la somma dei quattro valori appena citati, cioè il numero totale
di elementi (descrittori) dei vettori-osservazione.
Fra i coefficienti binari di tipo simmetrico più adatti ad un impiego
in campo ecologico possono essere citati il coefficiente di concordanza
semplice (Sokal & Michener, 1958) e due coefficienti da esso derivati.
pag. 5
Il coefficiente di concordanza semplice rappresenta il rapporto fra
il numero di elementi che hanno il medesimo valore (e quindi
concordanti) ed il numero totale di elementi:
p
daSjk
+=
Poichè questo coefficiente non distingue fra casi di concordanza
su valori 1 e su valori 0 (rispettivamente co-presenze e co-assenze), il
criterio da utilizzare per la codifica binaria dell'informazione può essere
considerato del tutto libero.
Il coefficiente proposto da Rogers & Tanimoto (1960) rappresenta
una variante di quello di concordanza semplice poichè rispetto a
quest'ultimo attribuisce un peso doppio alle discordanze:
dcba
daSjk +++
+=22
Una variazione sullo stesso tema, ma concettualmente opposta, è
indicata da Sokal & Sneath (1963) ed attribuisce un peso doppio alle
concordanze:
dcba
daSjk 22
22
++++=
Fra i coefficienti asimmetrici, il cui uso è da preferirsi quando si ha
a che fare con liste di specie derivate da osservazioni di campo in cui la
rappresentatività del campione non è del tutto certa, alcuni fra quelli più
frequentemente utilizzati costituiscono la diretta trasposizione di quelli
fin qui descritti al caso in cui lo zero si deve intendere come mancanza
di informazione piuttosto che come assenza o come valore nullo di un
descrittore.
Infatti, il coefficiente di Jaccard (1900, 1901, 1908) è simile a
quello di concordanza semplice, ma non tiene conto delle discordanze:
cba
aSjk ++
=
pag. 6
e corrisponde quindi al rapporto fra concordanze e numero di elementi
non nulli dei vettori-osservazione.
Il coefficiente di Sørensen (1948) è stato probabilmente il più
utilizzato in Ecologia Marina ed è strettamente imparentato con il
coefficiente simmetrico di Sokal & Sneath (1963) appena descritto:
cba
aSjk ++
=2
2
Si noti come, rispetto al coefficiente di Jaccard, il coefficiente di
Sørensen attribuisce un peso doppio alle concordanze. Nel caso del
confronto fra liste di specie, che rappresenta il tipico ambito di
applicazione di queste misure di similarità, esso enfatizza il criterio di
asimmetricità assegnando un peso doppio ai casi di co-presenza.
Questi ultimi rappresentano, come è evidente, i soli casi certi di
concordanza a causa della natura aleatoria del dato di assenza, che
spesso è dovuto al sottodimensionamento del campione prelevato.
E' interessante rilevare che Sokal & Sneath (1963) propongono
una versione asimmetrica anche del terzo dei coefficienti simmetrici
precedentemente descritti, quello di Rogers & Tanimoto:
cba
aSjk 22 ++
=
Tuttavia, l'uso di questo coefficiente è poco interessante, per un
motivo esattamente opposto a quello precedentemente esposto a
proposito del coefficiente di Sørensen. Infatti, non sembra giustificata la
scelta di un coefficiente asimmetrico se poi si attribuisce ai casi di
discordanza (influenzati dalle assenze) un peso doppio rispetto ai casi
di concordanza, che sono determinati con certezza.
2.1.3. Coefficienti semi-quantitativi e quantitativi.
I coefficienti di similarità basati su dati quantitativi veri e propri non
sono, in realtà, molto numerosi, poichè nei casi in cui è necessario
trattare questo tipo di dati molto spesso si preferisce l'uso di una misura
pag. 7
di distanza. Esistono, comunque, alcuni coefficienti sicuramente
interessanti, i quali meritano una breve descrizione.
Il trattamento di dati di tipo semi-quantitativo (es. punteggi
arbitrari) può essere affrontato nella maggior parte dei casi utilizzando i
coefficienti che vengono descritti in questo paragrafo, mentre per ciò
che riguarda insiemi di dati ai cui descrittori è applicata una codifica di
tipo non ordinale (es. colore, forma, etc.) si deve considerare
l'opportunità di tradurre l'informazione disponibile in forma binaria,
utilizzando poi un coefficiente binario simmetrico. In alternativa, è
possibile applicare il coefficiente di concordanza semplice, descritto nel
paragafo precedente, ed inteso come rapporto fra numero di
concordanze (uguale codifica di un descrittore in due osservazioni) e
numero di descrittori.
Una interessante possibilità è quella offerta dal coefficiente di
Gower (1971), che è formulato in modo tale da trattare ciascun
descrittore di un insieme multivariato in maniera ottimale in rapporto
alla sua natura. Questo coefficiente corrisponde alla media delle
similarità calcolate individulamente per ogni descrittore disponibile in
entrambe le osservazioni. Ciò è possibile grazie all'uso di una variabile
ausiliaria, detta delta di Kronecker, che assume un valore unitario nel
caso in cui i dati sono disponibili ed un valore nullo in caso contrario. E'
evidente che questo coefficiente si presta assai bene al trattamento di
insiemi di dati in cui uno o più valori risultano mancanti. La
formulazione del coefficiente di Gower è la seguente:
1
1
∑
∑
=
==p
ii
p
iii
jk
w
sw
S
dove wi ed si sono rispettivamente il delta di Kronecker e la similarità
relativi all'i-mo descrittore per le due osservazioni considerate.
La formulazione delle similarità per descrittore s può essere
variata a piacimento in funzione della natura dei dati disponibili e del
contesto da cui sono estratti, ma, in origine, l'Autore proponeva quanto
segue:
pag. 8
• per i descrittori binari si=1 nei casi di concordanza e si=0 altrimenti,
con il caso della concordanza da doppio zero che viene trattato in
accordo con il significato dello zero (valore nullo o mancanza di
informazione)
• per i descrittori semi-quantitativi ordinali e quantitativi si assume
si=1-|xij-xik| Ri-1
dove xij e xik sono i valori dell'i-mo descrittore nelle osservazioni j e k ed
Ri è l'intervallo di variazione dell'i-mo descrittore nell'insieme di
osservazioni disponibili o nella popolazione da cui sono estratte queste
ultime.
Per ciò che riguarda i coefficienti di tipo asimmetrico va segnalata
la possibilità di applicare, in forma modificata, coefficienti già descritti.
Si consideri, ad esempio la possibilità di trattare insiemi di dati semi-
quantitativi esprimendo la similarità come il rapporto fra il numero di
descrittori in cui si osserva concordanza ed il numero totale di
descrittori diminuito del numero di doppi zeri: la similarità che si ottiene,
in caso di codifica binaria, è esattamente quella di Jaccard.
Il coefficiente di Steinhaus (Motyka, 1947) è legato da una
analoga relazione al coefficente binario di Sørensen ed è noto, se
moltiplicato per 100, anche come "similarità percentuale":
∑
∑
=
=
+=
p
iikij
p
iikij
jk
xx
xxS
1
1
),min(2
Il coefficiente di Kulczynski (1928) ha una formulazione
abbastanza simile e corrisponde alla media dei rapporti fra somma dei
minimi e totale per le due osservazioni considerate:
+=
∑
∑
∑
∑
=
=
=
=p
iik
p
iikij
p
iij
p
iikij
jk
x
xx
x
xxS
1
1
1
1
),min(),min(
2
1
pag. 9
Una ulteriore ed interessante variazione è quella rappresentata
dal coefficiente di Rudjichka (Goodall, 1978), che, espresso senza
essere trasformato in percentuale, ha la seguente formulazione:
∑
∑
=
==p
iikij
p
iikij
jk
xx
xxS
1
1
),max(
),min(
Il pregio di tale coefficiente sta nel fatto che il suo complemento
all'unità, a differenza di quanto avviene per i due coefficienti descritti in
precedenza, corrisponde ad una misura di distanza di tipo metrico.
Sia il coefficiente di Kulczynski, sia quello di Rudjichka, sono di
tipo asimmetrico e si prestano a trattare dati quantitativi anche in forma
non normalizzata.
2.2. Coefficienti di distanza.
2.2.1. Generalità.
I coefficienti di distanza forniscono una misura del grado di
associazione fra due osservazioni, restituendo un valore nullo per
osservazioni identiche ed un valore variabile da coefficiente a
coefficiente per osservazioni totalmente differenti.
Le misure di similarità possono essere trasformate in distanza
semplicemente prendendone il complemento a 1. In questo caso,
tuttavia, al termine distanza si preferisce il termine dissimilarità. La
distinzione non è di tipo esclusivamente formale, poichè molte misure
di dissimilarità non godono delle proprietà metriche, le quali, se
soddisfatte, consentono di ordinare le osservazioni in uno spazio, per
l'appunto, di tipo metrico.
Le proprietà che devono essere soddisfatte perchè un coefficiente
di distanza o dissimilarità sia di tipo metrico sono le seguenti:
1. Dij=0 se j=k;
pag. 10
2. Djk>0 se j≠k;
3. Djk=Dkj;
4. Djk+Dkh≥Djh (assioma della diseguaglianza triangolare).
In generale è la quarta ed ultima proprietà quella che risulta
discriminante ed il fatto che sia o meno soddisfatta distingue le misure
metriche da quelle cosiddette semimetriche. In questo contesto, ai fini
di una maggiore chiarezza, sarà utilizzato il termine di distanza solo per
i coefficienti che soddisfano le proprietà metriche, mentre sarà
comunque preferito il termine di dissimilarità per quelli che sono derivati
da misure di similarità.
2.2.2. Distanze metriche.
I coefficienti di distanza metrici sono stati sviluppati per trattare
dati di tipo quantitativo e, con poche eccezioni, trattano lo zero come
una misura e non come una mancanza di informazione.
La più familiare fra le misure di distanza è certamente quella
euclidea, che corrisponde esattamente a quella che si può calcolare o
misurare nello spazio fra due oggetti fisici:
∑=
−=p
iikijjk xxD
1
2)(
E' importante rilevare il fatto che il quadrato della distanza
euclidea, che non di rado viene utilizzato al posto di quest'ultima, è una
semimetrica.
E' evidente che la scala dei singoli descrittori è molto influente nel
determinare una distanza euclidea fra due osservazioni. E' dunque
necessario riservare questa scelta ai casi in cui i descrittori sono
dimensionalmente omogenei o a quelli in cui essi vengono centrati e
standardizzati, al fine di eliminare l'effetto di eventuali differenze di
scala.
Proprio al fine di ovviare a questo inconveniente Orloci (1967)
propone di calcolare la distanza euclidea dopo aver normalizzato i
pag. 11
vettori-osservazione in modo tale che la loro lunghezza sia unitaria.
Questa distanza è detta "della corda" perchè la misura che si ottiene è
proprio quella della corda che unisce due punti-osservazione all'interno
di una ipersfera di raggio unitario. Questa distanza può anche essere
calcolata direttamente dai dati non normalizzati utilizzando la seguente
formulazione:
−=
∑∑
∑
==
=
p
iik
p
iij
p
iikij
jk
xx
xxD
1
2
1
2
11 2
La distanza della corda varia da 0, per due vettori identici per
profilo, cioè proporzionali fra loro, a p1/2, dove p è il numero dei
descrittori.
Una soluzione molto flessibile è quella costuita dalla metrica di
Minkowski:
r xxDp
i
r
ikijjk
−= ∑
=1
dove r può essere assegnato in maniera teoricamente arbitraria. In
realtà il caso r=2 corrisponde ad una distanza euclidea ed un valore di r
maggiore di questo, in generale, non è desiderabile per non enfatizzare
l'effetto della diversa scala dei descrittori.
Più interessanti sono i valori di r inferiori a questa soglia e, fra
questi, un caso particolare è quello che si verifica per r=1. In questo
caso la distanza che si ottiene è nota come metrica di Manhattan:
∑=
−=p
iikijjk xxD
1
Il nome di questa misura di distanza è dovuto al fatto che la
distanza fra due punti è data dalla somma della distanza in ascissa e di
quella in ordinata e corrisponde al percorso più breve che unisce due
pag. 12
punti in una città le cui strade si incrociano ad angolo retto, come, per
l'appunto, a Manhattan.
La metrica di Manhattan presenta gli stessi problemi legati
all'influenza della scala dei descrittori di cui si è detto a proposito della
metrica euclidea. Una delle varianti che, laddove necessario, la
correggono in questo senso è quella proposta da Lance & Williams
(1966) con il nome di metrica di Canberra:
( )∑= +
−=
p
i ikij
ikij
ijxx
xxD
1
I doppi zeri, se presenti, devono essere esclusi dal calcolo per
evitare problemi di indeterminazione. Pur senza normalizzare i dati,
questa distanza assegna alla differenza fra i valori che un descrittore
assume in due osservazioni un peso inversamente proporzionale alla
somma dei valori stessi: dunque, la medesima differenza ha un peso
maggiore se è osservata fra due valori piccoli. Uno degli inconvenienti
di questa soluzione, comunque, è costituito dal fatto che, se uno dei
due valori relativi ad un dato descrittore è uguale a zero, allora il
contributo alla distanza totale sarà comunque pari a 1, cioè il massimo
possibile. La metrica di Canberra, dunque, si presta meglio a trattare
serie di dati in cui esista eterogeneità di scala fra i descrittori senza,
però, che siano presenti molti valori nulli.
Una ulteriore variante della metrica di Manhattan è quella
proposta da Czekanowski (1909) come "differenza media dei
descrittori":
∑=
−=p
iikijjk xx
pD
1
1
Questa misura di distanza si presta all'esclusione dei casi in cui si
osserva un doppio zero, laddove ciò sia necessario, ma risente
comunque dell'eventuale eterogeneità di scala dei descrittori.
pag. 13
2.2.3. Dissimilarità metriche.
Come già accennato in precedenza, i coefficienti di similarità
possono essere convertiti in misure di distanza o, più propriamente, di
dissimilarità. Ciò si effettua semplicemente considerandone il
complemento ad 1 (cioè: Djk = 1 - Sjk).
Non tutte le dissimilarità, però, godono di proprietà metriche,
poichè sono molte quelle per cui l'assioma della diseguaglianza
triangolare non è verificato: in questo caso si usa la definizione di
semimetrica o pseudometrica. Sono dissimilarità semimetriche, ad
esempio, quelle derivate dai coefficienti di similarità di Sørensen, di
Sokal & Sneath, di Steinhaus e di Kulczynski.
La dissimilarità derivata dal coefficiente di Rudjichka, al contrario,
è di tipo metrico, così come quella derivata dal coefficiente di Jaccard,
che è nota anche come distanza di Marczewski-Steinhaus (Orloci,
1978) e che può essere calcolata direttamente come segue:
cba
cb
cba
aDjk ++
+=++
−= 1
Anche la similarità di Gower, infine, può essere trasformata in una
dissimilarità metrica, così come quella di Rogers & Tanimoto (sia nella
forma simmetrica, sia in quella asimmetrica) e come l'indice di
concordanza semplice.
Il principale vantaggio delle dissimilarità metriche è costituito dal
fatto che esse si comportano esattamente come delle misure di
distanza in uno spazio euclideo. Ciò rende più intuitiva la loro
applicazione e rende possibile l'applicazione di alcune tecniche di
analisi (es. Analisi delle Coordinate Principali, vedi §4.2.) che non
possono essere applicate alle semimetriche.
pag. 14
2.3. Coefficienti di dipendenza.
Così come i coefficienti di similarità e di distanza descrivono le
relazioni che esistono fra le osservazioni, i coefficienti di dipendenza
sintetizzano quelle che esistono fra descrittori.
Esistono diversi tipi di coefficienti di dipendenza, fra i quali è
possibile scegliere quello più adatto alla natura dei dati da trattare. Un
caso particolare è quello delle relazioni fra specie animali o vegetali,
che possono essere rappresentate mediante dei coefficienti di
associazione.
A differenza delle misure di similarità e distanza, comunque, i
coefficienti di dipendenza possono essere sottoposti a test statistici,
sempre che la distribuzione dei descrittori studiati lo consenta. In
generale, tali tests hanno come fine la verifica dell'ipotesi nulla di
indipendenza fra i descrittori.
Per il trattamento di dati quantitativi i coefficienti di dipendenza di
gran lunga più utilizzati sono certamente la covarianza e la correlazione
di Pearson.
La covarianza fra due descrittori si può ottenere, sulla base di due
vettori di n osservazioni, come:
∑=
−−−
=n
ikikjijjk xxxx
ns
1
))((1
1
Si noti come il calcolo della covarianza richiede che sia disponibile
un parametro statistico della distribuzione di frequenza dei descrittori,
cioè la media. E' evidente, inoltre, che nel caso particolare che si
determina se j=k la formula appena riportata restituisce la varianza di
un descrittore stimata su n osservazioni. In altre parole, sjj=sj2. Va
sottolineato il fatto che la sommatoria degli scarti si divide per n anzichè
per n-1 nel caso in cui la coverianza sia riferita ad una popolazione (in
senso statistico) invece che ad un campione.
Il coefficiente di correlazione r di Pearson è strettamente legato
alla covarianza ed esprime l'intensità della relazione lineare che lega
pag. 15
due descrittori. Esso non è altro che una covarianza calcolata su dati
standardizzati e può essere facilmente derivato, nel caso di dati non
standardizzati, dalla covarianza e dalle varianze dei due descrittori:
22kj
jkjk
ss
sr =
Ovviamente è anche possibile calcolare direttamente la
correlazione r di Pearson fra due descrittori, partendo dai dati bruti:
∑∑
∑
==
=
−−
−−=
n
ikik
n
ijij
n
ikikjij
jk
xxxx
xxxxr
1
2
1
2
1
)()(
))((
Così come la covarianza, anche la correlazione r di Pearson è
una misura parametrica di dipendenza, i cui parametri sono la media e
la deviazione standard dei descrittori. Il coefficiente di correlazione r di
Pearson varia da -1 a 1: questi limiti si ottengono per serie di dati
esattamente proporzionali, rispettivamente in maniera inversa e diretta.
Il coefficiente di correlazione r di Pearson può essere sottoposto
ad un test per verificare se esso differisce significativamente dallo zero.
A questo fine si calcola la probabilità di ottenere un valore di r pari a
quello osservato nel caso in cui i due descrittori siano totalmente
indipendenti fra loro e si considera significativa la correlazione se
questa probabilità è sufficientemente piccola (es. P<0.05).
Per far ciò si utilizza il seguente rapporto, che è distribuito come
un t di Student:
21
2
r
nrt
−
−=
pag. 16
La probabilità di ottenere un valore di r pari a quello osservato in
assenza di correlazione lineare fra i descrittori è quella associata al
valore di t ottenuto, con n-2 gradi di libertà.
Si tenga presente, comunque, che la non significatività della
correlazione lineare non implica l'indipendenza dei descrittori, i quali
possono essere legati da relazioni di ordine superiore.
Anche nel caso di descrittori semiquantitativi è possibile utilizzare
dei coefficienti di dipendenza. In particolare, si presta molto bene a
questo scopo il coefficiente di correlazione di rango r' (o ρ) di
Spearman: questo coefficiente non-parametrico può essere applicato
nel caso di relazioni di cui deve essere verificata la monotonicità, anche
se di tipo non lineare. La "robustezza" della correlazione di rango in
condizioni di non linearità delle relazioni fra descrittori, molto frequenti
in Ecologia, è la caratteristica che rende particolarmente interessante
l'applicazione di questo tipo di coefficiente.
Il coefficiente di correlazione r' di Spearman corrisponde
esattamente ad un coefficiente di Pearson calcolato sui ranghi dei dati
anzichè sui dati bruti. Esso può però essere ottenuto più direttamente
come segue:
nn
dr
n
ii
jk −−=′
∑=
31
261
dove d è la differenza fra il rango della i-ma osservazione per il
descrittore j e quello per il descrittore k.
Se per entrambi i descrittori non esistono due o più osservazioni
con il medesimo rango, allora il valore che si ottiene è identico a quello
del coefficiente r di Pearson. Tuttavia, nel caso in cui l'informazione è di
tipo semiquantitativo ed è codificata mediante un piccolo numero di
punteggi è inevitabile che molte osservazioni abbiano lo stesso
punteggio e quindi lo stesso rango. Ciò rende necessaria l'applicazione
di una correzione che tenga conto del numero di casi assegnati per
ciascun descrittore a ciascun rango. La formulazione del coefficiente r'
di Spearman diventa allora:
pag. 17
∑∑
∑∑∑
==
===
−−−⋅−−−⋅⋅
−−−−−−=′
m
hhkhk
m
hhjhj
n
ii
m
hhkhk
m
hhjhj
jk
qqnnqqnn
dqqqqnnr
1
33
1
33
1
2
1
3
1
33
)()(2
12)()(22
dove, oltre a quanto descritto per la formulazione di base, m è il
numero di ranghi e qhj e qhk sono il numero di osservazioni di rango h
per il descrittore j e per quello k.
Per ciò che riguarda il test di significatività del coefficiente r' di
Spearman è necessario fare riferimento a delle apposite tavole, poichè,
malgrado le notevoli affinità con il coefficiente r di Pearson, non è
possibile utilizzare il medesimo approccio. Infatti, la condizione di
normalità della popolazione bivariata da cui sono estratti i campioni non
è certamente soddisfatta nel caso di dati semiquantitativi.
Un caso particolare in cui è necessario disporre di un coefficiente
di dipendenza è quello dello studio delle associazioni di specie. In
questo caso i dati sono espressi tipicamente in forma binaria, poichè al
centro dell'attenzione non sono i rapporti quantitativi, ma piuttosto la
tendenza di più specie a ricorrere congiuntamente.
In questo contesto è possibile impiegare alcuni dei coefficienti di
similarità asimmetrici già descritti a proposito dei dati binari. La scelta di
coefficienti asimmetrici è motivata dal fatto che la co-assenza di specie
non costituisce una informazione rilevante ai fini della definizione di
eventuali associazioni.
In particolare, possono essere considerati dei coefficienti di
dipendenza fra specie sia il coefficiente di Jaccard (cfr. Reyssac &
Roux, 1972), sia quello di Sørensen, che in questo caso viene indicato
con il nome di indice di coincidenza (Dice, 1945).
Un coefficiente messo a punto espressamente per lo studio di
associazioni di specie è quello proposto da Fager & McGowan (1963):
)( 2
1
))((bc
cacaba
aSjk ≥
+⋅−
++=
pag. 18
Si noti come il secondo termine rappresenta una correzione per
impedire che le specie rare risultino fortemente associate: esso, infatti,
diminuisce il valore del coefficiente di una quantità tanto maggiore
quanto più è rara la specie più frequente fra le due esaminate.
pag. 19
3. Tecniche di clustering.
3.1. Note introduttive.
Una delle esigenze più comuni nella ricerca ecologica (e non) è
quella di raggruppare gli oggetti appartenenti ad un insieme dato in
modo tale da definire dei sottoinsiemi il più possibile omogenei. Per
raggiungere questo risultato, identificando una partizione, cioè una
collezione d'oggetti tale che ogni oggetto appartenga ad un solo
sottoinsieme o classe, è necessario disporre di una procedura o di un
algoritmo adatti alla natura dell'informazione disponibile, del problema
da affrontare e degli oggetti stessi.
Le procedure di tipo soggettivo, in quest'ambito, hanno un ruolo
molto più importante di quanto non si pensi comunemente. Basti
considerare il fatto che è su un approccio di questo tipo, per quanto
codificato in un quadro tassonomico di riferimento, che è basata una
delle attività fondamentali della ricerca ecologica, cioè la classificazione
degli organismi animali e vegetali. Inoltre, prima che gli algoritmi di
classificazione oggi disponibili venissero sviluppati, cioè fino a tutti gli
anni '50, il modo più sofisticato di ottenere una partizione di un insieme
di oggetti (o osservazioni) multivariati consisteva nel rappresentarli nello
spazio dei loro descrittori o in quello definito da due o più assi principali
(cfr. cap. 4), ricercando manualmente gli insiemi di punti più omogenei.
Come appena accennato, gli algoritmi di classificazione sono tutti
abbastanza recenti, ma, nonostante ciò, essi costituiscono un insieme
tanto ricco quanto diversificato. Gli algoritmi, in linea di massima,
possono essere suddivisi in due grandi gruppi: quelli di tipo gerarchico,
in cui si procede tipicamente per aggregazione successiva di oggetti, e
quelli di tipo non gerarchico, in cui si procede per divisione dell'insieme
di oggetti originale o per successivi aggiustamenti di una prima
partizione.
Alcuni Autori prefiscono utilizzare il termine clustering per indicare
i soli metodi non gerarchici, riservando il termine classificazione per
quelli gerarchici. In questa sede, comunque, sarà utilizzato
pag. 20
esclusivamente il primo termine, poichè esso è largamente utilizzato e
compreso, indipendentemente dal contesto applicativo. La trattazione
sarà focalizzata sul clustering di oggetti (o osservazioni), ma è evidente
che in alcuni casi può essere interessante e/o necessario ottenere
piuttosto una partizione di un insieme di descrittori.
E' importante sottolineare il fatto che una partizione ottenuta
mediante un algoritmo di clustering è a tutti gli effetti un descrittore
aggiuntivo (e sintetico) dell'insieme di oggetti in esame. L'appartenenza
ad un cluster, infatti, se codificata in maniera appropriata, può essere
utilizzata come una variabile di sintesi per ulteriori elaborazioni
dell'informazione disponibile.
Infine, anche se non sarà trattato in questo contesto, è
interessante ricordare l'esistenza di un approccio del tutto particolare ai
problemi di clustering, il quale pur essendo molto ben adattato ai
problemi più disparati, non si è ancora ritagliato uno spazio significativo
nell'ambito della ricerca ecologica. L'approccio in questione è quello
basato sul concetto di fuzzy sets, secondo cui l'appartenenza di un
oggetto ad una classe (cioè ad un fuzzy set) non viene espressa in
forma binaria, ma piuttosto in forma probabilistica. E' evidente che
questo tipo di logica è molto più vicina a quella che tutti noi utilizziamo
nella vita di tutti i giorni, quando ci riferiamo a categorie i cui limiti sono
difficilmente definibili in maniera univoca, poichè sfumano le une nelle
altre senza soluzione di continuità.
3.2. Clustering gerarchico.
3.2.1. Generalità.
Gli algoritmi di clustering gerarchico utilizzano una matrice di
similarità (o distanza) fra gli oggetti come base per l'aggregazione di
questi ultimi. E' importante sottolineare il fatto che la scelta del
coefficiente di similarità (o distanza) risulta in molti casi addirittura più
determinante di quella dell'algoritmo di clustering ai fini del
conseguimento dei risultati desiderati. Tale scelta, dunque, deve essere
pag. 21
preceduta da una accurata esplorazione dell'informazione disponibile e
da una chiara identificazione del tipo di relazione fra gli oggetti che si
intende rappresentare.
I risultati di una procedura di clustering gerarchico possono essere
reppresentati in diversi modi, anche se in prevalenza si preferisce
utilizzare un dendrogramma. I legami orizzontali in un dendrogramma
vengono chiamati nodi, mentre le linee verticali sono dette internodi. La
distanza di un nodo dalla base del dendrogramma è proporzionale alla
similarità (o distanza) fra i due oggetti o gruppi di oggetti di cui il nodo
rappresenta la fusione. La similarità (o distanza) è di solito riportata su
una scala al lato del dendrogramma. La disposizione relativa degli
oggetti alla base del dendrogramma è vincolata solo in parte dalla
struttura di quest'ultimo e, entro questi limiti, gli oggetti possono essere
liberamente riarrangiati.
In molti casi è utile anche visualizzare l'andamento progressivo
delle similarità (o distanze) a cui via via avvengono le fusioni fra oggetti
o gruppi di oggetti. Questa rappresentazione è fornita dal diagramma di
aggregazione, grazie al quale è possibile individuare facilmente le
discontiuità più rilevanti incontrate nella procedura di clustering. Tali
discontinuità, in molti casi, possono corrispondere a partizioni "naturali"
dell'insieme di oggetti analizzati e costituiscono un utile riferimento
laddove sia necessario ripartire questi ultimi in un certo numero di
classi (es. se si usa la partizione ottenuta come un nuovo descrittore
sintetico dell'insieme degli oggetti).
3.2.2. Algoritmo del legame singolo.
L'algoritmo del legame singolo (o nearest-neighbor) è certamente
il più semplice fra quelli disponibili e deve il suo nome al fatto che la
fusione fra due oggetti o gruppi di oggetti può avvenire se la distanza
fra due oggetti non appartenenti allo stesso gruppo è la più bassa fra
quelle possibili.
La procedura operativa, supponendo di lavorare su una matrice di
distanza, è la seguente:
pag. 22
1. si individua il valore minimo nella matrice (con esclusione,
ovviamente della diagonale) e si fondono i due oggetti corrispondenti
in un primo gruppo;
2. si individua il valore minimo residuo, cioè escludendo le distanze
intra-gruppo, e si fondono i due oggetti che corrispondono a tale
valore o i due gruppi a cui essi appartengono;
3. si procede fino a quando tutti gli oggetti sono assegnati ad un unico
gruppo.
Come si può notare, la procedura di clustering è elementare e non
richiede alcun calcolo aggiuntivo al di là di quello della matrice di
similarità o distanza.
L'algoritmo del legame singolo, tuttavia, non è molto utilizzato,
soprattutto per la sua tendenza al concatenamento degli oggetti, che
rende sempre più facile l'aggregazione di nuovi elementi man mano
che un gruppo diventa più numeroso. Ciò è dovuto al fatto che basta un
solo legame, cioè una sola coppia di oggetti effettivamente simili fra
loro, a far fondere due gruppi: è evidente quanto più è grande il numero
di oggetti che appartengono ad un gruppo, tanto più è probabile che
almeno uno di essi possa costiutire un "ponte" verso un altro oggetto o
un altro gruppo di oggetti. In altre parole, si può immaginare che
l'algoritmo del legame singolo provochi una contrazione dello spazio di
riferimento intorno ai gruppi proporzionale alla loro dimensione.
3.2.3. Algoritmo del legame completo.
Una soluzione affine a quella appena descritta da un punto di
vista procedurale, ma completamente opposta per ciò che riguarda le
regole di fusione dei gruppi è quella che prevede l'uso dell'algoritmo del
legame completo (o farthest-neighbor), proposto da Sørensen (1948)
In questo caso, infatti, si ammette la fusione di due gruppi di
oggetti soltanto se tutte le distanze fra coppie di oggetti non
appartenenti allo stesso gruppo sono inferiori alla soglia che
permetterebbe la fusione di un'altra coppia di gruppi.
pag. 23
Ciò garantisce una notevole omogeneità intra-gruppo, favorendo
la formazione di gruppi a cui appartiene un numero non troppo variabile
di oggetti, poichè quanto più un gruppo è numeroso, tanto più è difficile
che esso sia nel sua interezza sufficientemente simile ad un altro
gruppo. In contrapposizione a quanto avviene per l'algoritmo del
legame singolo, in questo caso si verifica una dilatazione dello spazio di
riferimento intorno ai gruppi già formati che è proporzionale alla loro
dimensione.
Le particolari caratteristiche dell'algoritmo del legame completo
rendono quest'approccio particolarmente adatto ad applicazioni
ecologiche, soprattutto quando si vogliono individuare le discontinuità
più rilevanti in un insieme di dati.
Il rovescio della medaglia, peraltro comune ad altri algoritmi di cui
si tratterà nel seguito di questo capitolo, è costituito dalla possibilità di
incontrare casi particolari in cui la scelta dell'aggregazione non è
definibile in maniera univoca. Pur senza scendere nel dettaglio, si
tenga conto che queste situazioni possono essere risolte applicando
nell'ordine alcune semplici regole (Sørensen, 1948). In particolare, sarà
privilegiata l'aggregazione che: (a) genera il gruppo più numeroso; (b)
accelera la diminuzione del numero di gruppi e (c) massimizza la
similarità media intra-gruppo.
3.2.4. Algoritmi di legame intermedio.
Fra i criteri estremi utilizzati negli algoritmi del legame singolo e di
quello completo esistono, evidentemente, delle possibilità intermedie.
Una di queste è costituita dall'algoritmo del legame proporzionale, che
prevede la fusione di due gruppi se una certa frazione, definita a priori,
delle distanze inter-gruppo è inferiore o uguale alla soglia necessaria
per definire una nuova partizione (Sneath, 1966).
Nel caso in cui tale frazione è fissata al 50%, il cirterio adottato è
esattamente a metà strada fra quello del legame singolo e quello del
legame completo. Se l'impiego di questi ultimi provocava
rispettivamente una dilatazione ed una contrazione dello spazio di
riferimento intorno ai gruppi già formati, il criterio intermedio utilizzato
pag. 24
dall'algoritmo del legame proporzionale può garantire un accettabile
grado di conservazione delle proprietà metriche dello spazio di
riferimento.
L'algoritmo del legame proporzionale non è l'unico nella famiglia
degli algoritmi di legame intermedio, dei quali Sneath (1966) descrive
tre ulteriori forme.
3.2.5. Algortimi di legame medio.
Un'altra importante categoria di algoritmi di clustering è quella
basata su misure di distanza (o similarità) media fra i gruppi.
Le varianti possibili sono quattro e derivano dalla combinazione di
due scelte: il peso attribuito ai gruppi, che può essere uguale o
proporzionale alla loro dimensione, e la procedura di calcolo della
distanza inter-gruppo, che può essere basata sulla media delle
distanze fra singoli oggetti o sulla distanza fra i centroidi dei gruppi. La
tabella che segue fornisce un quadro d'insieme delle varie possibilità:
Distanza fra gruppi definita come:
distanza media fra
gli oggetti
distanza fra i
centroidi dei gruppi
pesi uguali clustering medio
(UPGMA)
clustering centroide
(UPGMC)
pesi proporzionaliclustering a pesi
proporzionali(WPGMA)
clustering mediano
(WPGMC)
Per ciascun algoritmo di clustering è indicata fra parentesi la
denominazione utilizzata da Sneath & Sokal (1973).
Il clustering medio (unweighted arithmetic average clustering,
Rohlf, 1963) utilizza come criterio per la fusione di due gruppi di oggetti
pag. 25
la media aritmetica delle distanze (o delle similarità) fra tutti gli oggetti
dei due gruppi e ad ogni oggetto viene attribuito lo stesso peso.
Il clustering a pesi proporzionali (weighted arithmetic average
clustering, Sokal & Michener, 1958) prevede l'assegnazione di un
medesimo peso a ciascuno dei due gruppi che devono essere fusi: ciò
implica che gli oggetti del gruppo più numeroso avranno un peso
individuale minore di quello degli oggetti del gruppo meno numeroso.
La distanza fra i gruppi si calcola poi come una somma ponderata di
tutte le distanze inter-oggetto. Questo approccio è specificamente
adattato al caso in cui si analizzano contemporaneamente diversi
insiemi "naturali" di oggetti: in questo caso, infatti, se uno di tali insiemi
contiene un numero di oggetti relativamente piccolo, il risultato della
procedura di clustering potrebbe essere fortemente influenzato
dall'insieme più numeroso.
Il clustering centroide (Sokal & Michener, 1958; unweighted
centroid, Sneath & Sokal, 1973) è caratterizzato dal fatto che, dopo che
due oggetti o gruppi di oggetti sono stati fusi, essi vengono
rappresentati dal loro centroide. Ciò può essere ottenuto in diversi
modi, ma in genere è possibile sostituire le righe e le colonne relative
agli oggetti che appartengono ad un gruppo appena formato con un
vettore di valori, uguale per tutti gli oggetti, che si ottiene utilizzando
una media, meglio se ponderata (Gower, 1967) delle similarità relative
ai singoli oggetti. Il clustering centroide può dare luogo, talvolta, a delle
"inversioni" nella struttura del dendrogramma, cioè si può verificare il
caso che un nodo di ordine gerarchico superiore corrisponda ad un
livello di distanza (o di similarità) minore (maggiore) di quello relativo ad
un nodo di ordine gerarchico inferiore. Il fatto che l'algoritmo non
garantisce la monotonicità del diagramma di aggregazione e del
dendrogramma rende talvolta difficile l'interpretazione dei risultati, che
in ogni caso devono essere utilizzati con cautela per la definizione di
partizioni vere e proprie.
Così come nel caso del clustering medio, se si considera un
insieme di dati in cui le osservazioni relative ad uno o più ambienti
(popolazioni) particolari predominano numericamente su quelle relative
ad ambienti (popolazioni) meno rappresentati, può essere necessario
pag. 26
introdurre una correzione, basata sull'assegnazione di un peso uguale
a ciscun gruppo, ogni volta che si effettua una fusione.
Questa soluzione prende il nome di clustering mediano (Gower,
1967, weighted centroid, Sneath & Sokal, 1973) e sta al clustering
centroide esattamente come il clustering a pesi proporzionali sta al
clustering medio.
3.3. Clustering non gerarchico.
Le procedure di clustering non gerarchico prevedono la
ripartizione degli oggetti in un numero dato di gruppi, generalmente
sulla base di un criterio di massimizzazione della omogeneità intra-
gruppo.
A differenza delle procedure gerarchiche non è generalmente
necessario disporre di una matrice di distanza o similarità fra gli oggetti:
questa caratteristica è estremamente importante quando si devono
analizzare grandi insiemi di dati.
Uno dei metodi di clustering non gerarchico più interessanti è
quello noto come algoritmo delle Nubi Dinamiche (Nuées Dynamiques,
Diday, 1971). Esso può essere sintetizzato come segue:
1. si assegna a caso ciascuno degli n oggetti ad uno degli m gruppi
richiesti;
2. si calcolano le coordinate degli m centroidi dei gruppi appena formati
nello spazio dei p descrittori considerati;
3. si riassegna ciascun oggetto al gruppo il cui centroide è più vicino;
4. se nessun oggetto ha cambiato gruppo, la partizione ottenuta è
quella finale, altrimenti si torna al punto 2.
Uno degli inconvenienti di questo metodo sta nel fatto che la
partizione finale non è determinata in maniera univoca: è infatti
possibile che diverse configurazioni di partenza (cioè diverse ripartizioni
casuali degli oggetti fra gli m gruppi) convergano verso stati finali
leggermente differenti, soprattutto in assenza di una partizione
pag. 27
"naturale" degli oggetti. In questo caso è possibile iterare un certo
numero di volte la procedura e mantenere la partizione per cui
l'omogeneità intra-gruppo è massima. Questa soluzione non è così
inefficiente come può sembrare in prima analisi, poichè questo
algoritmo è estremamente rapido anche nel caso in cui si trattano
insiemi di dati di grandi dimensioni.
Come già accennato, pur non potendo essere considerata come
una procedura di clustering in senso stretto, la definizione euristica di
sottoinsiemi di oggetti basata sull'uso di tecniche di ordinamento (vedi
cap. 4) rappresenta una prassi consolidata e, con le dovute cautele,
non priva aspetti interessanti. In generale, comunque, questa soluzione
deve essere adottata a fini prettamente descrittivi, sfruttando
soprattutto la possibilità di individuare in maniera immediata il
descrittore o il complesso di descrittori che hanno il maggior peso nel
determinare le differenze osservate fra i gruppi di oggetti.
3.4. Clustering vincolato.
In molti casi i risultati di una procedura di clustering dipendono in
maniera determinante dalla scelta dell'algoritmo e da quella di una
misura di distanza o similarità appropriata. Imporre dei vincoli ad un
algoritmo di clustering implica la definizione di un modello a priori che
guida il processo di aggregazione degli oggetti, limitando lo spettro
delle partizioni valide ad un sottoinsieme di quelle possibili.
L'uso di tecniche di clustering vincolato (Legendre & Legendre,
1984; Legendre et al., 1985; Legendre, 1987) si rivela di particolare
utilità quando è necessario identificare le discontinuità più rilevanti in
una serie spaziale o temporale. Questo approccio consente infatti di
individuare i gruppi di campioni che presentano il massimo grado di
omogeneità al loro interno, scegliendoli esclusivamente fra quelli che
formano delle sequenze cronologicamente ordinate o spazialmente
connesse.
Le tecniche di clustering vincolato, in breve, prevedono la fusione
di due oggetti o gruppi di oggetti in un unico gruppo solo se essi sono
pag. 28
contigui nel tempo o nello spazio ed al tempo stesso sono soddisfatte
le condizioni di fusione previste dall'algoritmo di clustering prescelto. In
particolare, comunque, si deve sottolineare il fatto che gli algoritmi di
clustering che meglio si adattano all'applicazione di vincoli sono quelli di
tipo gerarchico.
Il concetto di contiguità, per poter essere applicato all'algoritmo di
clustering, deve essere opportunamente formalizzato. Se per le serie
monodimensionali (es. temporali) ciò non costituisce un problema, per
ciò che riguarda le serie bi- o multidimensionali (es. un insieme di
stazioni in un'area geografica) è necessario stabilire un criterio che
definisca il concetto di contiguità. Tale criterio può anche essere di
natura assolutamente soggettiva, ma esistono delle soluzioni che
hanno il pregio di poter definire in maniera oggettiva ed univoca una
matrice di connessione fra gli oggetti.
Una di queste soluzioni è rappresentata dalle reti di Gabriel
(Gabriel & Sokal, 1969). In questo caso si considerano connessi due
punti A e B se nessun altro punto cade all'interno del cerchio il cui
diametro è il segmento che unisce i punti A e B. In altre parole, dati tre
punti qualsiasi A, B e C, si connettono A e B se DAB<(DAC+DBC).
E' evidente che in alcuni casi può essere necessario imporre delle
correzioni alla matrice di connessione. Ciò si verifica, ad esempio,
quando due punti, considerati connessi nello spazio bidimensionale
delle loro coordinate, sono funzionalmente disgiunti a causa della
presenza di accidenti geografici (es. due stazioni in mare possono
essere le più vicine fra loro in linea d'aria, pur essendo separate da una
penisola).
pag. 29
4. Tecniche di ordinamento.
4.1. Analisi delle Componenti Principali.
L'Analisi delle Componenti Principali è la tecnica di ordinamento
più semplice, nel senso che essa opera esclusivamente una rotazione
rigida degli assi dello spazio multidimensionale dei dati in modo tale da
orientarli in maniera coerente con i pattern di dispersione dei dati
stessi. Ciò consente di rappresentare un insieme di dati in maniera più
efficace anche in un numero ridotto di dimensioni, cioè in un sistema di
assi ortogonali (le Componenti Principali) definiti come combinazioni
lineari dei descrittori originali. Inoltre, è possibile ottenere anche una
rappresentazione delle relazioni fra i descrittori stessi e fra questi ultimi
e le Componenti Principali.
Come per la maggior parte delle tecniche di ordinamento, anche
per l'Analisi delle Componenti Principali è necessaria l'estrazione di
autovalori ed autovettori da una matrice. Nel caso specifico si tratta in
genere di una matrice di covarianza o di correlazione.
La procedura di calcolo prevede che i dati siano organizzati in una
matrice Xnxp, dove n sono le osservazioni e p i descrittori. Gli elementi
della matrice X dei dati bruti vengono quindi centrati sulle p colonne
(cioè sui descrittori), in modo da ottenere una matrice Y di eguale
dimensione:
∑=
−=n
iijijij x
nxy
1
1
Moltiplicando la matrice Y per la sua trasposta Y' e dividendo il
prodotto per il numero di osservazioni n si ottiene la matrice S, che è la
matrice di covarianza dell'insieme dei dati originali contenuti nella
matrice X:
YY'Sn
1=
pag. 30
In realtà, va sottolineato il fatto che, pur essendo prassi
abbastanza consolidata, la divisione per n del prodotto Y'Y, non è
strettamente necessaria, poichè tale operazione non ha alcuna
influenza sul risultato finale dell'analisi.
Si procede quindi ad estrarre gli autovalori λk (k=1,2,...,m) e gli
autovettori ujk (j=1,2,...p; k=1,2,...,m) della matrice S. Si noti che il
numero m di autovalori ed autovettori da estrarre può essere fissato a
piacere: in molti casi è sufficiente considerare i primi 2 o 3 autovalori, in
ordine decrescente.
Le coordinate fij (o scores) delle osservazioni riferite al nuovo
sistema di assi, cioè alla Componenti Principali, si calcolano
moltiplicando la matrice dei dati centrati Y per la matrice U degli
autovettori (o loadings).
Da un punto di vista pratico, la rappresentazione delle
osservazioni nello spazio definito dalle Componenti Principali (modello
di ordinamento) si può effettuare in una, due o tre dimensioni. Tuttavia,
la rappresentazione di gran lunga più comune è quella che si ottiene
nel piano definito da una coppia di Componenti Principali.
La qualità della rappresentazione ottenuta si può valutare sulla
base degli autovalori estratti. La percentuale di varianza spiegata dalla
prima Componente Principale è pari al rapporto fra il primo autovalore e
la traccia della matrice S e così via.
Infine, è possibile proiettare anche i descrittori nello spazio delle
Componenti Principali. Le coordinate gjk (j=1,2,...p; k=1,2,...,m) dei
descrittori si ottengono moltiplicando ciascun autovettore per la radice
quadrata dell'autovalore corrispondente:
kjkjk ug λ=
La proiezione dei descrittori deve essere interpretata in maniera
leggermente diversa da quella delle osservazioni. In quest'ultimo caso,
infatti, è la distanza fra i punti che consente valutare la somiglianza
delle osservazioni, mentre nel primo caso sono piuttosto gli angoli che
formano i vettori che identificano i punti-descrittore nello spazio delle
Componenti Principali a rappresentare le relazioni fra i descrittori stessi.
pag. 31
Le correlazioni fra Componenti Principali e descrittori originali
possono essere calcolate semplicemente dividendo per la deviazione
standard sj le coordinate gjk dei descrittori.
L'Analisi delle Componenti Principali richiede, per una corretta
applicazione, che i descrittori siano di tipo quantitativo e che la loro
distribuzione sia di tipo normale. Inoltre, si assume che essi siano legati
da relazioni lineari e che la matrice dei dati non contenga un numero
eccesivo di zeri. Nel caso in cui i descrittori non siano
dimensionalmente omogenei, infine, è opportuno effettuare l'analisi su
una matrice di correlazione: ciò si ottiene standardizzando i dati bruti o,
ancor più semplicemente, dividendo ogni elemento di Y per la
deviazione standard sj del descrittore corrispondente.
4.2. Analisi delle Coordinate Principali.
Nel campo della ricerca ecologica non sempre gli insiemi di dati
posseggono le proprietà necessarie ad una corretta applicazione
dell'Analisi delle Componenti Principali. Si consideri il caso tipico di una
lista di specie osservate in un certo numero di campioni: spesso
l'informazione è espressa mediante una codifica binaria
(presenza/assenza) ed anche nei casi in cui sono disponibili le
abbondanze, queste ultime non sono certamente distribuite in modo
normale. Inoltre, il numero di zeri, cioè di assenze di specie dai
campioni esaminati, è molto spesso addirittura superiore al numero dei
valori non nulli. In questi casi esistono numerose misure di similarità e/o
di distanza che si prestano a rappresentare al meglio le relazioni fra gli
oggetti (campioni), come ampiamente discusso nel capitolo 2.
Un ordinamento degli oggetti nello spazio definito da una qualsiasi
matrice di distanza o di similarità, a condizione che essa goda di tutte le
proprietà metriche, può essere ottenuto mediante l'Analisi delle
Coordinate Principali (Gower, 1966). Tale tecnica di ordinamento ha la
proprietà di preservare al meglio le distanze originali fra gli oggetti nello
spazio ridotto definito dagli assi principali.
pag. 32
La matrice Dnxn delle distanze o similarità fra gli n oggetti viene
dapprima trasformata nella matrice ∆:
D2
1−=∆
La matrice C viene quindi ottenuta centrando la matrice ∆ in modo
tale che l'origine del sistema di assi che sarà definito si trovi nel
centroide degli oggetti:
∑∑∑∑= ===
−−−=n
h
n
khk
n
kkj
n
hihijij
nnnc
1 12
11
111 δδδδ
dove il secondo ed il terzo termine rappresentano le medie di riga e di
colonna della matrice ∆ (equivalenti nel caso di una matrice simmetrica)
e l'ultimo termine rappresenta la media generale di questa stessa
matrice.
Si calcolano quindi gli autovalori λj (j=1,2,...,m; m≤n-1) e gli
autovettori uij (i=1,2,...,n; j=1,2,...,m) della matrice C. Le Coordinate
Principali fij degli oggetti si ottengono moltiplicando gli autovettori per la
radice quadrata dell'autovalore corrispondente:
ijjij uf ⋅= λ
Anche in questo caso la qualità dell'ordinamento ottenuto per
ciascun asse principale può essere valutata sulla base del rapporto fra
l'autovalore corrispondente e la somma degli autovalori estratti.
Tuttavia, poichè è possibile che uno o più autovalori siano negativi,
Cailliez & Pagès (1976) raccomandano di valutare globalmente la
qualità di un ordinamento utilizzando il rapporto:
∑
∑−
=
=
−+
+
1
1min
1min
)1(n
ii
q
ii
n
q
λλ
λλ
pag. 33
dove q è il numero di dimensioni in cui si è ottenuto l'ordinamento, n è il
numero totale di dimensioni e λmin è l'autovalore negativo di maggior
valore assoluto.
4.3. Analisi Fattoriale delle Corrispondenze.
L'Analisi Fattoriale delle Corrispondenze, o semplicememte
Analisi delle Corrispondenze, è una tecnica di ordinamento di grande
interesse in ecologia (Benzecri et al., 1973). A differenza di altre
tecniche, quali ad esempio i vari tipi di Analisi delle Componenti
Principali, l'Analisi Fattoriale delle Corrispondenze consente di
rappresentare simultaneamente i punti-variabile ed i punti-
osservazione, con coordinate tali da rendere massima la correlazione
fra i due insiemi per ogni fattore.
La dualità di questo tipo di analisi, tuttavia, non è il suo unico
pregio. Una caratteristica di enorme interesse dell'Analisi Fattoriale
delle Corrispondenze è l'equivalenza distribuzionale. In pratica, poichè
ad essere analizzati sono sostanzialmente dei profili, il risultato globale
dell'analisi non cambia se, ad esempio, le osservazioni relative a due
entità tassonomiche la cui separazione è dubbia vengono cumulate o
mantenute separate. Analogamente, se un'osservazione è replicata
con risultati coerenti, può essere indifferentemente cumulata alla
precedente o trattata come una nuova osservazione.
Tralasciando una trattazlone piu approfondita e centrata su aspetti
piu strettamente formali, l'Analisi Fattoriale delle Corrispondenze può
essere effettuata in tre fasi principali: calcolo di una matrice simmetrica
di prodotti scalari, calcolo degli autovalori e degli autovettori di tale
matrice ed infine calcolo delle coordinate e dei contributi assoluti (cioè
dei contributi delle osservazioni e delle variabili agli assi fattoriali) e
relativi (cioè degli assi fattoriali alla descrizione di osservazioni e
variabili).
La qualità della rappresentazione ottenuta nello spazio ridotto
definito dagli assi fattoriali può essere stimata sulla base degli
autovalori estratti, per quanto riguarda la qualità globale
pag. 34
dell'ordinamento ed il grado di strutturazione del sistema, e sulla base
dei contributi relativi per quanto riguarda i singoli taxa e le singole
stazioni.
La matrice dei dati Anxp sarà organizzata in modo tale che risulti p
≤n, al fine di ottimizzare le procedure di calcolo. Ciò implica, nella
maggior parte dei casi, che le osservazioni corrispondano alle righe ed i
descrittori alle colonne, poichè le prime dovrebbero essere comunque
più numerose dei secondi. Un caso tipico in cui ciò non si verifica,
tuttavia, è quello, peraltro assai frequente, in cui si debbano trattare
delle liste si specie osservate in un insieme di stazioni: in questo caso è
del tutto normale che le specie (cioè i descrittori) siano molto più
numerose delle stazioni (cioè delle osservazioni).
La matrice A, così organizzata, viene trasformata nella matrice U,
in cui
..
..
..a
aa
aa
au
ji
ji
ijij −=
La matrice U contiene dunque gli scarti degli elementi di A pesati
sulla media geometrica delle somme marginali di riga e di colonna
rispetto alla stessa media geometrica pesata sul totale generale.
La matrice dei prodotti scalari S, di rango p, si ottiene quindi
moltiplicando la tale matrice per la sua trasposta U'
UUS ′=
Si calcolano quindi gli autovalori λj [j=1,2,...,m; m≤p-1] e gli
autovettori vjh [j=1,2,...,p; h=1,2,...,m)] della matrice S. Si noti che,
poichè non è strettamente necessario calcolare tutti gli autovalori e gli
autovettori, spesso ci si limita ad estrarre solo i primi 2 o 3, i quali,
peraltro, sono in generale largamente sufficienti ai fini dell'analisi.
Si calcolano quindi le coordinate delle osservazioni:
pag. 35
∑=
=p
j ji
jhijih
a
aa
vaf
1
..
..
per gli h assi fattoriali richiesti. Si passa poi alle coordinate delle
variabili:
∑=
=n
i hj
ihijjh
a
fag
1 . λ
Successivamente si calcolano i contributi assoluti all'h-mo fattore
da parte della i-ma osservazione e della j-ma variabile:
h
jjhjh
h
iihih
a
aggca
a
affca
λ
λ
..
.2
..
.2
)(
)(
=
=
Infine, si calcolano i contributi relativi dell'h-mo fattore, all'i-ma
osservazione ed alla j-ma variabile
∑
∑
=
=
=
=
m
hjh
jhjh
m
hih
ihih
g
ggcr
f
ffcr
1
2
2
1
2
2
)(
)(
La significatività degli assi fattoriali può essere testata in maniera
empirica in diversi modi. Il più semplice è quello che prevede il
confronto della percentuale di varianza spiegata da ciascuno di essi
con quella attesa in base al modello di Mac Arthur ("broken-stick").
E' inoltre possibile rappresentare altre osservazioni ad altre
variabili nello spazio fattoriale così definito.
pag. 36
4.4. Analisi delle Correlazioni Canoniche.
Nell'ambito di uno studio ecologico è spesso necessario prendere
in considerazione insiemi di variabili qualitativamente eterogenei. Ad
esempio, è assai frequente il caso in cui si dispone della lista delle
specie e delle misure dei principali parametri fisico-chimici relative ad
un insieme di osservazioni distribuite nello spazio e/o nel tempo. Un
insieme di dati organizzato in tal modo non può essere analizzato
esaustivamente mediante le consuete tecniche di ordinamento, le quali,
al di la dei problemi formali, non consentono di isolare i due
sottoinsiemi di variabili e di valutarne globalmente il grado di
correlazione.
L'Analisi delle Correlazioni Canoniche al contrario, ha come fine
proprio l'esame di tali correlazioni. Per l'Analisi delle Correlazioni
Canoniche la matrice dei dati può essere vista come l'insieme delle n
osservazioni relative a due sottoinsiemi composti rispettivamente da p e
da q variabili, con p≤q. In altre parole, la i-ma osservazione può essere
rappresentata da due vettori riga x ed y
( )( )iqii
ipii
yyy
xxx
�
�
21
21
=
=
y
x
in cui le x sono le misure del sottoinsieme di variabili meno numeroso e
le y le rimanenti.
La matrice di covarianza S di rango p+q dell'insieme completo dei
dati sarà quindi ripartibile in blocchi:
( )
=′′
=
2221
12111
SS
SSyx
y
xS
n
In particolare, S11 è la matrice di rango p di covarianza delle
variabili del sottoinsieme x, così come S22 di rango q lo è del
sottoinsieme y. La S12 è una matrice pxq che contiene le covarianze
fra i due sottoinsiemi di variabili. Poichè S è una matrice simmetrica,
S21 è la trasposta di S12.
pag. 37
Lo scopo dell'Analisi delle Correlazioni Canoniche è trovare,
partendo dalla matrice S, le p combinazioni lineari delle variabili x e le p
combinazioni lineari delle variabili y
piybybybv
xaxaxau
qiqiii
pipiii ,,2,1 2211
2211�
�
�
=+++=+++=
tali da soddisfare le seguenti condizioni:
1) tutte le ui devono essere indipendenti fra loro;
2) tutte le vi devono essere indipendenti fra loro;
3) le p coppie di combinazioni lineari devono essere tali da rendere
massime le p correlazioni ri fra le ui e le vi.
Le variabili u e v sono perciò dette variabili canoniche e le loro
correlazioni r sono dette correlazioni canoniche.
Prescindendo in questa sede da una trattazione completa dal
punto di vista formale, l'Analisi delle Correlazioni Canoniche può essere
effettuata, sulla base della matrice di covarianza S ripartita in blocchi,
calcolando innanzitutto gli autovalori delle due matrici ottenute dai
prodotti
121
22121
11
121
11121
22
SSSS
SSSS
′
′−−
−−
Esistono al massimo p autovalori non nulli della prima matrice
prodotto: tali autovalori sono uguali a quelli non nulli della seconda
matrice prodotto.
I vettori dei coefficienti a e b si ottengono risolvendo i due sistemi,
rispettivamente di p e q equazioni lineari
( )( ) 0
0
121
11121
22
121
22121
11
=−′=−′
−−
−−
bISSSS
aISSSS
i
i
λλ
per ogni λj (i=1,2,...,p). Per comodità, si pone
1 1 11 == ii ba
pag. 38
Si possono quindi ricavare le variabili canoniche mediante un
prodotto fra vettori
ybvxau ′=′= ii
Per ciascuna coppia ui e vi la correlazione canonica sarà
iir λ=
Le variabili canoniche possono quindi essere impiegate per
ulteriori analisi, come pure per un output grafico diretto, che
rappresenta la correlazione fra i due sottoinsiemi di variabili eterogenee
e l'ordinamento delle osservazioni in questo ambito.
Sulla base del primo autovalore estratto, e cioè della correlazione
canonica piu alta, è possibile effettuare un test di indipendenza fra i
due sottoinsiemi di variabili.
Va infine rilevato che, nel caso in cui le variabili originali presentino
una sensibile eterogeneità di scala, puo essere conveniente effettuare
l'analisi sui dati centrati e standardizzati: in tal modo la matrice S è in
realtà una matrice di correlazione R e le variabili canoniche ottenute
sono adimensionali. Questa soluzione consente, inoltre, di confrontare
l'importanza delle variabili originali in base al valore dei coefficienti a e
b delle variabili canoniche.
pag. 39
5. Analisi di serie spaziali e temporali.
5.1. Autocorrelazione.
Uno strumento di notevole utilità nello studio delle serie spaziali e
temporali di dati è costituito dalle funzioni di autocorrelazione (Cliff &
Ord, 1973 e 1981). Il concetto di autocorrelazione è legato alla
possibilità di prevedere l'andamento di una variabile nel tempo o nello
spazio sulla base dei valori misurati: una autocorrelazione positiva, ad
esempio, implica una maggiore probabilità di osservare valori elevati
della variabile considerata in prossimità di un punto in cui è stato
effettivamente misurato un valore elevato.
La forma delle funzioni che legano l'autocorrelazione alla distanza
fra coppie di punti (correlogrammi) consente di formulare delle
inferenze sulla struttura spaziale (o temporale) della variabile studiata.
Una delle misure di autocorrelazione più utilizzate nel caso di
serie spaziali di dati, soprattutto nel caso in cui le osservazioni non
siano distribuite in maniera uniforme, è il coefficiente I di Moran (1950):
ji
yyp
yyyywW
dIp
ii
p
ij
p
jiij
≠−
−−=
∑
∑∑
=
= = per
)(1
))((1
)(2
1
1 1
dove d è la distanza considerata, yi è il valore della variabile y nell'i-mo
punto della serie, wij è un delta di Kronecker, W è la somma dei delta di
Kronecker per la distanza d e p è il numero di punti nella serie.
5.2. Test di Mantel.
Questo test, di recentissima introduzione in campo ecologico, è
stato sviluppato in origine per lo studio della distribuzione spaziale
dell'occorrenza di casi di tumori (Mantel, 1967). Esso consente di
pag. 40
ottenere una misura del grado di correlazione esistente fra due matrici
di distanze (di cui una può essere di tipo geografico) o di similarità.
L'ipotesi nulla che viene testata è quella di indipendenza fra le due
matrici analizzate, mentre il livello di probabilità relativo al valore della
statistica viene calcolato sulla base di una procedura iterativa.
La statistica Z di Mantel, che esprime il grado di correlazione fra la
struttura delle due matrici, si calcola come la somma dei prodotti degli
elementi corrispondenti delle due matrici di distanza, esclusi quelli sulla
diagonale. Se gli elementi di ciascuna delle due matrici vengono
preventivamente centrati e standardizzati, allora la statistica di Mantel
(indicata in questo caso come R) risulta standardizzata ed assume lo
stesso significato e lo stesso intervallo di variazione di un coefficiente di
correlazione di Bravais-Pearson.
Il livello di probabilità associato al valore della statistica di Mantel
si calcola sulla base di una procedura iterativa che prevede la
permutazione casuale delle righe e delle colonne di una delle due
matrici ed il ricalcolo della statistica di Mantel per un numero
sufficientemente alto di volte. Il valore della statistica ottenuto per le
matrici originali viene confrontato con la distribuzione empirica di quelli
ottenuti ripetendo il calcolo su matrici permutate aleatoriamente: la
percentuale delle iterazioni in cui si è ottenuto un valore inferiore a
quello originale corrisponde al livello di probabilità di quest'ultimo. Dal
punto di vista pratico si rigetterà l'ipotesi nulla di indipendenza fra le
matrici se almeno il 95% o il 99% dei valori ottenuti per le matrici
permutate è inferiore (o superiore) a quello originale.
Questo tipo di procedura consente, inoltre, di ottenere anche
un'altra forma di standardizzazione della statistica di Mantel, che non
richiede di intervenire sulle matrici originali. Questa standardizzazione,
proposta da Hubert, si effettua riscalando il valore originale di Z rispetto
al minimo ed al massimo ottenuti durante la procedura iterativa di
permutazione delle matrici e ricalcolo di Z, che vengono assunti come
estremi teorici della variazione della statistica (e cioè come -1 e 1,
rispettivamente). Il significato di questa forma di standardizzazione è
interessante soprattutto perchè essa viene effettuata in rapporto alla
specifica natura delle matrici sottoposte al test: in altre parole anche
pag. 41
una correlazione debole, purchè sia realmente la migliore ottenibile
sulla base dei dati originali, fa assumere a R un valore pari a 1 (che
corrisponderà, evidentemente ad un livello di probabilità P(R) prossimo
al 100%).
Dunque, questa forma di standardizzazione fornisce una misura
del livello di correlazione relativa fra le matrici analizzate, mentre quella
precedentemente illustrata fornisce una misura assoluta.
pag. 42
6. Interpolazione.
6.1. Note introduttive.
Una efficace rappresentazione grafica dei risultati è,
indipendentemente dal contesto, un utile strumento di sintesi. In campo
ecologico ciò è ancor più vero, in considerazione dell'eterogeneità delle
variabili in gioco e della complessità delle relazioni che le legano.
La natura stessa della ricerca ecologica propone spesso situazioni
in cui i dati quantitativi, semiquantitativi o addirittura qualitativi devono
essere rappresentati in funzione della posizione delle stazioni di
rilevamento. Assai spesso può essere utile, ad esempio, mappare la
densità degli individui di una specie in una determinata area geografica,
e magari confrontare il risultato con quello relativo ad una seconda
specie o ad una variabile di altra natura.
L'esame ed il confronto di rappresentazioni di questo tipo possono
consentire di evidenziare rapporti funzionali o di formulare nuove
ipotesi di lavoro, ma in sostanza il risultato ultimo è una rielaborazione
sintetica di dati disponibili sotto altra forma.
L'elaborazione dell'informazione disponibile in funzione della sua
trasposizione cartografica è dunque il nocciolo del problema. Nel caso
più semplice ciò si riduce alla determinazione delle coordinate di
riferimento ed al semplice trasferimento sulla carta dei valori numerici in
oggetto: il risultato è simile a quello che si ottiene riportando le quote
dei rilievi principali su una carta geografica. Il problema si complica
quando si desidera rappresentare una grandezza su tutta un'area,
tracciando sulla mappa delle curve che congiungono i punti in cui essa
assume lo stesso valore (isoplete).
La realizzazione di una mappa ad isoplete, infatti, presenta dei
problemi di interpolazione, poiché è evidente che, per quanto numerose
possano essere le osservazioni effettuate, il rilevamento dei dati non
può comunque assumere il carattere di continuità che, invece, dovrà
essere restituito dalla rappresentazione grafica. Si rende perciò
pag. 43
necessario formulare un'ipotesi sul comportamento della grandezza in
esame fra due o più punti noti ed assumere la stessa come la migliore
approssimazione possibile dei valori reali.
L'interpolazione può essere effettuata empiricamente, cioè sulla
base del buon senso e dello spirito di osservazione, o mediante
l'impiego di strumenti matematici. La prima soluzione è indubbiamente
la più diffusa, a tutt'oggi, in un contesto di tipo ecologico. La soggettività
delle scelte che la guidano ne è insieme il maggior pregio ed il peggior
difetto, poiché, se è vero che si possono ottenere rappresentazioni
sintetiche ed efficaci come nessun algoritmo potrebbe produrre, è vero
che è molto difficile non lasciarsi sfuggire qualcosa (magari certi dettagli
che non sembrano proprio al loro posto...).
Le tecniche non soggettive di interpolazione sono senza dubbio
quelle che possono consentire di estrarre il massimo dell'informazione
dai propri dati, ma, al tempo stesso, impongono l'uso di metodi rigorosi
già a partire dal rilevamento degli stessi, poiché è del tutto evidente che
l'elaborazione dei dati affetti da fonti di errore non controllabili resta un
semplice esercizio formale. E' importante, tuttavia, rimarcare come non
sia l'errore di misura in sè, quanto piuttosto la mancanza di informazioni
sulla natura dello stesso, ad inficiare i risultati.
L'ipotesi che ogni misura effettuata, ogni dato rilevato sia soltanto
una delle possibili manifestazioni di una variabile aleatoria ed il
completo trattamento dell'errore sono alla base della tecnica di
interpolazione nota come kriging.
6.2. Le tecniche di interpolazione
La mappatura di qualsiasi tipo di variabile, dunque, richiede due
cose: un certo numero di misure, effettuate in punti identificati da un
sistema di coordinate, e una tecnica di interpolazione, la quale
consenta di "ricostruire", cioè di stimare in maniera non soggettiva, i
valori assunti dalla grandezza in oggetto negli intervalli compresi fra i
punti noti.
pag. 44
Le tecniche di interpolazione possono essere di due tipi:
deterministiche o stocastiche. Quest'ultimo è il caso del kriging
(Matheron, 1969 e 1970).
Si può affermare che le tecniche deterministiche stimano, sulla
base delle osservazioni effettuate, una funzione o una combinazione
lineare di funzioni che descrive l'andamento medio di una grandezza,
senza però riprodurne i valori nei punti noti (es.: metodo dei minimi
quadrati), o che assume i valori esatti nei punti noti, fornendo stime
poco attendibili nelle regioni comprese fra questi (es.: interpolazione
polinomiale). Fra le tecniche deterministiche impiegate per la
mappatura di grandezze di interesse ecologico si può ricordare la trend-
surface analisys: anch'essa, come il kriging, è stata inizialmente
sviluppata in campo geologico.
Il campo ottimale di applicazione delle tecniche di interpolazione
deterministiche, oltre alla descrizione di fenomeni mediante funzioni dal
preciso significato fisico o biologico, è probabilmente quello della
definizione di trends mono-, bi- o pluridimensionali sulla base di
osservazioni regolarmente distribuite nello spazio, possibilmente con
errore nullo.
La disponibilità di dati di questo tipo, tuttavia, rappresenta
l'eccezione, piuttosto che la regola, in campo ecologico. Di solito, infatti,
è molto difficile poter effettuare tutte le misure di cui si vorrebbe poter
disporre ed ancor più difficile, nel caso di grandezze biologiche, è che
esse non siano affette da errore nè distribuite irregolarmente. Una
tecnica di interpolazione stocastica quale il kriging, però, può essere
efficace anche in queste condizioni. Ogni osservazione, infatti, viene
considerata come una singola realizzazione di una variabile aleatoria di
cui sia noto (o ipotizzato) il valore medio in ogni punto, cioè il trend, e le
cui proprietà statistiche siano definite da una funzione detta
variogramma. Sulla base delle osservazioni disponibili vengono poi
stimati tutti i valori desiderati, mentre quelli noti sono ricostruiti
esattamente, a meno che non si sia introdotta nel modello di
interpolazione una stima dell'errore strumentale o di campionamento.
La caratteristica più interessante del kriging, tuttavia, sta nella
possibilità di disporre, per ogni valore ricostruito, di una stima
pag. 45
dell'affidabilità della ricostruzione. Ciò consente, ad esempio, di definire
per quest'ultima un intervallo fiduciale od ancora di individuare le aree
in cui è necessario aumentare la densità dei rilevamenti.
E' necessario, tuttavia, rilevare come anche nell'uso del kriging
esista un rovescio della medaglia. In primo luogo si deve sottolineare la
necessità di disporre di strutture di calcolo alquanto più potenti di quelle
richieste dall'uso di tecniche più convenzionali, soprattutto in funzione
dei non brevi tempi di elaborazione. In secondo luogo va considerato il
fatto che la definizione del modello di interpolazione, contrariamente ad
altre tecniche, non avviene in maniera del tutto univoca: infatti, pur
esistendo dei criteri guida, il risultato è affidato in qualche misura
all'abilità del modellista ed alla sua esperienza nel campo specifico di
applicazione.
6.3. Il kriging: teoria.
Una grandezza da ricostruire su di un'area geografica può essere
considerata, in genere, come una variabile aleatoria di cui è nota una
singola misura od una stima z per un certo numero di punti di
rilevamento. Sull'intera area in esame la grandezza può dunque essere
rappresentata da una funzione aleatoria Z(x), di cui sono noti i valori
osservati z(x) in un insieme di n stazioni. Nonostante il kriging sia una
tecnica nata e sviluppata in un contesto geologico, il concetto di
variabile aleatoria può essere facilmente esteso ad applicazioni di tipo
ecologico ed in particolare al caso delle stime (di abbondanza, di
intensità, di factor-scores, etc.) ottenute mediante campionamento di
un sottoinsieme di nodi (stazioni) di un reticolo sovraimposto all'area
geografica in esame.
La densità di una popolazione, ad esempio, pur non essendo
teoricamente una variabile aleatoria, poiché il numero degli individui in
un qualsiasi istante ed in una qualsiasi area è comunque determinato,
può essere considerata come tale, e quindi descritta nello spazio da
una funzione aleatoria, se si tiene conto del fatto che le misure di
densità si stimano campionando piccole superfici o piccoli volumi,
pag. 46
considerati rappresentativi della stazione in esame. Se il piano ed il
metodo di campionamento sono corretti, dunque, la densità può essere
certamente trattata come una variabile aleatoria.
La funzione Z(x) si può considerare come la somma di un valore
atteso t(x), che descrive un trend, e di uno scarto e(x), il quale è tanto
minore quanto più efficacemente il trend descrive il comportamento
della variabile aleatoria z:
)()()( xextxZ +=
Il trend t(x) è generalmente espresso come una combinazione
lineare di funzioni fi(x)
∑=
+=p
iii xfaaxt
10 )()(
Un caso particolare è quello in cui p=0, cioè il trend è costante.
Una stima z'(x0) della variabile da interpolare nel punto x0 si
ottiene mediante una combinazione lineare di valori noti z(xi) nei punti
xi:
∑=
=′n
iii xzxz
10 )()( λ
Le stime z' sono delle realizzazioni della funzione aleatoria Z'(x),
che quindi si può esprimere come
∑=
=′n
iii xZxZ
10 )()( λ
Il problema consiste, dunque, nel determinare i coefficienti λi. Al
fine di evitare che l'errore
)()()( 000 xZxZxE ′−=
sia sistematico e di ottimizzare la stima si impongono i due vincoli
pag. 47
[ ][ ] min)(
0)(
0
0
→=
xEVarianza
xEMedia
I coefficienti λi si ottengono risolvendo il sistema
∑
∑
∑
=
=
=
=
=
==++
n
jjj
n
jj
n
jiiijj
xtxt
nidxtd
10
1
1021
)()(
1
,...,2,1 )()()(
λ
λ
γµµγλ
dove il primo blocco e l’ultima equazione consentono di soddisfare
rispettivamente il primo ed il secondo dei vincoli appena imposti,
minimizzando la varianza dell'errore ed imponendo a quest'ultimo una
media nulla, mentre la penultima equazione è necessaria per ottenere
coefficienti dimensionalmente indipendenti dalla varianza della funzione
aleatoria Z(x). I moltiplicatori lagrangiani µ1 e µ2 sono relativi ai vincoli
imposti mediante le due ultime equazioni. Nel caso in cui il trend
ipotizzato t(x) sia costante, si elimina dal sistema l’ultima equazione, in
quanto proporzionale alla penultima. Oltre a determinare i coefficienti λ,
la soluzione del sistema consente di stimare la varianza dell'errore di
Z'(x0):
[ ] ∑=
++=n
jjj xtdglxEVar
102100 )()()( µµ
La funzione g(d), che è già comparsa nel sistema la cui soluzione
fornisce i coefficienti λi, è il variogramma della variabile da ricostruire,
cioè è un'espressione della variazione della differenza tra i valori
assunti dalla variabile stessa nei punti xi e xj in funzione della loro
distanza d. Una stima di tale funzione, detta variogramma empirico (o
semi-variogramma, poichè in effetti essa è moltiplicata per ½), si
ottiene sulla base delle osservazioni disponibili:
[ ]∑∑= =
−⋅=n
i
n
jjiji xzxzxxdw
dndg
1 1
2)()(),,()(2
1)(
pag. 48
dove n(d) è il numero delle coppie di punti la cui distanza è d e
w(d,xi,xj) è una funzione che assume valore 1 se la distanza fra xi e xj è
pari a d e valore 0 altrimenti.
Il variogramma empirico, essendo stimato su un numero finito e
spesso limitato di osservazioni (e quindi di distanze), presenta di solito
notevoli irregolarità, oltre a non essere, evidentemente, una funzione
continua della distanza d fra due punti qualsiasi. Poiché ai fini pratici la
funzione g(d) deve essere definita per qualsiasi valore di d, è
necessario che essa sia una funzione continua. Inoltre, poiché g(d) è
una varianza, non deve poter assumere valori negativi.
Si determina, dunque, sulla base del variogramma empirico, un
variogramma teorico che soddisfi tali condizioni. Fra i variogrammi
teorici più flessibili e più largamente impiegati possono essere segnalati
i seguenti:
>+
≤
−+=
−+=
+=
−
dba
dbb
d
b
da
dg
eadg
addg
b
d
b
per
per 22
3)(
1)(
)(
20
3
320
20
20
σ
σ
σ
σ
I parametri a e b vengono stimati mediante una qualsiasi tecnica
di fitting (es.: minimi quadrati) a partire dal variogramma empirico ed in
modo tale da ottenere il miglior adattamento possibile ad esso del
variogramma teorico, soprattutto per bassi valori della d, laddove, cioè,
la stima empirica è effettuata su di un maggior numero di osservazioni.
La varianza locale σ20 può essere assunta con un valore non nullo se
esistono dati relativi alla variabilità intrinseca della grandezza in esame
o su quella legata al campionamento o alla misurazione.
E' importante sottolineare il fatto che i valori dei parametri sono
comunque suscettibili di successivi aggiustamenti, effettuati sulla base
di test di validazione. Tali tests si rendono necessari poiché sia il tipo di
variogramma prescelto, sia la prima stima dei suoi parametri possono
non essere ottimali dal punto di vista della bontà dell'interpolazione: in
pag. 49
altre parole, il primo variogramma ipotizzato rappresenta il punto di
partenza per una serie di aggiustamenti successivi effettuati mediante
tests di validazione. Il ruolo di ciò è tanto più importante quanto più
irregolare è il comportamento della grandezza da ricostruire e quanto
minore è il numero di osservazioni.
I tests di validazione dei variogrammi teorici si effettuano sulle
osservazioni disponibili, di ognuna delle quali viene stimato il valore
sulla base delle rimanenti, in modo da ottenere, per ciascuna di esse,
un errore e(xi):
)()()( iii xzxzxe ′−=
Le condizioni che devono essere soddisfatte per considerare
accettabile dal punto di vista formale un variogramma teorico sono
legate alla distribuzione dell'errore e(xi). In particolare è necessario che
esso abbia media nulla, cioè che non sia sistematico, e che assuma
valori coerenti, in media, in rapporto alla deviazione standard si stimata
sulle rimanenti n-1 osservazioni. Cioè:
∑
∑
=
=
≈
≈
n
i i
i
n
ii
s
xe
n
xen
1
2
1
1)(1
0)(1
In fase di validazione si considera ottimale il variogramma che soddisfa
tali condizioni minimizzando l'errore quadratico medio e che, quindi,
garantisce sia la migliore interpolazione complessiva, sia la più
uniforme distribuzione dell'errore su tutti i punti stimati.
Quanto esposto sin qui rappresenta la base teorica del kriging
come tecnica d'interpolazione. Dal punto di vista operativo, però, essa
può essere applicata tanto globalmente quanto localmente. Nel primo
caso tutte le n osservazioni concorrono a ciascuna stima, mentre nel
secondo vengono considerate solo quelle comprese entro una
circonferenza di raggio dato centrata nel punto da interpolare. Nel caso
del kriging locale è necessario anche, se i punti noti non sono distribuiti
pag. 50
in maniera regolare, definire il numero minimo di punti che devono
essere compresi in tale circonferenza.
Laddove questo numero non sia raggiunto, il raggio viene
aumentato opportunamente. La definizione del raggio e del numero
minimo di punti noti in esso compresi può richiedere ulteriori tests di
validazione.
6.4. Il kriging: note applicative.
Il problema di maggior rilievo nell'applicazione del kriging è senza
dubbio quella della risoluzione del sistema di equazioni lineari, che
richiede, nel caso del kriging globale, l'inversione di una matrice di
dimensioni n x n per ogni punto da stimare.
Questo ostacolo può essere risolto mediante l'uso di un algoritmo
di kriging locale, considerando ai fini dell'interpolazione solo un certo
numero di punti noti, scelti fra i più vicini al punto da stimare. In
particolare, questa soluzione si rivela vantaggiosa, sia dal punto di vista
dei tempi di calcolo, sia da quello della bontà dell'interpolazione,
quando l'andamento del variogramma appare regolare solo per piccole
distanze.
Un aspetto di non trascurabile importanza nell'ambito del kriging,
come di altre tecniche di interpolazione, è la definizione di un sistema di
coordinate per la localizzazione dei punti noti e di quelli stimati. Le
applicazioni presentate qui sono basate su sistemi di coordinate
arbitrarie intere, con origine nell'angolo inferiore sinistro dell'area in
esame. L'interpolazione, in questo caso, è stata effettuata ai nodi di un
reticolo a maglia quadrata, ma è comunque possibile intensificare o
diradare a piacere la densità dei punti da stimare, come pure effettuare
delle stime relative ad un punto qualsiasi.
La presentazione grafica dei risultati può essere fornita sotto
forma di mappe ad isoplete o di proiezioni assonometriche di superfici.
La prima tecnica, che può essere vantaggiosamente integrata dall'uso
del colore, si presta meglio a mappature anche complesse mentre la
pag. 51
seconda può essere utilizzata in funzione della sua migliore resa dal
punto di vista della sintesi descrittiva.
La ricostruzione di valori di densità può fornire, in alcuni casi,
valori negativi: poiché di ogni valore è possibile determinare l'intervallo
fiduciale, una stima negativa è da considerarsi pari ad una densità nulla
con un livello di probabilità uguale a quello necessario a comprendere
lo zero nell'intervallo fiduciale.
Infine, è interessante rilevare come la caratteristica più
interessante di questa tecnica di interpolazione sia proprio la possibilità
di disporre di una stima dell'errore di interpolazione, utile sia per
definire degli intervalli fiduciali intorno ai valori interpolati, sia per
riconoscere le aree dove effettuare nuove osservazioni o dove
riorganizzare il piano di campionamento.
pag. 52
7. Diversità.
7.1. L'indice di Shannon.
Una delle maniere più utilizzate per sintetizzare l'informazione
contenuta nella struttura di una comunità animale o vegetale è senza
dubbio rappresentato dagli indici di diversità. Il più noto fra tutti è quello
di Shannon-Weaver (Shannon, 1948):
∑=
−=p
i
ii
N
n
N
nH
12log
dove p è il numero di specie, ni è il numero di individui che
appartengono alla i-ma specie ed N è il numero totale di individui di
tutte le specie presenti nel campione.
Questa espressione rappresenta la quantità media di
informazione per individuo, secondo un criterio per cui ogni individuo di
una specie, una volta identificato, ha un contenuto di informazione
tanto più rilevante quanto più la specie è rara. Si può facilmente
dimostrare che il massimo valore di H si ottiene quando tutte le specie
hanno la medesima frequenza, mentre il minimo si osserva quando
tutte le specie sono rappresentate da un solo individuo, tranne una a
cui appartengono tutti i rimanenti individui:
)1(log1
log
log
22min
2max
+−+−−=
=
pNN
pNNH
pH
Sulla base di queste misure è possibile definire alcuni indici
derivati da H, che hanno il vantaggio di rapportare il valore di
quest'ultimo al suo valore massimo o all'intervallo di variazione
possibile dati N e p.
Questi indici sono stati definiti in maniera diversa da vari Autori ed
è perciò essenziale associare al loro nome il corretto riferimento. Ad
esempio, per quanto riguarda la evenness (talvolta tradotta come
pag. 53
regolarità o equitabilità), vengono correntemente utilizzate le seguenti
formulazioni:
(1962)Patten
(1966)Pielou
minmax
max
max
HH
HHR
H
HR
−−
=
=
E' interessante sottolineare il fatto che esiste, teoricamente, la
possibilità di stimare l'errore standard di queste misure e, quindi, i loro
intervalli fiduciari (Pielou, 1975), ma questa prassi è assai poco
comune. A questo fine è necessario assumere che il numero di specie
effettivamente presenti in natura possa essere stimato sulla base di
quelle identificate nel campione: tuttavia, tale condizione non è sempre
del tutto verosimile.
7.2. Diagrammi rango-frequenza e modello di Zipf-Mandelbrot.
Poichè lo studio della diversità ha implicazioni di notevole
interesse teorico e pratico, è certamente desiderabile esprimere questa
proprietà in una maniera più articolata ed informativa di quella
consentita da un semplice indice numerico.
La via più immediata per raggiungere questo scopo è quella di
rappresentare la distribuzione degli individui fra le specie in forma
grafica, ad esempio mediante un istogramma. Oltre che alle
distribuzioni empiriche è possibile fare riferimento anche a diversi
modelli teorici (es. log-normale).
Questa soluzione, però, non sempre fornisce dei risultati
realmente utili, soprattutto a causa del fatto che le distribuzioni
empiriche tendono a diventare irregolari e poco informative quando il
numero di specie è piccolo o quando le abbondanze di ciscuna di
specie sono modeste.
pag. 54
Per aggirare questo tipo di difficoltà è però possibile
rappresentare lo stesso tipo di informazione plottando la frequenza di
ciascuna specie contro il relativo rango, meglio se su scala logaritmica.
Il diagramma rango-frequenza che si ottiene in questo modo ha
per costruzione un andamento decrescente in maniera monotona:
tuttavia, è il profilo di tale andamento che sintetizza l'informazione
pertinente la struttura della comunità.
È interessante notare, in particolare, che la forma della curva così
ottenuta esprime precise caratteristiche strutturali dei popolamenti, pur
essendo (teoricamente) invariante, a differenza degli indici di diversità,
rispetto a diverse proprietà del campione analizzato (numero di
individui, numero di specie, ambiente consiederato, etc.).
In particolare, la forma del profilo, soprattutto nella sua parte
iniziale, consenta di inferire le proprietà globali della comunità studiata,
almeno per grandi linee. Un profilo tendenzialmente concavo indica uno
stato di stress (es. da inquinamento) o una condizione estremamente
giovanile di una comunità (es. prime fasi della colonizzazione di un
substrato artificiale), mentre un profilo nettamente convesso è
associato ad una struttura più stabile e matura della comunità, in cui le
interazioni sono più complesse.
Questo tipo di diagramma è stato utilizzato soltanto di recente in
ecologia, ma la sua applicazione in altri campi (sociologia, econometria,
linguistica, etc.) è ben consolidata.
Infatti, è in campo linguistico che è stato sviluppato il modello
teorico di base per le curve rango-frequenza, il quale è noto come
modello di Zipf, dall'Autore che ne ha presentato l'applicazione (Zipf,
1949-1965). La sua formulazione è la seguente:
γ−⋅= rffr 1
dove fr è la frequenza dell'item (della specie, nel nostro caso) di rango r
e γ rappresenta la pendenza della retta che corrisponde al modello in
un sistema log-log.
pag. 55
In tempi più recenti Mandelbrot (1953, 1982), noto per aver
organizzato e divulgato la teoria dei frattali, ha proposto una
formulazione generalizzata del modello di Zipf, che è stata prontamente
adottata anche nel campo dell'ecologia:
γβ −+⋅= )(0 rffr
dove fr è la frequenza relativa dell'item di rango r, β e γ sono parametri
ed f0 è calcolato in modo tale che la somma delle frequenze di tutti gli
items sia pari a 1.
I parametri di questo modello, β e γ, hanno un significato di
notevole interesse in rapporto alla struttura di una comuntià. Il
parametro γ rappresenta la pendenza dell'asintoto obliquo del modello,
mentre il parametro β descrive la deviazione dall'asintoto per gli items
(specie) più frequenti.
Anche prescindendo dalla stima dei parametri del modello di
Mandelbrot, comunque, l'uso dei diagrammi rango-frequenza può
essere molto utile. Ad esempio, si pensi alla possibilità di confrontare i
profili ottenuti per stazioni diverse o per la medesima stazione in
momenti diversi: una sostanziale coerenza fra di essi indica un assetto
omogeneo nello spazio o stabile nel tempo delle comunità studiate,
mentre, al contrario, una variazione nei profili osservati è certamente
indice di eterogeneità/variabilità.
pag. 56
8. Bibliografia.
Benzécri J.P. et al., 1973. L'Analyse des Données. 2 vols, Dunod,
Paris, France.
Cailliez F. & Pagès J.-P., 1976. Introduction à l'analyse des données.
Société de Mathématiques appliquées et de Sciences humaines,
Paris, xxii+616 pp.
Cliff A.D. & Ord J.K., 1973. Spatial autocorrelation. Pion Limited,
London, 178 pp.
Cliff A.D. & Ord J.K., 1981. Spatial processes: models and applications.
Pion Limited, London, 266 pp.
Czekanowski J., 1909. Zur Differentialdiagnose der Neandertalgruppe.
Korrespondenz-Blatt deutsch. Ges. Anthropol. Ethnol. Urgesch.,
40: 44-47.
Davis J.C., 1986. Statistics and data analysis in Geology, 2nd ed., J.
Wiley & Sons, New York, 646 pp.
Dice L.R., 1945. Measures of the amount of ecological association
between species. Ecology, 26: 297-302.
Diday E., 1971. Une nouvelle méthode en classification automatique et
reconnaissance des formes: les nuées dynamiques. Rev. Stat.
appl., 19: 19-35.
Fager E.W. & McGowan J.A., 1963. Zooplankton species groups in the
North Pacific. Science (Wash. D.C.), 140: 453-460.
Field J.G., Green R.H., de L. Andrade F. A., Fresi E., Gros P., McArdle
B.H., Scardi M. & Wartenberg D., 1987. Numerical ecology:
developments for studying the benthos. In: Developments in
Numerical Ecology, Legendre P. & Legendre L. eds., NATO ASI
Series, vol. G14, Springer-Verlag, Berlin Heidelberg: 485-494.
Gabriel K.R. & Sokal R.R., 1969. A new statistical approach to
geographic variation analysis. Syst. Zool., 18: 259-278.
Goodall D.W., 1978. Sample similarity and species correlation. In:
Ordination of plant communities (R.H: Whittaker, Ed.), W. Junk,
The Hague: 99-149.
pag. 57
Gower J.C., 1966. Some distance properties of latent root and vector
methods used in multivariate analysis. Biometrika, 53: 325-338.
Gower J.C., 1967. A comparison of some methods of cluster analysis.
Biometrics, 23: 623-637.
Gower J.C., 1971. A general coefficient of similarity and some of its
properties. Biometrics, 27: 857-871.
Jaccard P., 1900. Contribution au problème de l'immigration post-
glaciaire de la flore alpine. Bull. Soc. vaudoise Sci. nat., 36: 87-
130.
Jaccard P., 1901. Etude comparative de la distribution florale dans une
portion des Alpes et du Jura. Bull. Soc. vaudoise Sci. nat., 37:
547-579.
Jaccard P., 1908. Nouvelles recherches sur la distribution florale. Bull.
Soc. vaudoise Sci. nat., 44: 223-270.
Kulczynski S., 1928. Die Pflanzenassoziationen der Pieninen. Bull. int.
Acad. polonaise Sci. et Lettres. Classe Sci. math. et nat., Ser. B,
suppl. II (1927): 57-203.
Lance G.N. & Williams W.T., 1966. Computer programs for
classification. Proc. ANCCAC Conference, Canberra, May 1966,
Paper 12/3.
Legendre L. & Legendre P., 1983. Numerical ecology. Elsevier,
Amsterdam, 419 pp.
Legendre P. & Legendre V., 1984. Postglacial dispersal of freshwater
fishes in the Québec peninsula. Can. J. Fish. Aquat. Sci., 41:
1781-1802.
Legendre P., 1987. Constrained clustering. In: Developments in
Numerical Ecology, Legendre P. & Legendre L. eds., NATO ASI
Series, vol. G14, Springer-Verlag, Berlin Heidelberg: 289-307
Legendre P., Dallot S. & Legendre L., 1985. Succession of species
within a community: chronological clustering, with applications to
marine and freshwater zooplankton. Am. Nat., 125: 257-288.
pag. 58
Mantel N., 1967. The detection of desease clustering and a generalized
regression approach. Cancer Res., 27: 209-220.
Matheron G., 1969. Le krigeage universel. Cah. Cent. Morphol. Math.,
1: 1-83.
Matheron G., 1970. La théorie des variables regionalisées et ses
applications. Cah. Cent. Morphol. Math., 5: 1-212.
Moran P.A.P., 1950. Notes on continuous stochastic phenomena.
Biometrika, 37: 17-23.
Motyka J., 1947. O zadaniach i metodach badan geobotanicznych. Sur
le buts et le méthodes des recherches géobotaniques. Ann. Univ.
Mariae Curie-Sklodowska Sect. C, Suppl. I, viii+168 pp.
Orloci L., 1967. An agglomerative method for classification of plant
communities. J. Ecol., 55: 193-205.
Orloci L., 1978. Multivariate analysis in vegetation research. 2nd ed.,
W. Junk, The Hague, ix+451 pp.
Patten B.C., 1962. Species diversity in net phytoplantkon of Raritan
Bay. J. mar. Res., 20:57-75.
Pielou E.C., 1966. The measurement of diversity in different types of
biological collections. J. theor. Biol., 13: 131-144.
Pielou E.C., 1975. Ecological diversity. John Wiley & Sons, New York,
viii+165 pp.
Pielou E.C., 1984. The interpretation of ecological data. John Wiley &
Sons, New York, viii+263 pp.
Reyssac J. & Roux M., 1972. Communautés planctoniques dans les
eaux de Côte d'Ivoire. Groupes d'espèces associeées. Mar. Biol.
(Berl.), 13: 14-33.
Rogers D.J. & Tanimoto T.T. - 1960. A computer program for
classifying plants. Science (Wash. D.C.), 132: 1115-1118.
Rohlf F.J., 1963. Classification of Aedes by numerical taxonomic
methods (Diptera: Culicidae). Ann. entomol. Soc. Am., 56: 798-
804.
pag. 59
Shannon C.E., 1948. A mathematical theory of communications. Bell
System technical Journal, 27: 379-423, 623-656.
Sneath P.H.A., 1966. A comparison of different clustering methods as
applied to randomly-spaced points. Classification Soc: Bull., 1: 2-
18.
Sneath P.H.A. & Sokal R.R., 1973. Numerical taxonomy - The
principles and practice of numerical classification. W.H. Freeman,
San Francisco, xv+573 pp.
Sokal R.R. & Michener C.D., 1958. A statistical method for evaluating
systematic relationships. Univ. Kansas Sci. Bull., 38: 1409-1438.
Sokal R.R. & Sneath P.H.A., 1963. Principles of numerical taxonomy.
W.H. Freeman, San Francisco, xvi+359 pp.
Sørensen T., 1948. A method of establishing groups of equal amplitude
in plant sociology based on similarity of species content and its
application to analysis of the vegetation on Danish commons. Biol.
Skr., 5: 1-34.