Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali •...
Transcript of Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali •...
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 –Perugia
Corso di Laurea di Scienze biomolecolari e ambientali
Laurea magistrale
Corso di ANALISI DEI SISTEMI ECOLOGICI Sito del corso: www.dcbb.unipg.it/cdlscienzebiomol
Alessandro Ludovisi
Sito docente: www.dcbb.unipg.it/alessandro.ludovisi
Tel. 075 585 5712 e-mail address: [email protected]
TIPOLOGIE DI DATI ECOLOGICI
CAMPIONAMENTO E ANALISI
1
LE VARIABILI NOMINALI
CONTINUE DISCRETE NOMINALI ORDINALI
NUMERICHE CATEGORIALI
VARIABILI
I DATI ECOLOGICI
Con il termine DATI si intende l’insieme delle informazioni disponibili sulle VARIABILI utili alla
descrizione di un sistema
Nel caso dei sistemi ecologici, i DATI sono
realisticamente raccolti tramite CAMPIONAMENTO
(ovvero tramite esame di frazioni del sistema
complessivo), per cui consentono una conoscenza
parziale, più o meno rappresentativa, del sistema
oggetto di indagine.
Fitoplancton Trasimeno (conteggi)Staz.1A Staz.1B Staz.1C Staz.2A Staz.2B Staz.2C Staz.3A Staz.3B Staz.3C Staz.4A
data 13/07/1991 13/07/1991 13/07/1991 12/07/1991 12/07/1991 12/07/1991 13/07/1991 13/07/1991 13/07/1991 13/07/1991
ora 11.10 11.15 11.30 16.10 16.20 16.35 14.20 14.30 14.35 16.00
Anabaena sp 0 5 3 0 59 38 0 0 10 0
Ankistrodesmus falcatus 13 2 7 1 0 0 0 0 1 0
Amphora ovalis 0 0 0 0 0 0 0 0 0 0
Amphora commutata 0 0 0 0 0 0 0 0 0 0
Caloneis shumanniana 0 0 0 0 0 0 0 0 0 0
Ceratium hirundinella 0 1 0 0 0 0 1 1 1 1
Chlamidomonas sp 58 50 107 81 133 75 34 88 91 132
I DATI sono usualmente organizzati in forma matriciale, che consente una loro visualizzazione
complessiva e li predispone ad elaborazione grafiche e numeriche
Una descrizione esauriente di un contesto ecologico implica tipicamente la conoscenza di dati
relativa a un numero elevato di VARIABILI che possono essere di tipologie «statistiche«
diverse:
VARIABILI E SCALE DI MISURA
• VARIABILE - Caratteristica suscettibile di osservazione e misurazione, che può assumere
almeno due diversi valori
• SCALA DI MISURA - Procedura (misura o giudizio) utilizzata per ricavare i valori assunti dalla
variabile
I DATI ECOLOGICI
La scala di misura definisce il tipo di variabile:
• VARIABILI CATEGORIALI
• Nominali
• Ordinali
• VARIABILI NUMERICHE
• Discrete
• Continue
CONTINUE DISCRETE NOMINALI ORDINALI
NUMERICHE CATEGORIALI
VARIABILI
TIPOLOGIE DI VARIABILI
Variabili che descrivono
un tratto dell’oggetto di
indagine tramite
categorie che non sono
legate tra loro da
rapporti di ordine
gerarchico (> <)
Variabili che descrivono
un tratto dell’oggetto di
indagine tramite
categorie che sono
legate tra loro da
rapporti di ordine
gerarchico (> <)
Variabili che descrivono
un tratto dell’oggetto di
indagine tramite valori
numerici separati da
intervalli che non
possono essere
frazionati (conteggi)
Variabili che descrivono
un tratto dell’oggetto di
indagine tramite valori
numerici che possono
essere frazionati senza
restrizione (almeno in
principio)
Tutte le tipologie di variabili possono essere, qualora si disponga di casistica adeguata, «ridotte» e trattate
come variabili categoriali, mentre l’inverso non è in generale possibile.
In altre parole, il «downgrading» di una variabile è sempre possibile, pena però la perdita di informazione.
D’altra parte, alcune variabili sono intrinsecamente nominali, o opportunamente espresse su scala
ordinale, per limiti di misura o opportunità di classificazione
VARIABILI NOMINALI
La scala di misura è costituita da categorie che descrivono lo
stato dell’oggetto di indagine o suoi tratti, classificati tramite
procedimento oggettivo o soggettivo «esperto» .
Tipicamente usato per tratti biologici (e.g. sesso, stadio di sviluppo, colore della livrea, etc.) ed
etologici. In termini ecologici, associabile a dati di presenza(/assenza) - P/A.
Se la variabile nominale può assumere solo 2 categorie, si dice VARIABILE DICOTOMICA O BINARIA.
I numeri eventualmente assegnati alla scala non hanno un significato
di misura ma rappresentano codici numerici.
Tali variabili possono essere trattate con semplici operazioni logico-
matematiche (uguale o diverso), analisi e test di omogeneità su
tabelle di frequenza, calcolo di indici, nonché usate come variabili
categoriche (codici) in analisi statistiche di raggruppamento.
Presenza specie invertebrati
T axa Acquatina Isola e Lago di Varano Laghi di Alimini Lago de i Monaci
Aaptos aaptos 0 0 0 0
Abarenicola claparedi 0 0 0 0
Abra alba 1 0 0 0
Abra nitida 0 1 0 0
Abra prismatica 0 0 0 0
Abra renieri 0 0 0 0
Abra segmentum 0 1 1 1
Abra tenuis 0 0 0 0
Acanthocardia aculeata 0 0 0 0
Acanthocardia echinata 0 0 0 0
Acanthocardia paucicostata 0 0 0 0
Acanthocardia tuberculata 1 0 0 0
Acanthochitona crinita 0 0 0 0
Acanthochitona fascicularis 0 0 0 0
Acarnus tortilis 0 0 0 0
Acartia (Acanthacartia) italica 1 0 0 0
Acartia (Acanthacartia) tonsa 0 0 0 0
Acartia (Acartiura) clausi 1 0 0 0
Evento (categoria) E1 E2 ... Ek
Frequenze osservate o1 o2 ... ok
VARIABILI NOMINALI: TABELLE DI FREQUENZA
Le tabelle di frequenza sono tabelle in cui si riporta il numero di osservazioni per ognuna delle k categorie o
eventi possibili (incluse frequenze nulle per categorie possibili ma non osservate)
Le tabelle di frequenza rappresentano di per se’ una descrizione del fenomeno studiato e possono essere
immediatamente rese in forma grafica
Taglia (um)
N. Individui
0
25
50
75
100
125
150
175
200
225
250
275
300
325
350
375
400
425
<= 100150
200250
300350
400450
500550
600650
700750
800850
9009501000
10501100
11501200
12501300
13501400
14501500
15501600
16501700
1750> 1750
Nauplii
Copepoditi I-V
Adulti
Distribuzione per classi di taglia e fasi di sviluppo di Cyclops abyssorum in campioni prelevati nel lago di Piediluco
VARIABILI NOMINALI: TABELLE DI FREQUENZA E TEST ASSOCIATI
Uno degli usi più rilevanti delle tabelle di frequenza è rappresentato dalla valutazione di aderenza della
distribuzione delle frequenze osservate con una attesa.
Evento (categoria) E1 E2 ... Ek
Frequenze osservate o1 o2 ... ok
Frequenze attese e1 e2 ... ek
Le frequenze attese possono essere stabilite:
• a priori, ovvero costruendo una distribuzione rispetto alla quale si vuole
valutare l’aderenza del campione
• in base alla conoscenza della popolazione statistica o del fenomeno in esame
• costruendo una distribuzione attesa cumulata in base alle frequenze
osservate su n campioni
I test di aderenza (ipotesi di omogeneità) più potenti e comunemente usati sono il
test del chi-quadro (test di bontà dell’adattamento e test di indipendenza) e il test
di Fisher.
A causa dei loro limiti di applicabilità, il test del chi-quadro e il test di Fisher
trovano applicazione alternative, rispettivamente in matrici dense (frequenze
attese >5) e matrici sparse.
> Training 1
> STAT 1 > PAST
IL TEST DEL c2 (CHI-QUADRO) - BONTÀ DI ADATTAMENTO Le frequenze attese sono stimate in base alla legge nota o ipotizzata, ripartendo il numero totale di
osservazioni nelle k categorie
Lanci di monetaCategoria (esito del lancio) Osservato Atteso pi (%) (%) Chi-quadro valori
TESTA 20 22.5 0.5 44.4 50.0 0.28
CROCE 25 22.5 0.5 55.6 50.0 0.28
45 45 1 100 100 0.56
Gradi di libertà 1
Chi quadro - livello di confidenza per Ho 0.4561
Chi quadro - probabilità sinistra 0.5439
Chi quadro - probabilità destra 0.4561
1.0000IL TEST DEL c2 (CHI-QUADRO) - TEST DI INDIPENDENZA Le frequenze attese sono stimate in base alla distribuzione cumulata dei campioni esaminati
Lanci di moneta
Categoria (esito del lancio)Osservato
Campione 1
Osservato
Campione 2
Totali
marginali
Atteso
Campione 1
Atteso
Campione 2
Chi-quadro
valori
TESTA 20 30 50 16.4 33.6 1.21
CROCE 15 42 57 18.6 38.4 1.06
35 72 107 35 72.0 2.27
Gradi di libertà 1
Chi quadro - livello di confidenza per Ho 0.1322
> Training 1 > STAT 1 > PAST
y = 5x0.4
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
80.0
90.0
0 200 400 600 800 1000 1200
S
A
0.1 < z < 0.4
Relazione tra numero di specie (S) e
area campionata (A) -SAR zACS
zACS log
N.B.: LA CURVA NON HA
ANDAMENTO ASINTOTICO!!
VARIABILI NOMINALI: I DATI DI PRESENZA (/ASSENZA)
- STIMA DELLA RICCHEZZA DI SPECIE SULLA BASE DI CAMPIONI
y = 5x0.4
1.0
10.0
100.0
1 10 100 1000
S
A
SCALA BILOGARITMICA L’area campionata può essere un’area in senso
stretto o una variabile correlata (n. campioni,
volume, etc.)
> Training 1
> PAST
Species-area curves of tree species in Japan
AY: Aya Research Site. An evergreen broad-leaved forest in southwestern Japan
OG: Ogawa Research Site. A deciduous broad-leaved forest in central Japan
KR: Kanumazawa Riparian Research Site. A deciduous broad-leaved forest in
KU: An upland deciduous broad-leaved forest neighbouring KR (430-450m a.s.l.).
SN: Senju Research Site. A deciduous broad-leaved forest in central Japan
SPECIES-AREA RELATIONSHIP (SAR)
Number of different plant species found as habitat area is scaled up
from a portion of one county in Great Britain, to the whole island.
Both axes of the plot are on logarithmic scales, and on these axes a
straight line is the signature of power law scaling.
CURVE DI ACCUMULAZIONE E RAREFAZIONE DI SPECIE – Le curve di accumulazione si ottengono cumulando il numero di specie trovate in n
campioni in sequenza. Esistono perciò tante curve di accumulazione quante sono le sequenze possibili di campioni
Numero di campioni o area campionata N
. specie o
sservate
Stima tendenziale della ricchezza di specie
Curve di accumulazione
Curva di rarefazione (media di tutte le curve di accumulazione)
Inconvenienti:
• elevato sforzo sperimentale
• non raggiunge l’asintoto (ovvero non consente una stima conclusiva sulla ricchezza di specie ) se l’ambiente è eterogeneo
VARIABILI NOMINALI: I DATI DI PRESENZA (/ASSENZA)
STIMA DELLA RICCHEZZA DI SPECIE SULLA BASE DI CAMPIONI: CURVE DI ACCUMULAZIONE DI SPECIE
STIMATORI NON-PARAMETRICI
Maglia 1 km
CASE STUDY: RICCHEZZA DI SPECIE DEL FITOPLANCTON NEL LAGO TRASIMENO
- DISEGNO CAMPIONARIO:
- RETICOLO UTM DI MAGLIA 1KM (120 PARCELLE)
- ESTRAZIONE CASUALE DI 12 PARCELLE
- STAZIONI POSTE AL CENTRO DELLE PARCELLE
- 3 REPLICHE PER OGNI STAZIONE POSTE NEI VERTICI
DI UN TRIANGOLO DI 50M DI LATO 4 8 12 16 20 24 28 32 36
Samples
10
15
20
25
30
35
40
45
50
55
Taxa
(95%
con
fiden
ce)
Curva di rarefazione
0
10
20
30
40
50
60
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
Curve di accumulazione (etc.)
> Training 2 > PAST
1 10 10010
100
1000
Total Invertebrates
Anellida
Artropoda
Mollusca
Other Invertebrates
No
. sp
ecie
s
No. pooled samples
a
CURVE DI RAREFAZIONE PER ALCUNI GRUPPI DI INVERTEBRATI CENSITI IN 18 LAGUNE ITALIANE INCLUSE NEL DATABASE LIFEWATCH. LE
CURVE DI REGRESSIONE, BASATE SU UN MODELLO ESPONENZIALE NEGATIVO ,SONO ESTRAPOLATE FINO AL NUMERO APPROSSIMATIVO DI
LAGUNE ITALIANE (250)
Modello esponenziale negativo:
(Holdridge et al., 1971)
S(n)=S*(1-e-Cn)
n è il numero di campioni cumulati
S* è il numero di specie all’asintoto
C il tasso di accumulazione delle
specie
Total Invertebrates Annelida Arthropoda Mollusca Other Invertebrates
Total Native
Alien Total Native
Alien Total Native
Alien Total Native
Alien Total Native
Alien
S* 1566 ±36.0
1503 ±34.4
58,7 ±1.7
258.7 ±5.5
245.6 ±5.0
13.4 ±0.4
552.2 ±18.3
531.8 ±18.1
21.3 ±0.4
461.7 ±8.7
452.4 ±8.6
9.5 ±0.1
314.7 ±5.3
294.0 ±4.9
26.9 ±0.7
C 0.07 ±0.00
2
0.07 ±0.00
3
0.08 ±0.00
3
0.09 ±0.00
4
0.09 ±0.00
3
0.11 ±0.00
7
0.06 ±0.00
3
0.06 ±0.00
3
0.07 ±0.00
2
0.08 ±0.00
2
0.08 ±0.00
2
0.10 ±0.00
2
0.08 ±0.00
2
0.08 ±0.00
2
0.03 ±0.00
1
Intercept (n=1)
109.9 ±27.6
1398 ± 26.2
4.6 ± 1.4
22.7 ± 6.5
21.4 ± 5.8
1.4 ± 0.7
31.7 ± 9.6
30.1 ± 9.3
1.5 ± 0.3
34.0 ± 7.3
33.1 ± 7.2
0.87 ± 0.2
22.8 ± 3.9
21.9 ± 3.7
0.9 ± 0.1
R square
0.998 0.998 0,998 0.997 0.998 0,989 0.998 0.998 0,998 0.999 0.999 0,999 0.999 0.999 0,999
La stima del numero di specie totale è basato sulla frequenza delle specie rare
Chao 2:
2
2
1
2Q
QSS obs
m
mQSS obs
11
Jack-knife 1:
Sobs
k
mkobs pSS
1
)1(Bootstrap:
Inconvenienti:
• sovrastima della ricchezza di specie rispetto alle curve di accumulazione.
L’incertezza associata alla stima può essere stimata tramite tecniche di ricampionamento
STIMA DELLA RICCHEZZA DI SPECIE SULLA BASE DI CAMPIONI: STIMATORI NON-PARAMETRICI
1mm
2mQ
m
3m2QSS
2
21obs
Jack-knife 2:
Sobs= numero di specie osservate
Q1= n. di specie rinvenute in un singolo campione
Q2 = n. di specie rinvenute in due campioni
m = n. totale di campioni
pk= frazione di campioni contenenti la specie k
Jack -knife e bootstrap sono tecniche di
ricampionamento con le quali si amplia il dataset
originario per approssimare la distribuzione
campionaria di una statistica, e quindi ricavare i
parametri di distribuzione (media, varianza, etc.)
> Training 2 > PAST
STIMA DELLA RICCHEZZA DI SPECIE SULLA BASE DI CAMPIONI: STIMATORI NON-PARAMETRICI
Jack -knife e Bootstrap sono tecniche di ricampionamento con le quali si amplia il dataset originario
per approssimare la distribuzione campionaria di una statistica, e quindi ricavare i parametri di
distribuzione (media, varianza, etc.).
Usato in particolare nei casi in cui non è nota o teorizzata la distribuzione statistica dei dati in esame
La stima Jackknife di un parametro di distribuzione di una popolazione (media,
varianza, etc.) si ottiene calcolando il parametro in n sottocampioni ottenuti
rimuovendo uno dei singoli dati alla volta:
Dati originari: X = x1, x2, …, x10
Sottocampioni: X1* = x2, x3 ,..., x10 etc…
La stima bootstrap di un parametro di distribuzione di una popolazione (media,
varianza, etc.) si ottiene calcolando il parametro in un numero (elevato) di
campioni ottenuti ricampionando con sostituzione il campione originario:
Dati originari: X = x1, x2, x3 , x4 , x5 , x6 , x7 , x8 , x9 , x10
Pseudo -Campioni: X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9
etc… > PAST
Correzione della ricchezza di specie basata sulla numerosità campionaria
Data la dipendenza della ricchezza di specie dall’ampiezza del campione, la necessità di «normalizzare» la ricchezza di
specie ha portato alla definizione di indici corretti per la numerosità campionaria (n), intesa come il numero di individui
conteggiati:
)nln(
1SDMg
Indice di ricchezza di Margalef (1968)
Indice di ricchezza di Menhinick (1964) n
SDMe
Si tratta di indici «empirici» che tuttavia hanno il pregio di rendere comparabili ricchezze di specie
rinvenute in campioni diversi tra loro in termini di numerosità campionaria.
N.B.: il calcolo trasforma la ricchezza di specie in un indice di ricchezza, che è più paragonabile
agli indici di diversità che alla ricchezza di specie stimata
0 < DMg, DMe <∞
> Training 2 > PAST > ECO AN 3
Il coefficiente phi (rphi o f) è una misura statistica non parametrica di correlazione tra due variabili nominali
dicotomiche, basato sulla statistica chi-quadro per tabelle di contingenza 2x2.
Per una variabile dicotomica generica 0/1, la tabella è:
dove gli nii sono le frequenze osservate per coppie di valori uguali
(0,0) (1,1) o diversi (0,1) (1,0) e le nie ni sono le frequenze
marginali .
Intuitivamente, una correlazione è più elevata quanto più elevate
sono le frequenze lungo una delle diagonali (e basse nell’altra):
Diagonale correlazione positiva
Diagonale correlazione negativa
Il coefficiente varia tra [-1; +1] con il valore nullo corrispondente ad assenza di correlazione.
La sua distribuzione è legata a quella del chi-quadro secondo f2=c2/n e la significatività in termini di
correlazione è immediatamente restituita dall’applicazione del test chi-quadro alla tabella di contingenza.
CORRELAZIONE TRA VARIABILI CATEGORIALI NOMINALI – IL COEFFICIENTE PHI
0101
01100011
nnnn
nnnn
f
X = 1 Y = 0 total
X = 1 n11 n10 n1
Y = 0 n01 n00 n0
total n1 n
0 n
Il coefficiente phi assume valori coincidenti con il coefficiente di correlazione lineare di Pearson (vedi) . Tuttavia, la statistica di
riferimento per la significatività è diversa , per cui il test di significatività non dà necessariamente lo stesso responso.
> STAT 3
CORRELAZIONE TRA VARIABILI CATEGORIALI NOMINALI (P/A) – CASE STUDY FITOPLANCTON LAGO TRASIMENO Closterium sp Cryptomonas erosa
1 1
1 1
1 1
0 1
0 1
1 0
0 1
1 1
1 0
1 0
1 0
1 0
0 1
1 0
0 1
1 0
0 1
0 1
0 1
1 1
0 1
0 1
1 1
1 1
0 1
0 1
0 1
0 1
1 0
0 1
0 1
0 1
0 1
1 1
1 1
0 1
1 1
1 1
1 1
Osservato X = 1 Y = 0 to tal Atteso X = 1 Y = 0 to tal
X = 1 12 19 31 X = 1 15.9 15.1 31
Y = 0 8 0 8 Y = 0 4.1 3.9 8
to tal 20 19 39 to tal 20 19 39
Correlazione P/A
Coefficiente r phi -0.495
p (chi-quadro) 0.0020
p (Fisher) 0.0033
La correlazione è significativamente negativa, il che indica che ognuna delle due specie tende ad
essere più frequentemente presente ove l’altra è assente .
Tuttavia, la compresenza è frequente (12), mentre la contemporanea assenza è rara (0), il che
suggerisce che tendono a occupare habitat analoghi.
Questo pattern può essere indicativo di elevata competizione tra le due specie , che porta
frequentemente all’esclusione competitiva
Closterium
Cryptomonas
> Training 2
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA/ASSENZA (DETTI ANCHE DATI DICOTOMICI O BINARI)
La diversità tra campioni o comunità a confronto può essere espressa tramite :
•Indici o coefficienti di similarità: valori compresi tra 0 (completa dissimilarità) e 1 (completa
similarità)
•Misure di distanza: valori compresi tra 0 (identità) e ∞ (completa dissimilarità)
Gli indici o coefficienti di similarità presentano il vantaggio di consentire un giudizio immediato
sulla somiglianza tra due campioni, dal momento che l’intervallo di variabilità dell’indice è noto
Misure di distanza:
La b-diversità di Whittaker (1968): 1
bW
: numero di specie totali in P e Q
: numero di specie medio in P e Q
0 bw ∞
Esempi:
Indici di similarità:
QPPQ
PQJ
*S*SS
SC
Indice di Jaccard (1908) SPQ : numero di specie comuni in P e Q
S*P , S*Q : numero di specie presenti esclusivamente in
P o Q rispettivamente 0 CJ 1
P 1 0 0 0 1 1 1 1 1 0 0 1 1 0 0 0 …
Q 1 0 0 0 0 1 0 1 1 0 0 1 1 0 0 0 …
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – INDICI DI SIMILARITÀ
Per calcolare gli indici di similarità binari tra due campioni o comunità P e Q, è utile costruire
delle tabelle 2x2, che permettono di visualizzare il numero di specie condivise e non
Comunità o campione P
N. Specie presenti N. Specie assenti
Comunità o campione Q N. Specie presenti SPQ S*Q
N. Specie assenti S*P SN
SPQ : numero di specie comuni alle comunità P e Q
S*P, S*Q : numero di specie presenti esclusivamente nella comunità P o Q rispettivamente
SN : numero di specie non osservate in P e Q
N.B. il numero di specie osservate nelle due comunità o campioni (SP e SQ ) non compare nella tabella
Considerare il numero di specie non osservate nei campioni (SN ) può
apparire astruso.
Tuttavia, è significativo dal momento che specie non osservate non hanno in
principio una probabilità nulla di essere presenti.
SN può diventare particolarmente significativo quando si confrontino campioni
provenienti da una comunità supposta omogenea.
P 1 0 0 0 1 1 1 1 1 0 0 1 1 0 0 0 …
Q 1 0 0 0 0 1 0 1 1 0 0 1 1 0 0 0 …
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – INDICI O COEFFICIENTI DI SIMILARITÀ
QPPQ
PQJ
*S*SS
SC
Indice di Jaccard
(1908)
QP
PQS
SS
S2C
Indice di Sorensen (1945)
o di Dice (1948)
0 CJ, CS ,CSM 1
NQPPQ
NPQSM
S*S*SS
SSC
Simple Matching
coefficient
SPQ : numero di specie in P e Q
S*P , S*Q : numero di specie presenti
esclusivamente in P o Q rispettivamente
SN : numero di specie non osservate in P e Q
SP e SQ numero di specie osservate in P o Q
Indici di similarità specificamente definiti per dati di presenza di specie sono stati proposti
a partire dal l’inizio del ‘900. Ad oggi ne esistono più di una ventina.
Tra i più diffusamente usati:
P 1 0 0 0 1 1 1 1 1 0 0 1 1 0 0 0 …
Q 1 0 0 0 0 1 0 1 1 0 0 1 1 0 0 0 …
CJ e CSM rappresentano semplicemente la frazione di specie sovrapposte sull’insieme di specie
rinvenute in P e Q (sono identici per SN =0). Rispetto agli altri, CS enfatizza la sovrapposizione
di specie tra P e Q > Training 2 > PAST
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – INDICI O COEFFICIENTI DI SIMILARITÀ
Una simulazione effettuata generando comunità
distribuite secondo una serie logaritmica ha
mostrato che il massimo valore ottenuto da
diversi indici binari varia al variare delle
dimensione del campione (200-500-1000-5000
nel grafico).
Proprietà desiderabili di misura di similarità o dissimilarità (Wolda, 1981):
• Indipendenza dalla dimensione del campione
• Indipendenza dal numero di specie
La ragione ultima di questa distorsione risiede
nell’effetto delle specie “rare”, la cui presenza è
for temente influenzata dalla dimensione del
campione.
Questo effetto rende particolarmente critico l’impiego di indici binari per campioni poco
rappresentativi, ovvero con specie “rare” numerose.
Questo inconveniente può essere mitigato utilizzando informazioni derivanti dalla
distribuzione di abbondanza delle specie (Chao, 1986)
500 200
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – INDICI O COEFFICIENTI DI SIMILARITÀ
> PAST
N.B.: I DATI DEVONO ESSERE
ORGANIZZATI IN MODO CHE LE
SPECIE SIANO RIPORTATE NELLE
COLONNE E I CAMPIONI NELLE
RIGHE
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – MISURE DI DISTANZA
0 bW, bC, bI, ∞
Le misure di distanza sono spesso inquadrate come misure di beta-diversità, ovvero
diversità tra campioni o comunità poste lungo un gradiente ambientale (transetto)
Tra i più diffusamente usati:
La b-diversità di Whittaker (1968): 1
bW
: numero di specie totali in P e Q
: numero di specie medio in P e Q
1
2SS
*S*SS
QP
QPPQWb
ei : numero di campioni in cui la specie i è presente lungo il transetto ; j : numero di specie nel campione j T = ei = j
Routledge (1977):
jjj
iiiI log
T
1eloge
T
1Tlog b
Cody(1975): 2
)H(l)H(gc
b
g(H) : numero «gained» tra P e Q
l(H) : numero «lost» tra P e Q
> Training 2 > PAST
- : DIVERSITY IN A GIVEN HABITAT OR COMMUNITY
- : DIVERSITY AMONG LANDSCAPES
- b: DIVERSITY AMONG HABITATS OR COMMUNITIES IN A
GIVEN LANDSCAPE
- : TOTAL DIVERSITY IN A GIVEN LANDSCAPE
- : TOTAL DIVERSITY IN A REGION
INVENTORY DIVERSITY (WHITTAKER,1960)
- POINT: DIVERSITY IN A SINGLE SAMPLE
- PATTERN: DIVERSITY AMONG SAMPLES COLLECTED IN A
GIVEN COMMUNITY OR HABITAT
- AND SO ON….
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – MISURE DI DISTANZA
> PAST
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – MISURE DI DISTANZA
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – QUALE MISURA USARE???
La maggior parte delle misure o indici di similarità sono derivate
in maniera empirica (ovvero senza una teoria di base) con
l’intento di enfatizzare aspetti specifici di diversità tra campioni: ?
• Relazione tra ricchezza di specie in un insieme di campioni e in singoli campioni (Whittaker,
Harrison, etc.)
• Perdita o guadagno di specie (Cody, Wilson-Schmida, etc.)
• Sovrapposizione di specie (Jaccard, Sorensen, etc.)
PERTANTO, LA SCELTA DELLA MISURA DIPENDE STRETTAMENTE DALL’ASPETTO CHE SI VUOLE INDAGARE O
ENFATIZZARE
IMMEDIATEZZA E NON AMBIGUITÀ DI INTERPRETAZIONE SONO REQUISITI DA PRIVILEGIARE
D’ALTRA PARTE, LE MISURE POSSONO ESSERE USATE IN MODO ESPLORATIVO, OVVERO PROVATE PER VEDERE
QUALI ASPETTI EMERGONO COME PIÙ SIGNIFICATI DALL’APPLICAZIONE DI VARIE MISURE AI CAMPIONI IN ESAME!
(TRY AND SEE!!)
SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – ANALISI DI RAGGRUPPAMENTO
Quando si dispone di un numero elevato di campioni, può essere di interesse valutare in modo
sinottico la similarità tra campioni, ovvero cercare pattern di similarità. Spesso la matrice di similarità
non consente immediata interpretazione, soprattutto se i campioni sono numerosi.
NON ESISTE UN UNICO, NÉ UN PIÙ OGGETTIVO, NÉ UN MIGLIOR CRITERIO DI RAGGRUPPAMENTO.
COME NON ESISTE UN’UNICA O MIGLIORE MISURA DI SIMILARITÀ.
I DATI MULTIVARIATI CONTEMPLANO PROSPETTIVE DIVERSE E LA SCELTA DEL METODO PIÙ ADEGUATO E
SCIENTIFICAMENTE VALIDO DIPENDE DALLA PROSPETTIVA!!
Staz.1A Staz.1B Staz.1C Staz.2A Staz.2B Staz.2C Staz.3A …
Staz.1A 0 0.2973 0.2973 0.33333 0.36842 0.37143 0.41935
Staz.1B 0.2973 0 0.23529 0.39394 0.31429 0.3125 0.35714
Staz.1C 0.2973 0.23529 0 0.33333 0.37143 0.375 0.42857
Staz.2A 0.33333 0.39394 0.33333 0 0.35294 0.35484 0.25926
Staz.2B 0.36842 0.31429 0.37143 0.35294 0 0.27273 0.37931
Staz.2C 0.37143 0.3125 0.375 0.35484 0.27273 0 0.38462
Staz.3A 0.41935 0.35714 0.42857 0.25926 0.37931 0.38462 0
…
L’analisi di raggruppamento (cluster analysis)
è una metodologia che consente di classificare
e raggruppare i campioni (tipicamente di dati
multivariati) in base ad una misura di similarità
e ad un criterio di raggruppamento
La misura di similarità è la misura usata per costruire la matrice di similarità
Il criterio di raggruppamento è un algoritmo che classifica i campioni in base alla matrice di
similarità, secondo una procedura definita
>STAT 2
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)
> PAST
N.B.: I DATI DEVONO ESSERE ORGANIZZATI IN MODO CHE LE
SPECIE SIANO RIPORTATE NELLE COLONNE E I CAMPIONI
NELLE RIGHE
Sono disponibili diversi algoritmi di clustering , implementati con le
misure di similarità utilizzate da PAST. E’ possibile anche avviare una
procedura di ricampionamento (Bootstrapping), utile a stimare
l’affidabilità di ogni cluster individuato
>STAT 2
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO
> Training 2 > PAST
Step
1
2 3
I numeri in
corrispondenza delle
ramificazioni
indiicano la
ricorrenza (e quindii
la «significatività» )
del cluster
identificato, ottenuto
in seguito al
ricampionamento
(Bootstrapping)
I raggruppamenti
«minimi» (tra campioni)
si realizzano a similarità
0.7-0.8, che
rappresentano i valori
massimi tra campioni
La maggior parte dei
clusters ha un livello di
similarità superiore a
0.6 (quindi appena
inferiore a quello tra i
campioni più simili)
Emergono molto diversi
dal pool complessivo i
campioni 5A, 6C, 5B, e
la Staz 12
Look a
t
th
e s
cale
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO
Step
1 2
3
> Training 2 > PAST
I numeri in
corrispondenza delle
ramificazioni
indiicano la
ricorrenza (e quindii
la «significatività» )
del cluster
identificato, ottenuto
in seguito al
ricampionamento
(Bootstrapping)
Rispetto al Single Linkage,
le similarità (medie ) tra
clusters sono inferiori.
Look at the scale!
Rispetto al Single
Linkage, UPMGA
individua clusters più
definiti , ma tuttavia
costituiti da campioni
provenienti da stazioni
spazialmente distanti
Emergono molto diversi
dagli altri i clusters
formati dalla Staz. 12,
dal campione 5A e da
parte della Staz. 10
Look a
t
th
e s
cale
ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO
> Training 2 > PAST
In base all’analisi di raggruppamento gerarchico, emergono due raggruppamenti principali (e non singolari, ovvero non composti
da campioni singoli) conservati in entrambi i metodi di clustering gerarchico: un cluster ristretto formato dalla Staz.12 ed uno molto
ampio formato da quasi tutti gli altri campioni
1 km
Tramite algoritmo K-means si sarebbero poi potute
verificare le seguenti ipotesi:
1) Se i campioni rispettano un raggruppamento per
stazione
2) Se i campioni rispettano il raggruppamento
individuato tramite analisi gerarchica
Tuttavia, questa metodologia, basata sulla varianza, è
propriamente usata solo nel caso di dati numerici continui,
per cui il suo uso è sconsigliabile con dati P/A.
Tale raggruppamento ha significato ecologico in quanto la
Stazione 12 è collocata in un’area in cui le condizioni
ambientali sono diverse da quelle del corpo lacustre.
L’area è caratterizzata da presenza massiccia di macrofite,
minore circolazione dell’acqua e minore profondità