Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali •...

33
UNIVERSITA’ DEGLI STUDI DI PERUGIA Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 –Perugia Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale Corso di ANALISI DEI SISTEMI ECOLOGICI Sito del corso: www.dcbb.unipg.it/cdlscienzebiomol Alessandro Ludovisi Sito docente: www.dcbb.unipg.it/alessandro.ludovisi Tel. 075 585 5712 e-mail address: [email protected]

Transcript of Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali •...

Page 1: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

UNIVERSITA’ DEGLI STUDI DI PERUGIA

Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 –Perugia

Corso di Laurea di Scienze biomolecolari e ambientali

Laurea magistrale

Corso di ANALISI DEI SISTEMI ECOLOGICI Sito del corso: www.dcbb.unipg.it/cdlscienzebiomol

Alessandro Ludovisi

Sito docente: www.dcbb.unipg.it/alessandro.ludovisi

Tel. 075 585 5712 e-mail address: [email protected]

Page 2: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

TIPOLOGIE DI DATI ECOLOGICI

CAMPIONAMENTO E ANALISI

1

LE VARIABILI NOMINALI

CONTINUE DISCRETE NOMINALI ORDINALI

NUMERICHE CATEGORIALI

VARIABILI

Page 3: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

I DATI ECOLOGICI

Con il termine DATI si intende l’insieme delle informazioni disponibili sulle VARIABILI utili alla

descrizione di un sistema

Nel caso dei sistemi ecologici, i DATI sono

realisticamente raccolti tramite CAMPIONAMENTO

(ovvero tramite esame di frazioni del sistema

complessivo), per cui consentono una conoscenza

parziale, più o meno rappresentativa, del sistema

oggetto di indagine.

Fitoplancton Trasimeno (conteggi)Staz.1A Staz.1B Staz.1C Staz.2A Staz.2B Staz.2C Staz.3A Staz.3B Staz.3C Staz.4A

data 13/07/1991 13/07/1991 13/07/1991 12/07/1991 12/07/1991 12/07/1991 13/07/1991 13/07/1991 13/07/1991 13/07/1991

ora 11.10 11.15 11.30 16.10 16.20 16.35 14.20 14.30 14.35 16.00

Anabaena sp 0 5 3 0 59 38 0 0 10 0

Ankistrodesmus falcatus 13 2 7 1 0 0 0 0 1 0

Amphora ovalis 0 0 0 0 0 0 0 0 0 0

Amphora commutata 0 0 0 0 0 0 0 0 0 0

Caloneis shumanniana 0 0 0 0 0 0 0 0 0 0

Ceratium hirundinella 0 1 0 0 0 0 1 1 1 1

Chlamidomonas sp 58 50 107 81 133 75 34 88 91 132

I DATI sono usualmente organizzati in forma matriciale, che consente una loro visualizzazione

complessiva e li predispone ad elaborazione grafiche e numeriche

Page 4: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

Una descrizione esauriente di un contesto ecologico implica tipicamente la conoscenza di dati

relativa a un numero elevato di VARIABILI che possono essere di tipologie «statistiche«

diverse:

VARIABILI E SCALE DI MISURA

• VARIABILE - Caratteristica suscettibile di osservazione e misurazione, che può assumere

almeno due diversi valori

• SCALA DI MISURA - Procedura (misura o giudizio) utilizzata per ricavare i valori assunti dalla

variabile

I DATI ECOLOGICI

La scala di misura definisce il tipo di variabile:

• VARIABILI CATEGORIALI

• Nominali

• Ordinali

• VARIABILI NUMERICHE

• Discrete

• Continue

Page 5: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

CONTINUE DISCRETE NOMINALI ORDINALI

NUMERICHE CATEGORIALI

VARIABILI

TIPOLOGIE DI VARIABILI

Variabili che descrivono

un tratto dell’oggetto di

indagine tramite

categorie che non sono

legate tra loro da

rapporti di ordine

gerarchico (> <)

Variabili che descrivono

un tratto dell’oggetto di

indagine tramite

categorie che sono

legate tra loro da

rapporti di ordine

gerarchico (> <)

Variabili che descrivono

un tratto dell’oggetto di

indagine tramite valori

numerici separati da

intervalli che non

possono essere

frazionati (conteggi)

Variabili che descrivono

un tratto dell’oggetto di

indagine tramite valori

numerici che possono

essere frazionati senza

restrizione (almeno in

principio)

Tutte le tipologie di variabili possono essere, qualora si disponga di casistica adeguata, «ridotte» e trattate

come variabili categoriali, mentre l’inverso non è in generale possibile.

In altre parole, il «downgrading» di una variabile è sempre possibile, pena però la perdita di informazione.

D’altra parte, alcune variabili sono intrinsecamente nominali, o opportunamente espresse su scala

ordinale, per limiti di misura o opportunità di classificazione

Page 6: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

VARIABILI NOMINALI

La scala di misura è costituita da categorie che descrivono lo

stato dell’oggetto di indagine o suoi tratti, classificati tramite

procedimento oggettivo o soggettivo «esperto» .

Tipicamente usato per tratti biologici (e.g. sesso, stadio di sviluppo, colore della livrea, etc.) ed

etologici. In termini ecologici, associabile a dati di presenza(/assenza) - P/A.

Se la variabile nominale può assumere solo 2 categorie, si dice VARIABILE DICOTOMICA O BINARIA.

I numeri eventualmente assegnati alla scala non hanno un significato

di misura ma rappresentano codici numerici.

Tali variabili possono essere trattate con semplici operazioni logico-

matematiche (uguale o diverso), analisi e test di omogeneità su

tabelle di frequenza, calcolo di indici, nonché usate come variabili

categoriche (codici) in analisi statistiche di raggruppamento.

Presenza specie invertebrati

T axa Acquatina Isola e Lago di Varano Laghi di Alimini Lago de i Monaci

Aaptos aaptos 0 0 0 0

Abarenicola claparedi 0 0 0 0

Abra alba 1 0 0 0

Abra nitida 0 1 0 0

Abra prismatica 0 0 0 0

Abra renieri 0 0 0 0

Abra segmentum 0 1 1 1

Abra tenuis 0 0 0 0

Acanthocardia aculeata 0 0 0 0

Acanthocardia echinata 0 0 0 0

Acanthocardia paucicostata 0 0 0 0

Acanthocardia tuberculata 1 0 0 0

Acanthochitona crinita 0 0 0 0

Acanthochitona fascicularis 0 0 0 0

Acarnus tortilis 0 0 0 0

Acartia (Acanthacartia) italica 1 0 0 0

Acartia (Acanthacartia) tonsa 0 0 0 0

Acartia (Acartiura) clausi 1 0 0 0

Page 7: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

Evento (categoria) E1 E2 ... Ek

Frequenze osservate o1 o2 ... ok

VARIABILI NOMINALI: TABELLE DI FREQUENZA

Le tabelle di frequenza sono tabelle in cui si riporta il numero di osservazioni per ognuna delle k categorie o

eventi possibili (incluse frequenze nulle per categorie possibili ma non osservate)

Le tabelle di frequenza rappresentano di per se’ una descrizione del fenomeno studiato e possono essere

immediatamente rese in forma grafica

Taglia (um)

N. Individui

0

25

50

75

100

125

150

175

200

225

250

275

300

325

350

375

400

425

<= 100150

200250

300350

400450

500550

600650

700750

800850

9009501000

10501100

11501200

12501300

13501400

14501500

15501600

16501700

1750> 1750

Nauplii

Copepoditi I-V

Adulti

Distribuzione per classi di taglia e fasi di sviluppo di Cyclops abyssorum in campioni prelevati nel lago di Piediluco

Page 8: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

VARIABILI NOMINALI: TABELLE DI FREQUENZA E TEST ASSOCIATI

Uno degli usi più rilevanti delle tabelle di frequenza è rappresentato dalla valutazione di aderenza della

distribuzione delle frequenze osservate con una attesa.

Evento (categoria) E1 E2 ... Ek

Frequenze osservate o1 o2 ... ok

Frequenze attese e1 e2 ... ek

Le frequenze attese possono essere stabilite:

• a priori, ovvero costruendo una distribuzione rispetto alla quale si vuole

valutare l’aderenza del campione

• in base alla conoscenza della popolazione statistica o del fenomeno in esame

• costruendo una distribuzione attesa cumulata in base alle frequenze

osservate su n campioni

I test di aderenza (ipotesi di omogeneità) più potenti e comunemente usati sono il

test del chi-quadro (test di bontà dell’adattamento e test di indipendenza) e il test

di Fisher.

A causa dei loro limiti di applicabilità, il test del chi-quadro e il test di Fisher

trovano applicazione alternative, rispettivamente in matrici dense (frequenze

attese >5) e matrici sparse.

> Training 1

> STAT 1 > PAST

Page 9: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

IL TEST DEL c2 (CHI-QUADRO) - BONTÀ DI ADATTAMENTO Le frequenze attese sono stimate in base alla legge nota o ipotizzata, ripartendo il numero totale di

osservazioni nelle k categorie

Lanci di monetaCategoria (esito del lancio) Osservato Atteso pi (%) (%) Chi-quadro valori

TESTA 20 22.5 0.5 44.4 50.0 0.28

CROCE 25 22.5 0.5 55.6 50.0 0.28

45 45 1 100 100 0.56

Gradi di libertà 1

Chi quadro - livello di confidenza per Ho 0.4561

Chi quadro - probabilità sinistra 0.5439

Chi quadro - probabilità destra 0.4561

1.0000IL TEST DEL c2 (CHI-QUADRO) - TEST DI INDIPENDENZA Le frequenze attese sono stimate in base alla distribuzione cumulata dei campioni esaminati

Lanci di moneta

Categoria (esito del lancio)Osservato

Campione 1

Osservato

Campione 2

Totali

marginali

Atteso

Campione 1

Atteso

Campione 2

Chi-quadro

valori

TESTA 20 30 50 16.4 33.6 1.21

CROCE 15 42 57 18.6 38.4 1.06

35 72 107 35 72.0 2.27

Gradi di libertà 1

Chi quadro - livello di confidenza per Ho 0.1322

> Training 1 > STAT 1 > PAST

Page 10: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

y = 5x0.4

0.0

10.0

20.0

30.0

40.0

50.0

60.0

70.0

80.0

90.0

0 200 400 600 800 1000 1200

S

A

0.1 < z < 0.4

Relazione tra numero di specie (S) e

area campionata (A) -SAR zACS

zACS log

N.B.: LA CURVA NON HA

ANDAMENTO ASINTOTICO!!

VARIABILI NOMINALI: I DATI DI PRESENZA (/ASSENZA)

- STIMA DELLA RICCHEZZA DI SPECIE SULLA BASE DI CAMPIONI

y = 5x0.4

1.0

10.0

100.0

1 10 100 1000

S

A

SCALA BILOGARITMICA L’area campionata può essere un’area in senso

stretto o una variabile correlata (n. campioni,

volume, etc.)

> Training 1

> PAST

Page 11: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

Species-area curves of tree species in Japan

AY: Aya Research Site. An evergreen broad-leaved forest in southwestern Japan

OG: Ogawa Research Site. A deciduous broad-leaved forest in central Japan

KR: Kanumazawa Riparian Research Site. A deciduous broad-leaved forest in

KU: An upland deciduous broad-leaved forest neighbouring KR (430-450m a.s.l.).

SN: Senju Research Site. A deciduous broad-leaved forest in central Japan

SPECIES-AREA RELATIONSHIP (SAR)

Number of different plant species found as habitat area is scaled up

from a portion of one county in Great Britain, to the whole island.

Both axes of the plot are on logarithmic scales, and on these axes a

straight line is the signature of power law scaling.

Page 12: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

CURVE DI ACCUMULAZIONE E RAREFAZIONE DI SPECIE – Le curve di accumulazione si ottengono cumulando il numero di specie trovate in n

campioni in sequenza. Esistono perciò tante curve di accumulazione quante sono le sequenze possibili di campioni

Numero di campioni o area campionata N

. specie o

sservate

Stima tendenziale della ricchezza di specie

Curve di accumulazione

Curva di rarefazione (media di tutte le curve di accumulazione)

Inconvenienti:

• elevato sforzo sperimentale

• non raggiunge l’asintoto (ovvero non consente una stima conclusiva sulla ricchezza di specie ) se l’ambiente è eterogeneo

VARIABILI NOMINALI: I DATI DI PRESENZA (/ASSENZA)

STIMA DELLA RICCHEZZA DI SPECIE SULLA BASE DI CAMPIONI: CURVE DI ACCUMULAZIONE DI SPECIE

STIMATORI NON-PARAMETRICI

Page 13: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

Maglia 1 km

CASE STUDY: RICCHEZZA DI SPECIE DEL FITOPLANCTON NEL LAGO TRASIMENO

- DISEGNO CAMPIONARIO:

- RETICOLO UTM DI MAGLIA 1KM (120 PARCELLE)

- ESTRAZIONE CASUALE DI 12 PARCELLE

- STAZIONI POSTE AL CENTRO DELLE PARCELLE

- 3 REPLICHE PER OGNI STAZIONE POSTE NEI VERTICI

DI UN TRIANGOLO DI 50M DI LATO 4 8 12 16 20 24 28 32 36

Samples

10

15

20

25

30

35

40

45

50

55

Taxa

(95%

con

fiden

ce)

Curva di rarefazione

0

10

20

30

40

50

60

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Curve di accumulazione (etc.)

> Training 2 > PAST

Page 14: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

1 10 10010

100

1000

Total Invertebrates

Anellida

Artropoda

Mollusca

Other Invertebrates

No

. sp

ecie

s

No. pooled samples

a

CURVE DI RAREFAZIONE PER ALCUNI GRUPPI DI INVERTEBRATI CENSITI IN 18 LAGUNE ITALIANE INCLUSE NEL DATABASE LIFEWATCH. LE

CURVE DI REGRESSIONE, BASATE SU UN MODELLO ESPONENZIALE NEGATIVO ,SONO ESTRAPOLATE FINO AL NUMERO APPROSSIMATIVO DI

LAGUNE ITALIANE (250)

Modello esponenziale negativo:

(Holdridge et al., 1971)

S(n)=S*(1-e-Cn)

n è il numero di campioni cumulati

S* è il numero di specie all’asintoto

C il tasso di accumulazione delle

specie

Total Invertebrates Annelida Arthropoda Mollusca Other Invertebrates

Total Native

Alien Total Native

Alien Total Native

Alien Total Native

Alien Total Native

Alien

S* 1566 ±36.0

1503 ±34.4

58,7 ±1.7

258.7 ±5.5

245.6 ±5.0

13.4 ±0.4

552.2 ±18.3

531.8 ±18.1

21.3 ±0.4

461.7 ±8.7

452.4 ±8.6

9.5 ±0.1

314.7 ±5.3

294.0 ±4.9

26.9 ±0.7

C 0.07 ±0.00

2

0.07 ±0.00

3

0.08 ±0.00

3

0.09 ±0.00

4

0.09 ±0.00

3

0.11 ±0.00

7

0.06 ±0.00

3

0.06 ±0.00

3

0.07 ±0.00

2

0.08 ±0.00

2

0.08 ±0.00

2

0.10 ±0.00

2

0.08 ±0.00

2

0.08 ±0.00

2

0.03 ±0.00

1

Intercept (n=1)

109.9 ±27.6

1398 ± 26.2

4.6 ± 1.4

22.7 ± 6.5

21.4 ± 5.8

1.4 ± 0.7

31.7 ± 9.6

30.1 ± 9.3

1.5 ± 0.3

34.0 ± 7.3

33.1 ± 7.2

0.87 ± 0.2

22.8 ± 3.9

21.9 ± 3.7

0.9 ± 0.1

R square

0.998 0.998 0,998 0.997 0.998 0,989 0.998 0.998 0,998 0.999 0.999 0,999 0.999 0.999 0,999

Page 15: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

La stima del numero di specie totale è basato sulla frequenza delle specie rare

Chao 2:

2

2

1

2Q

QSS obs

m

mQSS obs

11

Jack-knife 1:

Sobs

k

mkobs pSS

1

)1(Bootstrap:

Inconvenienti:

• sovrastima della ricchezza di specie rispetto alle curve di accumulazione.

L’incertezza associata alla stima può essere stimata tramite tecniche di ricampionamento

STIMA DELLA RICCHEZZA DI SPECIE SULLA BASE DI CAMPIONI: STIMATORI NON-PARAMETRICI

1mm

2mQ

m

3m2QSS

2

21obs

Jack-knife 2:

Sobs= numero di specie osservate

Q1= n. di specie rinvenute in un singolo campione

Q2 = n. di specie rinvenute in due campioni

m = n. totale di campioni

pk= frazione di campioni contenenti la specie k

Jack -knife e bootstrap sono tecniche di

ricampionamento con le quali si amplia il dataset

originario per approssimare la distribuzione

campionaria di una statistica, e quindi ricavare i

parametri di distribuzione (media, varianza, etc.)

> Training 2 > PAST

Page 16: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

STIMA DELLA RICCHEZZA DI SPECIE SULLA BASE DI CAMPIONI: STIMATORI NON-PARAMETRICI

Jack -knife e Bootstrap sono tecniche di ricampionamento con le quali si amplia il dataset originario

per approssimare la distribuzione campionaria di una statistica, e quindi ricavare i parametri di

distribuzione (media, varianza, etc.).

Usato in particolare nei casi in cui non è nota o teorizzata la distribuzione statistica dei dati in esame

La stima Jackknife di un parametro di distribuzione di una popolazione (media,

varianza, etc.) si ottiene calcolando il parametro in n sottocampioni ottenuti

rimuovendo uno dei singoli dati alla volta:

Dati originari: X = x1, x2, …, x10

Sottocampioni: X1* = x2, x3 ,..., x10 etc…

La stima bootstrap di un parametro di distribuzione di una popolazione (media,

varianza, etc.) si ottiene calcolando il parametro in un numero (elevato) di

campioni ottenuti ricampionando con sostituzione il campione originario:

Dati originari: X = x1, x2, x3 , x4 , x5 , x6 , x7 , x8 , x9 , x10

Pseudo -Campioni: X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9

etc… > PAST

Page 17: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

Correzione della ricchezza di specie basata sulla numerosità campionaria

Data la dipendenza della ricchezza di specie dall’ampiezza del campione, la necessità di «normalizzare» la ricchezza di

specie ha portato alla definizione di indici corretti per la numerosità campionaria (n), intesa come il numero di individui

conteggiati:

)nln(

1SDMg

Indice di ricchezza di Margalef (1968)

Indice di ricchezza di Menhinick (1964) n

SDMe

Si tratta di indici «empirici» che tuttavia hanno il pregio di rendere comparabili ricchezze di specie

rinvenute in campioni diversi tra loro in termini di numerosità campionaria.

N.B.: il calcolo trasforma la ricchezza di specie in un indice di ricchezza, che è più paragonabile

agli indici di diversità che alla ricchezza di specie stimata

0 < DMg, DMe <∞

> Training 2 > PAST > ECO AN 3

Page 18: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

Il coefficiente phi (rphi o f) è una misura statistica non parametrica di correlazione tra due variabili nominali

dicotomiche, basato sulla statistica chi-quadro per tabelle di contingenza 2x2.

Per una variabile dicotomica generica 0/1, la tabella è:

dove gli nii sono le frequenze osservate per coppie di valori uguali

(0,0) (1,1) o diversi (0,1) (1,0) e le nie ni sono le frequenze

marginali .

Intuitivamente, una correlazione è più elevata quanto più elevate

sono le frequenze lungo una delle diagonali (e basse nell’altra):

Diagonale correlazione positiva

Diagonale correlazione negativa

Il coefficiente varia tra [-1; +1] con il valore nullo corrispondente ad assenza di correlazione.

La sua distribuzione è legata a quella del chi-quadro secondo f2=c2/n e la significatività in termini di

correlazione è immediatamente restituita dall’applicazione del test chi-quadro alla tabella di contingenza.

CORRELAZIONE TRA VARIABILI CATEGORIALI NOMINALI – IL COEFFICIENTE PHI

0101

01100011

nnnn

nnnn

f

X = 1 Y = 0 total

X = 1 n11 n10 n1

Y = 0 n01 n00 n0

total n1 n

0 n

Il coefficiente phi assume valori coincidenti con il coefficiente di correlazione lineare di Pearson (vedi) . Tuttavia, la statistica di

riferimento per la significatività è diversa , per cui il test di significatività non dà necessariamente lo stesso responso.

> STAT 3

Page 19: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

CORRELAZIONE TRA VARIABILI CATEGORIALI NOMINALI (P/A) – CASE STUDY FITOPLANCTON LAGO TRASIMENO Closterium sp Cryptomonas erosa

1 1

1 1

1 1

0 1

0 1

1 0

0 1

1 1

1 0

1 0

1 0

1 0

0 1

1 0

0 1

1 0

0 1

0 1

0 1

1 1

0 1

0 1

1 1

1 1

0 1

0 1

0 1

0 1

1 0

0 1

0 1

0 1

0 1

1 1

1 1

0 1

1 1

1 1

1 1

Osservato X = 1 Y  = 0 to tal Atteso X = 1 Y  = 0 to tal

X = 1 12 19 31 X = 1 15.9 15.1 31

Y = 0 8 0 8 Y = 0 4.1 3.9 8

to tal 20 19 39 to tal 20 19 39

Correlazione P/A

Coefficiente r phi -0.495

p (chi-quadro) 0.0020

p (Fisher) 0.0033

La correlazione è significativamente negativa, il che indica che ognuna delle due specie tende ad

essere più frequentemente presente ove l’altra è assente .

Tuttavia, la compresenza è frequente (12), mentre la contemporanea assenza è rara (0), il che

suggerisce che tendono a occupare habitat analoghi.

Questo pattern può essere indicativo di elevata competizione tra le due specie , che porta

frequentemente all’esclusione competitiva

Closterium

Cryptomonas

> Training 2

Page 20: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA/ASSENZA (DETTI ANCHE DATI DICOTOMICI O BINARI)

La diversità tra campioni o comunità a confronto può essere espressa tramite :

•Indici o coefficienti di similarità: valori compresi tra 0 (completa dissimilarità) e 1 (completa

similarità)

•Misure di distanza: valori compresi tra 0 (identità) e ∞ (completa dissimilarità)

Gli indici o coefficienti di similarità presentano il vantaggio di consentire un giudizio immediato

sulla somiglianza tra due campioni, dal momento che l’intervallo di variabilità dell’indice è noto

Misure di distanza:

La b-diversità di Whittaker (1968): 1

bW

: numero di specie totali in P e Q

: numero di specie medio in P e Q

0 bw ∞

Esempi:

Indici di similarità:

QPPQ

PQJ

*S*SS

SC

Indice di Jaccard (1908) SPQ : numero di specie comuni in P e Q

S*P , S*Q : numero di specie presenti esclusivamente in

P o Q rispettivamente 0 CJ 1

P 1 0 0 0 1 1 1 1 1 0 0 1 1 0 0 0 …

Q 1 0 0 0 0 1 0 1 1 0 0 1 1 0 0 0 …

Page 21: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – INDICI DI SIMILARITÀ

Per calcolare gli indici di similarità binari tra due campioni o comunità P e Q, è utile costruire

delle tabelle 2x2, che permettono di visualizzare il numero di specie condivise e non

Comunità o campione P

N. Specie presenti N. Specie assenti

Comunità o campione Q N. Specie presenti SPQ S*Q

N. Specie assenti S*P SN

SPQ : numero di specie comuni alle comunità P e Q

S*P, S*Q : numero di specie presenti esclusivamente nella comunità P o Q rispettivamente

SN : numero di specie non osservate in P e Q

N.B. il numero di specie osservate nelle due comunità o campioni (SP e SQ ) non compare nella tabella

Considerare il numero di specie non osservate nei campioni (SN ) può

apparire astruso.

Tuttavia, è significativo dal momento che specie non osservate non hanno in

principio una probabilità nulla di essere presenti.

SN può diventare particolarmente significativo quando si confrontino campioni

provenienti da una comunità supposta omogenea.

P 1 0 0 0 1 1 1 1 1 0 0 1 1 0 0 0 …

Q 1 0 0 0 0 1 0 1 1 0 0 1 1 0 0 0 …

Page 22: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – INDICI O COEFFICIENTI DI SIMILARITÀ

QPPQ

PQJ

*S*SS

SC

Indice di Jaccard

(1908)

QP

PQS

SS

S2C

Indice di Sorensen (1945)

o di Dice (1948)

0 CJ, CS ,CSM 1

NQPPQ

NPQSM

S*S*SS

SSC

Simple Matching

coefficient

SPQ : numero di specie in P e Q

S*P , S*Q : numero di specie presenti

esclusivamente in P o Q rispettivamente

SN : numero di specie non osservate in P e Q

SP e SQ numero di specie osservate in P o Q

Indici di similarità specificamente definiti per dati di presenza di specie sono stati proposti

a partire dal l’inizio del ‘900. Ad oggi ne esistono più di una ventina.

Tra i più diffusamente usati:

P 1 0 0 0 1 1 1 1 1 0 0 1 1 0 0 0 …

Q 1 0 0 0 0 1 0 1 1 0 0 1 1 0 0 0 …

CJ e CSM rappresentano semplicemente la frazione di specie sovrapposte sull’insieme di specie

rinvenute in P e Q (sono identici per SN =0). Rispetto agli altri, CS enfatizza la sovrapposizione

di specie tra P e Q > Training 2 > PAST

Page 23: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – INDICI O COEFFICIENTI DI SIMILARITÀ

Una simulazione effettuata generando comunità

distribuite secondo una serie logaritmica ha

mostrato che il massimo valore ottenuto da

diversi indici binari varia al variare delle

dimensione del campione (200-500-1000-5000

nel grafico).

Proprietà desiderabili di misura di similarità o dissimilarità (Wolda, 1981):

• Indipendenza dalla dimensione del campione

• Indipendenza dal numero di specie

La ragione ultima di questa distorsione risiede

nell’effetto delle specie “rare”, la cui presenza è

for temente influenzata dalla dimensione del

campione.

Questo effetto rende particolarmente critico l’impiego di indici binari per campioni poco

rappresentativi, ovvero con specie “rare” numerose.

Questo inconveniente può essere mitigato utilizzando informazioni derivanti dalla

distribuzione di abbondanza delle specie (Chao, 1986)

500 200

Page 24: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – INDICI O COEFFICIENTI DI SIMILARITÀ

> PAST

N.B.: I DATI DEVONO ESSERE

ORGANIZZATI IN MODO CHE LE

SPECIE SIANO RIPORTATE NELLE

COLONNE E I CAMPIONI NELLE

RIGHE

Page 25: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – MISURE DI DISTANZA

0 bW, bC, bI, ∞

Le misure di distanza sono spesso inquadrate come misure di beta-diversità, ovvero

diversità tra campioni o comunità poste lungo un gradiente ambientale (transetto)

Tra i più diffusamente usati:

La b-diversità di Whittaker (1968): 1

bW

: numero di specie totali in P e Q

: numero di specie medio in P e Q

1

2SS

*S*SS

QP

QPPQWb

ei : numero di campioni in cui la specie i è presente lungo il transetto ; j : numero di specie nel campione j T = ei = j

Routledge (1977):

jjj

iiiI log

T

1eloge

T

1Tlog b

Cody(1975): 2

)H(l)H(gc

b

g(H) : numero «gained» tra P e Q

l(H) : numero «lost» tra P e Q

> Training 2 > PAST

Page 26: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

- : DIVERSITY IN A GIVEN HABITAT OR COMMUNITY

- : DIVERSITY AMONG LANDSCAPES

- b: DIVERSITY AMONG HABITATS OR COMMUNITIES IN A

GIVEN LANDSCAPE

- : TOTAL DIVERSITY IN A GIVEN LANDSCAPE

- : TOTAL DIVERSITY IN A REGION

INVENTORY DIVERSITY (WHITTAKER,1960)

- POINT: DIVERSITY IN A SINGLE SAMPLE

- PATTERN: DIVERSITY AMONG SAMPLES COLLECTED IN A

GIVEN COMMUNITY OR HABITAT

- AND SO ON….

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – MISURE DI DISTANZA

Page 27: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

> PAST

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – MISURE DI DISTANZA

Page 28: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – QUALE MISURA USARE???

La maggior parte delle misure o indici di similarità sono derivate

in maniera empirica (ovvero senza una teoria di base) con

l’intento di enfatizzare aspetti specifici di diversità tra campioni: ?

• Relazione tra ricchezza di specie in un insieme di campioni e in singoli campioni (Whittaker,

Harrison, etc.)

• Perdita o guadagno di specie (Cody, Wilson-Schmida, etc.)

• Sovrapposizione di specie (Jaccard, Sorensen, etc.)

PERTANTO, LA SCELTA DELLA MISURA DIPENDE STRETTAMENTE DALL’ASPETTO CHE SI VUOLE INDAGARE O

ENFATIZZARE

IMMEDIATEZZA E NON AMBIGUITÀ DI INTERPRETAZIONE SONO REQUISITI DA PRIVILEGIARE

D’ALTRA PARTE, LE MISURE POSSONO ESSERE USATE IN MODO ESPLORATIVO, OVVERO PROVATE PER VEDERE

QUALI ASPETTI EMERGONO COME PIÙ SIGNIFICATI DALL’APPLICAZIONE DI VARIE MISURE AI CAMPIONI IN ESAME!

(TRY AND SEE!!)

Page 29: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

SIMILARITÀ TRA CAMPIONI CON DATI DI PRESENZA – ANALISI DI RAGGRUPPAMENTO

Quando si dispone di un numero elevato di campioni, può essere di interesse valutare in modo

sinottico la similarità tra campioni, ovvero cercare pattern di similarità. Spesso la matrice di similarità

non consente immediata interpretazione, soprattutto se i campioni sono numerosi.

NON ESISTE UN UNICO, NÉ UN PIÙ OGGETTIVO, NÉ UN MIGLIOR CRITERIO DI RAGGRUPPAMENTO.

COME NON ESISTE UN’UNICA O MIGLIORE MISURA DI SIMILARITÀ.

I DATI MULTIVARIATI CONTEMPLANO PROSPETTIVE DIVERSE E LA SCELTA DEL METODO PIÙ ADEGUATO E

SCIENTIFICAMENTE VALIDO DIPENDE DALLA PROSPETTIVA!!

Staz.1A Staz.1B Staz.1C Staz.2A Staz.2B Staz.2C Staz.3A …

Staz.1A 0 0.2973 0.2973 0.33333 0.36842 0.37143 0.41935

Staz.1B 0.2973 0 0.23529 0.39394 0.31429 0.3125 0.35714

Staz.1C 0.2973 0.23529 0 0.33333 0.37143 0.375 0.42857

Staz.2A 0.33333 0.39394 0.33333 0 0.35294 0.35484 0.25926

Staz.2B 0.36842 0.31429 0.37143 0.35294 0 0.27273 0.37931

Staz.2C 0.37143 0.3125 0.375 0.35484 0.27273 0 0.38462

Staz.3A 0.41935 0.35714 0.42857 0.25926 0.37931 0.38462 0

L’analisi di raggruppamento (cluster analysis)

è una metodologia che consente di classificare

e raggruppare i campioni (tipicamente di dati

multivariati) in base ad una misura di similarità

e ad un criterio di raggruppamento

La misura di similarità è la misura usata per costruire la matrice di similarità

Il criterio di raggruppamento è un algoritmo che classifica i campioni in base alla matrice di

similarità, secondo una procedura definita

>STAT 2

Page 30: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS)

> PAST

N.B.: I DATI DEVONO ESSERE ORGANIZZATI IN MODO CHE LE

SPECIE SIANO RIPORTATE NELLE COLONNE E I CAMPIONI

NELLE RIGHE

Sono disponibili diversi algoritmi di clustering , implementati con le

misure di similarità utilizzate da PAST. E’ possibile anche avviare una

procedura di ricampionamento (Bootstrapping), utile a stimare

l’affidabilità di ogni cluster individuato

>STAT 2

Page 31: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO

> Training 2 > PAST

Step

1

2 3

I numeri in

corrispondenza delle

ramificazioni

indiicano la

ricorrenza (e quindii

la «significatività» )

del cluster

identificato, ottenuto

in seguito al

ricampionamento

(Bootstrapping)

I raggruppamenti

«minimi» (tra campioni)

si realizzano a similarità

0.7-0.8, che

rappresentano i valori

massimi tra campioni

La maggior parte dei

clusters ha un livello di

similarità superiore a

0.6 (quindi appena

inferiore a quello tra i

campioni più simili)

Emergono molto diversi

dal pool complessivo i

campioni 5A, 6C, 5B, e

la Staz 12

Look a

t

th

e s

cale

Page 32: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO

Step

1 2

3

> Training 2 > PAST

I numeri in

corrispondenza delle

ramificazioni

indiicano la

ricorrenza (e quindii

la «significatività» )

del cluster

identificato, ottenuto

in seguito al

ricampionamento

(Bootstrapping)

Rispetto al Single Linkage,

le similarità (medie ) tra

clusters sono inferiori.

Look at the scale!

Rispetto al Single

Linkage, UPMGA

individua clusters più

definiti , ma tuttavia

costituiti da campioni

provenienti da stazioni

spazialmente distanti

Emergono molto diversi

dagli altri i clusters

formati dalla Staz. 12,

dal campione 5A e da

parte della Staz. 10

Look a

t

th

e s

cale

Page 33: Corso di Laurea di Scienze biomolecolari e ambientali ... · • Nominali • Ordinali • VARIABILI NUMERICHE ... indagine tramite categorie che non sono legate tra loro da rapporti

ANALISI DI RAGGRUPPAMENTO (O CLUSTER ANALYSIS) – CASO DI STUDIO FITOPLANCTON LAGO TRASIMENO

> Training 2 > PAST

In base all’analisi di raggruppamento gerarchico, emergono due raggruppamenti principali (e non singolari, ovvero non composti

da campioni singoli) conservati in entrambi i metodi di clustering gerarchico: un cluster ristretto formato dalla Staz.12 ed uno molto

ampio formato da quasi tutti gli altri campioni

1 km

Tramite algoritmo K-means si sarebbero poi potute

verificare le seguenti ipotesi:

1) Se i campioni rispettano un raggruppamento per

stazione

2) Se i campioni rispettano il raggruppamento

individuato tramite analisi gerarchica

Tuttavia, questa metodologia, basata sulla varianza, è

propriamente usata solo nel caso di dati numerici continui,

per cui il suo uso è sconsigliabile con dati P/A.

Tale raggruppamento ha significato ecologico in quanto la

Stazione 12 è collocata in un’area in cui le condizioni

ambientali sono diverse da quelle del corpo lacustre.

L’area è caratterizzata da presenza massiccia di macrofite,

minore circolazione dell’acqua e minore profondità