MODELLAMENTO QSAR E PREDIZIONE DELLA TOSSICITA DI FENOLI INTRODUZIONE I fenoli sono composti chimici...

1
MODELLAMENTO QSAR E PREDIZIONE MODELLAMENTO QSAR E PREDIZIONE DELLA TOSSICITA’ DI FENOLI DELLA TOSSICITA’ DI FENOLI INTRODUZIONE INTRODUZIONE I fenoli sono composti chimici in grado di persistere nei diversi comparti ambientali e di penetrare facilmente negli organismi espletando la loro azione tossica. Ampiamente utilizzati anche come precursori di molti prodotti, fanno parte degli HPV (High Production Volume Chemicals), sostanze prodotte in quantità superiore alle 1000 tonnellate/anno, per le quali, come richiesto dal recente White Paper dell’Unione Europea [1], è necessario conoscere proprietà chimico-fisiche e tossicità entro il 2005. La loro tossicità è stata oggetto di ampi studi su diversi end-point, ma evidentemente non sono disponibili dati sperimentali per tutti i fenoli e per tutti gli organismi. Il lavoro svolto ha lo scopo di produrre modelli che predicono in modo quantitativo, basandosi sulla struttura delle molecole (QSAR-Quantitative Structure-Activity Relationship), la tossicità di questi composti allo scopo diminuire il lavoro sperimentale necessario per l’ottenimento di tali dati. DATI DATI In questo lavoro sono stati utilizzati i dati di tossicità misurati in Tetraymena pyriformis, protozoo ciliato, per 98 fenoli, variamente sostituiti, ottenuti dalla letteratura [3]. I valori sono espressi in mM/l e in scala logaritmica come il log dell’inverso della IGC 50 (concentrazione che inibisce la crescita nel 50% della popolazione). METODI CHEMIOMETRICI METODI CHEMIOMETRICI Sono state applicati diversi metodi chemiometrici per selezionare un training set ottimale per i modelli QSAR. Queste tecniche sono: Istogramma relativo alla disrtibuzione delle risposte Mappa di Kohonen 10x10 Numero di osservazioni 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 <= -1 (-1;-.5] (-.5;0] (0;.5] (.5;1] (1;1.5] (1.5;2] > 2 Training Test MODELLI DI REGRESSIONE - MLR MODELLI DI REGRESSIONE - MLR La selezione delle variabili più correlate alla risposta e più predittive è stata realizzata con il metodo dei minimi quadrati ordinari (OLS) e con la tecnica dell’Algoritmo Genetico (GA-VSS). I modelli sono stati validati con diversi metodi: Leave-one-out- viene escluso dal training un oggetto alla volta e predetto Leave-more-out- viene escluso casualmente il 50% delle molecole del training Y-scrambling- ottenuta mediante una permutazione casuale delle risposte Validazione esterna- verificata su un test esterno di validazione CONCLUSIONI CONCLUSIONI I modelli ottenuti, riassunti in tabella, hanno buone capacità predittive; il coefficiente di ripartizione ottanolo/acqua, ampiamente utilizzato per modellare la tossicità di composti chimici, si dimostra un buon descrittore, ma può essere validamente affiancato da altri descrittori molecolari teorici, calcolabili quindi anche per molecole non ancora sintetizzate, dando luogo a modelli altamente predittivi. Il lavoro è stato realizzato con fondi della Comunità Europea (progetto BEAM). Si ringrazia Federchimica per la borsa di studio a Francesca Battaini (progetto H.E.L.E.N). RIFERIMENTI BIBLIOGRAFICI RIFERIMENTI BIBLIOGRAFICI [1] White Paper on the strategy for a future Chemicals Policy. www.europa.eu.int/comm/environmental/chemicals/whitepaper.htm [2] Todeschini, R., Consonni, V. e Pavan, E. 2001. DRAGON – Software for the calculation of molecular descriptors, rel. 1.12 for Windows [3] Schultz,T.W. et all. Quantitative structure-activity relationships for the Tetrahymena piryformis population growth end-point: a mechanism of action approach. Practical Application of QSAR in Environmental chemistry and toxicology, 241-262 (1990) Francesca Battaini Francesca Battaini , Ester Papa e Paola Gramatica , Ester Papa e Paola Gramatica Unità di ricerca QSAR e di Chimica Ambientale, Dipartimento di Biologia Unità di ricerca QSAR e di Chimica Ambientale, Dipartimento di Biologia Strutturale e Funzionale, Università degli Studi dell’Insubria (Varese) Strutturale e Funzionale, Università degli Studi dell’Insubria (Varese) Web: http://fisio.dipbsf.uninsubria.it/qsar/ e-mail: Web: http://fisio.dipbsf.uninsubria.it/qsar/ e-mail: paola . gramatica @ uninsubria .it SELEZIONE DEL SELEZIONE DEL TRAINING TEST TRAINING TEST MODELLI DI REGRESSIONE LINEARE OTTENUTI CON UN MODELLI DI REGRESSIONE LINEARE OTTENUTI CON UN TRAINING TRAINING SET SET DI DI 55 OGGETTI 55 OGGETTI (test set di 43 oggetti) Log1/IGC50=-1.25+0.5Logkow+0.3C-X risposta sperimentale risposta calcolata -1.5 -0.9 -0.3 0.3 0.9 1.5 2.1 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 training set test set Log1/IGC50=-2.33+0.5LogKow+0.37Ui+0.33C-X risposta sperimentale risposta calcolata -1.5 -0.9 -0.3 0.3 0.9 1.5 2.1 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 training set test set DESCRITTORI MOLECOLARI DESCRITTORI MOLECOLARI La struttura molecolare dei composti utilizzati è stata rappresentata usando diversi descrittori molecolari calcolati con il software DRAGON di R.Todeschini [2]. L’ampio set di descrittori comprende: A questi descrittori è stato aggiunto il coefficiente di ripartizione ottanolo/acqua (Log Kow) che fornisce una misura della lipofilicità delle molecole. le Mappe di Kohonen Mappe di Kohonen : : le reti neurali artificiali sono un altro modo di raggruppare gli oggetti simili in cluster usando “self organised topological feature maps”, con questa analisi l’informazione multidimensionale viene visualizzata in un grafico bidimensionale. La posizione dei composti nelle celle della mappa mostra il livello di similarità tra le strutture dei fenoli presi in esame. La selezione del training set è stata effettuata mediante la selezione per ogni cella dell’oggetto più caratteristico cioè quello più vicino al centroide. l’ Analisi delle Componenti Principali Analisi delle Componenti Principali (PCA) (PCA): questa analisi permette di concentrare l’informazione di un grande numero di variabili in un numero esiguo di componenti tra loro ortogonali e di identificare gli oggetti che fanno parte di classi e gli outliers. Le componenti più significative sono state utilizzate nella Cluster Analysis e nelle Mappe di Kohonen per eliminare l’informazione ridondante. la Cluster Analysis Cluster Analysis: in questo lavoro è stata usata un’analisi di tipo agglomerativo dove le variabili sono rappresentate dalle componenti significative dei descrittori molecolari. Per trovare il miglior modo di raggruppare i composti sono state usate due formule di distanza (Euclidea e di Manhattan) e diversi metodi per determinare la similarità tra i nuovi cluster (Complete, average, ecc.). I descrittori più importanti risultano essere il Log Kow che è legato alla lipofilia della molecola e, quindi, alla capacità di quest’ultima di attraversare le membrane biologiche determinando una tossicità di base; Ui che indica il livello di insaturazione e C-X che indica il numero di frammenti contenenti alogeni. Fattori di polarità che risultano quindi essere importanti nel rappresentare la tossicità potenziale dei fenoli. descrittori 0D descrittori 0D descrittori costituzionali descrittori 1D descrittori 1D ricavati dalla formula bruta della molecola (descrittori empirici, gruppi funzionali, proprietà e frammenti) descrittori 2D descrittori 2D determinati dal grafo molecolare (descrittori topologici, di autocorrelazione, BCUTs ed indici di Galvez) descrittori 3D descrittori 3D derivati dalle coordinate spaziali (descrittori geometrici, di carica, di aromaticità, WHIMs, GETAWAY, RDF e 3D-MoRSE). N.ogg. N .Var. D escrittori Q 2 Q 2 LM O (50% ) Q 2 ext R 2 SDEP SDEC 98 3 C-X Ui Log Kow 87.0 86.5 88.0 0.27 0.26 98 2 C-X Log Kow 84.7 84.5 85.6 0.29 0.28 98 1 Log Kow 76.0 75.9 77.2 0.36 0.35 55 3 C-X Ui Log Kow 86.9 85.0 86.5 88.4 0.28 0.27 55 2 C -X Log Kow 85.2 84.5 83.2 86.8 0.30 0.28 55 1 Log Kow 74.6 73.9 77.7 76.7 0.40 0.38

Transcript of MODELLAMENTO QSAR E PREDIZIONE DELLA TOSSICITA DI FENOLI INTRODUZIONE I fenoli sono composti chimici...

Page 1: MODELLAMENTO QSAR E PREDIZIONE DELLA TOSSICITA DI FENOLI INTRODUZIONE I fenoli sono composti chimici in grado di persistere nei diversi comparti ambientali.

MODELLAMENTO QSAR E PREDIZIONE MODELLAMENTO QSAR E PREDIZIONE DELLA TOSSICITA’ DI FENOLIDELLA TOSSICITA’ DI FENOLI

INTRODUZIONEINTRODUZIONE

I fenoli sono composti chimici in grado di persistere nei diversi comparti ambientali e di penetrare facilmente negli organismi espletando la loro azione tossica. Ampiamente utilizzati anche come precursori di molti prodotti, fanno parte degli HPV (High Production Volume Chemicals), sostanze prodotte in quantità superiore alle 1000 tonnellate/anno, per le quali, come richiesto dal recente White Paper dell’Unione Europea [1], è necessario conoscere proprietà chimico-fisiche e tossicità entro il 2005. La loro tossicità è stata oggetto di ampi studi su diversi end-point, ma evidentemente non sono disponibili dati sperimentali per tutti i fenoli e per tutti gli organismi. Il lavoro svolto ha lo scopo di produrre modelli che predicono in modo quantitativo, basandosi sulla struttura delle molecole (QSAR-Quantitative Structure-Activity Relationship), la tossicità di questi composti allo scopo diminuire il lavoro sperimentale necessario per l’ottenimento di tali dati.

DATIDATI

In questo lavoro sono stati utilizzati i dati di tossicità misurati in Tetraymena pyriformis, protozoo ciliato, per 98 fenoli, variamente sostituiti, ottenuti dalla letteratura [3]. I valori sono espressi in mM/l e in scala logaritmica come il log dell’inverso della

IGC50(concentrazione che inibisce la

crescita nel 50% della popolazione).

METODI CHEMIOMETRICIMETODI CHEMIOMETRICISono state applicati diversi metodi chemiometrici per selezionare un training set

ottimale per i modelli QSAR. Queste tecniche sono:

Istogramma relativo alla disrtibuzione delle risposteMappa di Kohonen 10x10

Nu

me

ro d

i o

ss

erv

azi

on

i

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

<= -1 (-1;-.5] (-.5;0] (0;.5] (.5;1] (1;1.5] (1.5;2] > 2

Training

Test

MODELLI DI REGRESSIONE - MLRMODELLI DI REGRESSIONE - MLR

La selezione delle variabili più correlate alla risposta e più predittive è stata realizzata con il metodo dei minimi quadrati ordinari (OLS) e con la tecnica dell’Algoritmo Genetico (GA-VSS). I modelli sono stati validati con diversi metodi:

Leave-one-out- viene escluso dal training un oggetto alla volta e predetto

Leave-more-out- viene escluso casualmente il 50% delle molecole del training

Y-scrambling- ottenuta mediante una permutazione casuale delle risposte

Validazione esterna- verificata su un test esterno di validazione

CONCLUSIONICONCLUSIONI

I modelli ottenuti, riassunti in tabella, hanno buone capacità predittive; il coefficiente di ripartizione ottanolo/acqua, ampiamente utilizzato per modellare la tossicità di composti chimici, si dimostra un buon descrittore, ma può essere validamente affiancato da altri descrittori molecolari teorici, calcolabili quindi anche per molecole non ancora sintetizzate, dando luogo a modelli altamente predittivi. Il lavoro è stato realizzato con fondi della Comunità Europea (progetto BEAM). Si ringrazia Federchimica per la borsa di studio a Francesca Battaini (progetto H.E.L.E.N).

RIFERIMENTI BIBLIOGRAFICIRIFERIMENTI BIBLIOGRAFICI[1] White Paper on the strategy for a future Chemicals Policy. www.europa.eu.int/comm/environmental/chemicals/whitepaper.htm

[2] Todeschini, R., Consonni, V. e Pavan, E. 2001. DRAGON – Software for the calculation of molecular descriptors, rel. 1.12 for Windows

[3] Schultz,T.W. et all. Quantitative structure-activity relationships for the Tetrahymena piryformis population growth end-point: a mechanism of action approach. Practical Application of QSAR in Environmental chemistry and toxicology, 241-262 (1990)

Francesca BattainiFrancesca Battaini, Ester Papa e Paola Gramatica, Ester Papa e Paola Gramatica

Unità di ricerca QSAR e di Chimica Ambientale, Dipartimento di Biologia Strutturale e Funzionale, Unità di ricerca QSAR e di Chimica Ambientale, Dipartimento di Biologia Strutturale e Funzionale, Università degli Studi dell’Insubria (Varese)Università degli Studi dell’Insubria (Varese)

Web: http://fisio.dipbsf.uninsubria.it/qsar/ e-mail: Web: http://fisio.dipbsf.uninsubria.it/qsar/ e-mail: [email protected]

SELEZIONE SELEZIONE DEL DEL TRAINING TRAINING TESTTEST

 

MODELLI DI REGRESSIONE LINEARE OTTENUTI CON UN MODELLI DI REGRESSIONE LINEARE OTTENUTI CON UN TRAININGTRAINING SETSET DI 55 OGGETTI DI 55 OGGETTI (test set di 43 oggetti)

Log1/IGC50=-1.25+0.5Logkow+0.3C-X

risposta sperimentale

ris

po

sta

ca

lco

lata

-1.5

-0.9

-0.3

0.3

0.9

1.5

2.1

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5

training settest set

Log1/IGC50=-2.33+0.5LogKow+0.37Ui+0.33C-X

risposta sperimentale

ris

po

sta

ca

lco

lata

-1.5

-0.9

-0.3

0.3

0.9

1.5

2.1

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5

training settest set

DESCRITTORI MOLECOLARIDESCRITTORI MOLECOLARI

La struttura molecolare dei composti utilizzati è stata rappresentata usando diversi descrittori molecolari calcolati con il software DRAGON di R.Todeschini [2]. L’ampio set di descrittori comprende:

A questi descrittori è stato aggiunto il coefficiente di ripartizione ottanolo/acqua (Log Kow) che fornisce una misura della lipofilicità delle molecole.

le Mappe di KohonenMappe di Kohonen: : le reti neurali artificiali sono un altro modo di raggruppare gli oggetti simili in cluster usando “self organised topological

feature maps”, con questa analisi l’informazione multidimensionale viene visualizzata in un grafico bidimensionale. La posizione dei composti

nelle celle della mappa mostra il livello di similarità tra le strutture dei fenoli presi in esame. La selezione del training set è stata effettuata

mediante la selezione per ogni cella dell’oggetto più caratteristico cioè quello più vicino al centroide.

l’Analisi delle Componenti PrincipaliAnalisi delle Componenti Principali (PCA) (PCA): questa analisi permette di concentrare l’informazione di un grande

numero di variabili in un numero esiguo di componenti tra loro ortogonali e di identificare gli oggetti che fanno

parte di classi e gli outliers. Le componenti più significative sono state utilizzate nella Cluster Analysis e nelle

Mappe di Kohonen per eliminare l’informazione ridondante.

la Cluster AnalysisCluster Analysis: in questo lavoro è stata usata un’analisi di tipo agglomerativo dove le variabili sono

rappresentate dalle componenti significative dei descrittori molecolari. Per trovare il miglior modo di raggruppare

i composti sono state usate due formule di distanza (Euclidea e di Manhattan) e diversi metodi per determinare la

similarità tra i nuovi cluster (Complete, average, ecc.).

I descrittori più importanti risultano essere il Log Kow che è legato alla lipofilia della molecola e, quindi, alla capacità di quest’ultima di attraversare le membrane biologiche determinando una tossicità di base; Ui che indica il livello di insaturazione e C-X che indica il numero di frammenti contenenti alogeni. Fattori di polarità che risultano quindi essere importanti nel rappresentare la tossicità potenziale dei fenoli.

descrittori 0Ddescrittori 0D – descrittori costituzionali

descrittori 1Ddescrittori 1D – ricavati dalla formula bruta della molecola (descrittori empirici, gruppi funzionali, proprietà e frammenti)

descrittori 2Ddescrittori 2D – determinati dal grafo molecolare (descrittori topologici, di autocorrelazione, BCUTs ed indici di Galvez)

descrittori 3Ddescrittori 3D – derivati dalle coordinate spaziali (descrittori geometrici, di carica, di aromaticità, WHIMs, GETAWAY, RDF e 3D-MoRSE).

N. ogg. N. Var. Descrittori Q2 Q2LMO (50%) Q2ext R2 SDEP SDEC

98 3 C-X Ui Log Kow 87.0 86.5 88.0 0.27 0.26

98 2 C-X Log Kow 84.7 84.5 85.6 0.29 0.28

98 1 Log Kow 76.0 75.9 77.2 0.36 0.35

55 3 C-X Ui Log Kow 86.9 85.0 86.5 88.4 0.28 0.27

55 2 C-X Log Kow 85.2 84.5 83.2 86.8 0.30 0.28

55 1 Log Kow 74.6 73.9 77.7 76.7 0.40 0.38