Glossario - Springer978-88-470-2409-0/1.pdf · le quattro fasi del percorso di una sostanza chimica...

A

ADMEAcronimo di “Assorbimento, Distribuzione, Metabolismo ed Escrezione” che sonole quattro fasi del percorso di una sostanza chimica (ad esempio un farmaco) dallasua assunzione alla sua eliminazione in un organismo.

Allineamento di sequenze proteicheProcedura computazionale nella quale vengono messe a confronto due o piùsequenze proteiche per valutarne similitudini o differenze filogenetiche, strutturalie funzionali.

ALOGP Predittore di lipofilia che si basa su contributi atomici.

Analisi delle Componenti Principali (PCA)Tecnica di analisi multivariata per lo studio oggettivo del contenuto informativo diuna tabella di dati.

Analisi Discriminante (DA)Tecnica di tipo hard utile per costruire modelli di classificazione; se guidata da unatecnica di regressione quale PLS o O2PLS prende il nome rispettivamente di PLS-DA o O2PLS-DA.

Analisi farmacoforicaStrategia per costruire un modello farmacoforico tridimensionale, che descrivenello spazio le caratteristiche steriche ed elettroniche responsabili dell’interazione diun ligando con un target macromolecolare.

Analisi statistica multivariata di dati (MultiVariate data Analysis)Insieme di metodi statistici per la trattazione di problemi nei quali le osservazionisono descritte mediante un numero molto elevato di variabili descrittive.

Glossario

163

ANOVAInsieme di tecniche statistiche facenti parte della statistica inferenziale per l’analisidella varianza.

AtomtypeInsieme delle caratteristiche chimico-fisiche assegnate agli atomi del sistema mole-colare in esame che ne permettono l’identificazione e la classificazione in funzionedel campo di forza.

AutoscalingCombinazione dello scaling Unit Variance e della centratura rispetto al valore medio.

B

BLAST (Basic Local Alignment Search Tool)Algoritmo per la comparazione di sequenze proteiche.

BLOSUM (BLOck SUbstitution Matrix)Matrice di sostituzione aminoacidica.

Box-BehnkenPiani sperimentali per la determinazione di una equazione del secondo ordine, ageometria regolare, che prevedono lo studio di ciascun fattore a tre livelli senzacoinvolgere gli estremi degli intervalli di variabilità.

C

c.p. (center point)Condizioni sperimentali corrispondenti al centro del disegno scelto per la speri-mentazione.

Campo di forzaSet di parametri utilizzati per esprimere l'energia potenziale di un sistema di parti-celle; in ambito chimico-biologico, rappresenta una funzione di energia potenziale.

CCC (Central Composite Circumscribed)Piano fattoriale composito circoscritto; i punti assiali sono disposti a metà dell’in-tervallo di variabilità di ciascun fattore, a una distanza dal centro tale che tutti ipunti del disegno risultino circoscritti da una circonferenza

CCF (Central Composite Face-centered)Piano fattoriale composito a facce centrate; i punti assiali sono disposti a metà del-l’intervallo di variabilità di ciascun fattore.

Glossario164

Centratura Trasformazione matematica che trasforma una variabile misurata in un’altra aven-te media nulla; si realizza sottraendo il valore medio della variabile misurata allavariabile stessa.

Centro di ionizzazioneAtomo legato al protone che viene ceduto al solvente durante la ionizzazione delcomposto.

ChemiometriaTermine coniato da Svante Wold e da lui definita come “l'arte di estrarre informa-zioni chimiche pertinenti da dati prodotti da esperimenti chimici, in analogia conbiometria, econometria, etc.” utilizzando modelli matematici e statistici.

ChemoinformaticaSecondo la definizione di Brown del 1998, “la chemoinformatica è l’insieme e unione diquelle risorse atte a trasformare dati in informazioni e informazioni in conoscenza, con loscopo preciso di prendere decisioni migliori ed in tempi più brevi in funzione dell’identi-ficazione di nuovi farmaci”. Secondo la definizione più generale di Gasteiger del 2003, “lachemoinformatica è l’uso di metodi informatici atti a risolvere problemi chimici”.

Classificatore naïve bayesianoSemplice ma molto efficiente strumento di classificazione che si basa sul calcolodelle probabilità condizionali.

CLOGPPredittore in silico di lipofilia sviluppato dal Pomona Medicinal Chemistry Projectattorno al 1980.

Coefficiente K di CohenParametro che indica la capacità di classificazione di un modello calcolato a partiredalla matrice di confusione; più il suo valore si avvicina a 1 più il modello è un buonclassificatore.

Comparative modelingMetodologia computazionale per la predizione della struttura terziaria di proteinenon evoluzionisticamente correlate al loro templato.

ConfoundingCombinazione lineare di coefficienti dell’equazione di regressione che si verificaquando le prove sperimentali sono state pianificate mediante un piano fattorialefrazionario.

Coomans’ plotGrafico utilizzato per rappresentare i risultati di un modello di classificazione SIMCA.

Glossario 165

CorrelazioneIndice che quantifica la tendenza di una variabile a variare in funzione di un’altra;il grado di correlazione fra due variabili può essere misurato mediante il coefficien-te di correlazione di Pearson, che assume valore assoluto pari a 1 per variabili linear-mente dipendenti ed è nullo in assenza di correlazione.

CPUCentral Processing Unit.

Cross-validazioneTecnica di validazione interna usata per stimare il parametro Q2.

CTAB (tabella di connettività)La tabella di connettività (connection table o ctab) viene utilizzata per rappresenta-re le strutture chimiche. Contiene informazioni in formato tabulare che descrivonole relazioni strutturali tra atomi nonché le proprietà degli atomi stessi. Gli atomipossono essere connessi totalmente o parzialmente da legami chimici. Un atomopuò anche essere un frammento non connesso. Questa collezione di atomi può rap-presentare ad esempio molecole, frammenti molecolari, sottostrutture, gruppi fun-zionali, polimeri e formulazioni.

D

Data integrationProblema dell'analisi dati tipico delle omics sciences il cui l'obiettivo è quello diconfrontare l'informazione contenuta in diverse strutture di dati al fine di trovarerelazioni fra di esse; un esempio è la ricerca delle relazioni fra trascritti, proteine emetaboliti per una certa tipologia di linea cellulare durante il suo sviluppo.

Data miningAnalisi di grandi quantità di dati al fine di estrarre informazioni altrimenti nonnote. Fa uso di tecniche statistiche e matematiche che permettono di individuareeventuali ripetizioni di dati, schemi ricorrenti e tendenze statisticamente rilevanti,al fine di identificare regole e relazioni logiche. Le analisi permette di comprende-re relazioni di causa/effetto o di generare modelli che consentono di effettuare pre-dizioni.

Data modelIn relazione ai database, un data model è un modello astratto che definisce la strut-tura e l'organizzazione dei dati.

Database (banca dati)Collezione ordinata e ricercabile di informazioni. Il supporto fisico su cui questeinformazioni vengono archiviate non deve necessariamente essere elettronico; tut-

Glossario166

tavia la quasi la totalità dei database odierni utilizza un supporto di tipo elettronicoed un motore di ricerca basato su un algoritmo scritto in un appropriato linguag-gio di programmazione.

Descrittore 0DFamiglia di descrittori molecolari ottenuta a partire dalla formula bruta; sonodescrittori di questo tipo il peso molecolare e quelli di conteggio degli atomi.

Descrittore 1DFamiglia di descrittori molecolari derivata dalla formula bruta; sono descrittori diquesto tipo le liste di frammenti strutturali.

Descrittore EVA (EigenVAlue)Famiglia di descrittori di tipo 3D; il descrittore è un vettore costruito a partire dagliautovalori di una opportuna matrice che indica particolari proprietà del compostomolecolare in esame.

Descrittore FRBDescrittore che indica il numero di legami che possono ruotare presenti nella strut-tura del composto.

Descrittore molecolareOggetto matematico in grado di descrivere in modo utile e non ambiguo la struttu-ra chimica di un composto.

Descrittore WHIMFamiglia di descrittori di tipo olistico, che condensano cioè informazioni relati-ve all’intera struttura molecolare in un unico numero reale; la loro costruzioneè basata sulle coordinate degli atomi nella struttura 3D, su di una proprietà ato-mica di interesse e sulla diagonalizzazione di una opportuna matrice di cova-rianza.

Descrittori 2DFamiglia di descrittori molecolari ottenuta a partire dalla rappresentazione bidi-mensionale della struttura chimica che tengono conto della connessione fra atomi;i descrittori topologici sono un esempio di descrittori 2D.

Descrittori 3DFamiglia di descrittori molecolari ottenuta a partire dalla descrizione tridimensio-nale della struttura chimica.

Descrittori 4DFamiglia di descrittori molecolari ottenuta considerando il concetto di campoprodotto dalla molecola nello spazio; sono il risultato di approcci tipo GRID oCoMFA.

Glossario 167

Descrittori topologiciFamiglia di descrittori basata sulla rappresentazione 2D (bidimensionale) dellastruttura molecolare e sulla teoria dei grafi.

Disegno (o piano)Disposizione, nel dominio sperimentale, delle condizioni sperimentali da testare.

Disegno sperimentale (design of experiments, DOE, experimental design)Metodologia statistica per la pianificazione di una sperimentazione efficiente, perorganizzare cioè un insieme di esperimenti in modo da ottenere dati con un eleva-to contenuto di informazione mediante il minor numero di prove sperimentali pos-sibile.

DModX (distanza dal modello)Valore numerico che indica la distanza di una osservazione dall'iperpiano delmodello; è calcolato mediante la porzione di tabella di dati non spiegata dalmodello.

Docking molecolareMetodologia computazionale per la predizione dell’orientazione di una molecolalegata ad un bersaglio proteico.

Dominio di applicabilità del modelloSpazio multidimensionale all'interno del quale il modello è applicabile.

Dominio sperimentalePorzione di spazio n dimensionale (con n = numero di fattori) nelle variabili xiall’interno del quale il sistema viene studiato; è definito dal numero di fattori inesame e dai rispettivi intervalli di variabilità.

D-ottimale (disegno)Disegno estremamente flessibile, adatto all’esplorazione di domini irregolari, agestire lo studio di fattori qualitativi definiti a più di due livelli o allo studio di fat-tori di processo unitamente a fattori di formulazione; è inoltre in grado di conside-rare l’inclusione nel piano sperimentale di prove già effettuate.

E

ELN (Quaderno di laboratorio elettronico)Acronimo di “Electronic Laboratory Notebook” ovvero quaderno di laboratorioelettronico. Nella definizione più generale, ELN sostituisce il quaderno di laborato-rio cartaceo fornendo ai ricercatori una piattaforma elettronica per archiviare tuttele informazioni relative ai processi eseguiti. E’uno strumento per archiviare dati ascopo scientifico, tecnico e regolatorio.

Glossario168

EquilibraturaFase della dinamica molecolare in solvente esplicito il cui scopo è il raggiungimen-to di una distribuzione omogenea del solvente attorno al sistema molecolare inesame.

F

FASTA (FAST-All)Pacchetto software per l’allineamento di sequenza proteiche.

FattoreCiascuna variabile indipendente, generalmente indicata con la lettera x, che defini-sce lo stato di un sistema.

Fattori di formulazioneFattori quantitativi vincolati dalla relazione ∑i xi = 1 e che, quindi, non possonoessere vaiati indipendentemente gli uni dagli altri.

Fattori di processoFattori quantitativi che possono essere vaiati indipendentemente gli uni dagli altri.

Fattori qualitativiFattori che individuano una categoria.

Fattori quantitativiFattori il cui valore può variare su una scala numerica.

Features farmacoforicheSfere del modello farmacoforico che definiscono le caratteristiche chimico-fisichedei diversi gruppi funzionali di un ligando.

Foglio di lavoroL’elenco delle condizioni sperimentali effettuate e dei corrispondenti valori dellerisposte misurate.

G

GPUGraphic processing unit.

Grafo molecolareRappresentazione della struttura molecolare di un composto chimico attraverso leconvenzioni della teoria dei grafi.

Glossario 169

H

Hammett-Taft (equazioni)Equazioni lineari che permettono di stimare l’influenza di un sostituente sull’acidi-tà di un determinato centro di ionizzazione; tali equazioni sono proprie di ciascuncentro di ionizzazione per il quale l'effetto del sostituente è descritto dalla corri-spondente costante sigma.

Homology modelingMetodologia computazionale per la predizione della struttura terziaria di proteineevoluzionisticamente correlate al loro templato.

HTS (High-Throughput Screening)Processo di screening biologico applicato a un numero elevato di composti inmaniera simultanea; richiede di norma un elevato livello di automazione.

I

InChI (IUPAC International Chemical Identifier)Standard di rappresentazione delle formule chimiche introdotto dalla IUPAC;analogamente a SMILES, si tratta di una stringa di testo atta a rappresentare unastruttura chimica per una successiva elaborazione al computer. Rispetto a SMI-LES il linguaggio InChI produce stringhe di testo la cui comprensione non èimmediata.

Intervallo di variabilità (di un fattore)Intervallo di valori definito dal livello inferiore (valore minimo) e dal livello supe-riore (valore massimo) che il fattore può assumere nella fase sperimentale.

L

Ligand-based drug designSettore della ricerca farmaceutica computazionale volto all’identificazione e otti-mizzazione di nuovi composti, in particolare quando la struttura tridimensionaledel bersaglio molecolare non è nota.

LipofiliaÈ definita per ogni composto chimico come il logaritmo decimale del suo coeffi-ciente di ripartizione fra 1-ottanolo e acqua; indica la tendenza di un composto apreferire un ambiente polare piuttosto che uno meno polare.

Lipofilia apparenteMisura della lipofilia per specie ionizzabili che tiene conto di tutte le specie in solu-zione.

Glossario170

LoadingValore numerico che indica il peso di una particolare variabile descrittiva nelmodello; nel caso di modello PCA, il loading definisce anche la direzione di proie-zione nello spazio delle variabili.

M

Matrice di confusioneTabella rappresentativa delle prestazioni di un modello di classificazione; per cia-scuna osservazione, confronta la classe attribuita in predizione con la classe cuieffettivamente l’osservazione appartiene.

Matrice di datiOggetto matematico relativo all’algebra lineare che rappresenta una tabella di datimediante un insieme ordinato di righe e colonne.

Meccanica molecolareBranca delle chimica computazionale che si prefigge lo scopo di descrivere le molecole(solitamente molecole di dimensione medio-grande) tramite le leggi della fisica classica.

Meccanica quantisticaTeoria che descrive i sistemi molecolari come una sovrapposizione di stati diversi eprevede che il risultato di una misurazione non sia completamente arbitrario, masia incluso in un insieme di possibili valori.

Metodi proiettiviTecniche di analisi statistica basate sull'operazione di proiezione; sono tecniche diquesto tipo PCA, PLS, PLS-DA, O2PLS e O2PLS-DA.

MinimizzazioneFase del processo di dinamica moleocolare che consiste nell’ottimizzazione geome-trica del sistema molecolare.

MLOGPPredittore di lipofilia proposto da Moriguchi che si avvale di numero ridotto didescrittori strutturali.

MLR (Multiple Linear Regression)Regressione lineare multipla; metodo per la stima (mediante l’impiego di misuresperimentali o calcolate) di un modello matematico rappresentativo della relazionetra più fattori ed una risposta.

Model ValidityParametro che esprime il confrontano tra l’errore sperimentale e l’errore associatoal modello di regressione.

Glossario 171

Modello farmacoforicoCombinazione della serie di features coinvolte nelle interazioni stabilizzanti ligandoe bersaglio molecolare durante il loro processo di riconoscimento.

ModelloEquazione matematica che definisce la relazione yj = f(xi) tra le risposte di interes-se yj ed i fattori xi che influenzano lo stato del sistema; nella accezione relativa allamodellistica molecolare, con xi sono indicati i descrittori molecolari.

Multivariato (sistema)Un sistema è definito multivariato quando dipende da un numero di variabili indi-pendenti superiore a 2.

O

O2PLS (Orthogonal Projections to Latent Structures)È una tecnica statistica multivariata che serve per mettere in relazione due blocchidi dati costruendo un filtro ortogonale per ciascun blocco; è una evoluzione dellatecnica PLS che rimuove i problemi legati al rumore strutturato

Omics scienceInsieme di discipline che utilizzano particolari piattaforme sperimentali per studia-re aspetti della biochimica dei viventi; ad esempio, la trascrittomica studia l'attivitàdi trascrizione delle cellule di un vivente; la metabolomica studia i metaboliti pro-dotti.

Ottimizzazione (obiettivo)L’obiettivo di una sperimentazione è definito di “ottimizzazione” quando si ricerca-no informazioni dettagliate sul sistema, si desidera cioè stimare un modello che per-metta di individuare le condizioni sperimentali di interesse con un basso errore inpredizione; i modelli usati dipendono dalla complessità del sistema e posso essere ditipo lineare, quadratico e più raramente di terzo grado.

OutlierOsservazione che risulta differire dalle altre sulla base di uno dei test statistici depu-tati alla individuazione di tali differenze.

P

PAM (Point Accept Mutation)Matrice di sostituzione aminoacidica.

Glossario172

Parallel Factor Analysis (PARAFAC)Tecnica di analisi dati per la realizzazione di pattern recognition nel caso di struttu-re dati aventi più di due dimensioni.

ParametrizzazioneFase della dinamica molecolare che prevede l’assegnazione al sistema molecolare inesame della topologia, delle coordinate spaziali, delle cariche e dello stato di solva-tazione.

Pareto scalingTipologia di scaling il cui il fattore di scalatura è la radice quadrata della deviazionestandard della variabile.

Partizione ricorsivaSemplice ma efficiente tecnica che produce schemi ad albero in cui l’insieme delleosservazioni in studio è suddiviso in due gruppi a ogni biforcazione dell’albero; labiforcazione è ottenuta mediante l’applicazione di una regola opportuna che coin-volge le variabili usate per descrivere il sistema; è usato di solito per problemi diclassificazione a due classi.

Pattern di confoundingTipologia il confounding; è dipendente dal piano fattoriale frazionario usato per lapianificazione delle prove sperimentali.

Pattern recognitionTipo di analisi che si prefigge lo scopo di individuare tendenze caratteristiche fra leosservazioni quali raggruppamenti, outlier o andamenti.

PDB (Protein Data Bank)Banca dati che raccoglie strutture proteiche ottenute attraverso diverse tecniche spe-rimentali.

pHÈ una scala di misura dell'acidità di una soluzione acquosa; misura l'attività delcatione ossonio.

Piano (o disegno)Disposizione, nel dominio sperimentale, delle condizioni sperimentali da testare.

Piano fattoriale completoDisegno a geometria regolare che permette l’esplorazione di un dominio simmetri-co; prevede di testare ciascun fattore a ciascun livello stabilito per ciascuno deglialtri fattori; permette la determinazione dei coefficienti dei termini lineari e di inte-razione.

Glossario 173

Piano fattoriale compositoDisegno a geometria regolare che permette l’esplorazione di un dominio simmetri-co; prevede prove aggiuntive rispetto ad un fattoriale completo in modo tale che cia-scun fattore sia testato a 3 o a 5 livelli e permette, quindi, la determinazione di coef-ficienti del secondo ordine.

Piano fattoriale frazionarioDisegno derivante da un fattoriale completo per omissione di alcune opportuneprove sperimentali; permette la determinazione dei coefficienti dei termini lineari edi interazione secondo il corrispondente pattern di confounding.

pKaLogaritmo decimale dell'inverso della costante di ionizzazione di un acido in acqua;misura la forza di un acido nel cedere protoni all'acqua ed ha un valore tanto piùpiccolo quanto più forte è l'acido.

PLS (Projections to Latent Structures by Partial Least Squares)Metodo di analisi multivariate in grado di modellare le relazioni esistenti tra dueblocchi di dati, quello delle variabili indipendenti xi e quello delle risposte yj; laregressione viene condotta nello spazio latente ottenuto mediante proiezione.

Principio di minima idrofobicitàPrincipio secondo il quale nella messa a punto di nuovi farmaci dovrebbero esserepreferiti quei composti con la più bassa lipofilia compatibilmente con l’affinitàverso il recettore in studio.

ProduzioneFase della dinamica molecolare in cui si genera una traiettoria (insieme delle coor-dinate assunte dagli atomi nel tempo) che evidenzia l’evoluzione spaziale del siste-ma molecolare nel tempo.

Q

Q2

Parametro che stima il potere predittivo del modello di regressione; il suo valore ècompreso tra -∞ e 1.

QSAR (Quantitative Structure Activity Relationship)Metodologia che permette di costruire un modello matematico capace di mettere in rela-zione l'attività biologica di una sostanza chimica con la sua struttura.; in generale la strut-tura chimica viene codificata mediante l'utilizzo di descrittori molecolari che vengonoutilizzati come variabili indipendenti nella costruzione del modello struttura-attività.

Glossario174

QSDAR (Quantitative Spectrometric Data-Activity Relationship)Approccio per lo studio della attività biologica di molecole effettuato a partire dadescrittori derivati da spettri sperimentali o calcolati; generalmente sono utilizzatispettri ottenuti mediante tecniche monodimensionali (ad esempio 1D-NMR oppu-re spettri di massa..

QSPR (Quantitative Structure Property Relationship)Approccio secondo il quale le caratteristiche peculiari di composti chimici descrittiin modo opportuno a partire dalla loro struttura chimica vengono messe in relazio-ne con le proprietà chimico-fisiche dei composti stessi.

R

R2

Coefficiente di determinazione; stima della discrepanza tra i punti sperimentali edi corrispondenti punti del modello di regressione; il suo valore è compreso tra 0 e 1.

Ramachandran PlotSistema di visualizzazione degli angoli diedri del backbone proteico.

Regressione sempliceMetodo per la stima (mediante l’impiego di misure sperimentali o calcolate) di unmodello matematico rappresentativo della relazione tra un fattore ed una risposta.

Reti Neurali Artificiali o ANN (Artificial Neural Network)Strumenti di regressione o classificazione che permettono di modellare sistemi alta-mente non lineari che si basano sull'adattamento ai dati delle connessioni fra stratidi unità elementari detti neuroni.

RispostaCiascuna variabile dipendente, generalmente indicata con la lettera y, che misurauna proprietà di interesse del sistema.

RMSDGrandezza che stima la differenza dei valori predetti da un modello e i valori osser-vati; è una distanza in Å ed esprime una misura di precisione.

S

SAR (Structure Activity Relationship)Modello teorico che permette di identificare in maniera qualitativa una associazio-ne tra la struttura di una sostanza chimica e la sua attività biologica o comporta-mento chimico-fisico. Le proprietà ADME possono essere qualitativamente predet-te mediante opportune analisi SAR.

Glossario 175

ScalingÈ una trasformazione matematica che produce una nuova variabile che ha un inter-vallo di variabilità diverso rispetto a quello della variabile di origine; di solito siottiene moltiplicando la variabile misurata per un fattore di scaling.

Schema di frammentazioneSerie di regole per il calcolo del numero e tipo di frammenti nei quali può esseresuddivisa una struttura molecolare; uno schema molto usato è quello del carbonioisolante.

Schema di frammentazione del carbonio isolanteSchema di frammentazione di una molecola secondo il quale vengono prima indivi-duati e poi rimossi dalla struttura i “carboni isolanti” definiti come atomi di carbo-nio aventi particolari caratteristiche; le unità rimanenti sono chiamate frammenti.

ScoreValore numerico corrispondente all’entità della proiezione di una osservazionelungo una particolare direzione nello spazio delle variabili.

Scoring functionFunzione matematica che assegna un ranking ai vari complessi generati mediantedocking; opera come “classificatore energetico” dei complessi allo scopo di ordinar-li in base alla relativa ΔGbind o ad un punteggio ad essa correlato.

Screening (obiettivo)L’obiettivo di una sperimentazione e è definito di “screening” quando si ricercanoinformazioni preliminari sul sistema; i modelli utilizzati prevedono il calcolo deisoli coefficienti dei termini lineari oppure dei coefficienti dei termini lineari e diinterazione.

SDEC (Standard Deviation Error in Calculation)Stima dell'errore in calcolo del modello; è calcolato sul training set.

SDEP (Standard Deviation Error in Prediction)Stima dell'errore in predizione del modello; è calcolato sull'insieme di osservazioniusato per la validazione del modello.

Selezione del training setPer la costruzione di un modello è necessario utilizzare osservazioni altamenteinformative relativamente al responso di interesse; le tecniche di Design ofExperiments, quali ad esempio D-optimal design e Onion D-optimal design, posso-no essere utilizzate per campionare l’insieme di tutte le osservazioni al fine di sele-zionare quelle più utili per la costruzione del modello.

Glossario176

SIMCA (Soft Independent Modeling of Class Analogy)Tecnica statistica di classificazione di tipo soft basata su modelli PCA delle singoleclassi.

SMILES (Simplified Molecular Input Line Entry Specification)Analogamente a InChI, corrisponde ad una stringa di testo finalizzata alla rappre-sentazione di una struttura chimica al fine di una successiva elaborazione al com-puter. Rispetto a InChI, il linguaggio SMILES ha il vantaggio di produrre stringhedi immediata lettura da parte di un utente. Per ulteriori informazioni:http://www.daylight.com/smiles/f_smiles.html.

SolubilitàValore numerico che misura la concentrazione di soluto in una soluzione satura;è possibile definire una solubilità intrinseca per la specie neutra ed una solubili-tà dipendente da tutte le specie in soluzione se il composto è soggetto a ionizza-zione.

Sostanze congenericheInsieme di composti chimici aventi caratteristiche simili fra loro rispettoad una par-ticolare proprietà di interesse.

Spazio chimicoRegione di uno spazio descritto da opportune variabili (ad esempio score di unmodello PCA) che racchiude i composti chimici in esame.

Spazio delle variabiliSpazio ottenuto considerando come sistema di assi di riferimento quello formatodalle variabili descrittive utilizzate.

Spazio latenteSpazio ottenuto per proiezione delle variabili descrittive; viene descritto dagli scoredel modello.

Superficie di rispostaGrafico bidimensionale o tridimensionale costituito da una superficie a curve diisolivello rappresentante i valori della risposta predetti dal modello di regressioneall’interno del dominio sperimentale testato.

Superficie molecolareSuperficie di una molecola calcolata sulla base della sua rappresentazione 3D; puòessere calcolata in diversi modi; uno dei più utilizzati è SASA (superficie accessibileal solvente).

Glossario 177

T

T2Valore numerico che indica la distanza dal centro del modello della proiezione diuna osservazione sull'iperpiano del modello stesso; è calcolato come combinazionelineare degli scores.

Tabella delle connessioniRappresentazione computazionale della struttura molecolare contenente la listadegli atomi della molecola e l'elenco e la tipologia dei legami.

Tabella di datiÈ una struttura organizzata in cui sono raccolti i dati di interesse; solitamente cia-scuna riga della tabella rappresenta una osservazione del sistema in esame mentrein colonna sono indicati i valori assunti dalle variabili descrittive.

Tecniche supervisedTecniche di analisi di dati in cui il modello è costruito sulla base di informazioni apriori; la PLS-DA è un esempio di tecnica supervised.

Tecniche unsupervisedTecniche di analisi non guidate in cui cioè non è utilizzata alcuna informazione apriori; PCA è un esempio di tecnica unsupervised.

TemplateProteina le cui caratteristiche tridimensionali verranno trasferite al modello protei-co da costruire.

Test di robustezza (obiettivo)L’obiettivo di una sperimentazione è definito “test di robustezza” quando sono notele condizioni nominali di lavoro e si desidera stabilite se il sistema è stabile o menorispetto a piccole variazioni dei fattori che lo influenzano attorno a tali valori.

Test setInsieme formato dalle osservazioni utilizzate per la validazione del modello.

TPSAValore numerico indice della polarità del composto calcolato come somma di con-tributi atomici.

Training setInsieme di osservazioni utilizzato per la costruzione del modello.

Glossario178

U

Unit VarianceTipologia di scalatura; il fattore di scalatura è la deviazione standard della variabile.

V

Variabile descrittivaGrandezza utilizzata per descrivere il sistema in studio.

Variabile latentevariabile che ha per elementi gli score ottenuti per proiezione; fornisce una visionedelle osservazioni secondo il modello prodotto dalla tecnica di analisi utilizzata.

VIP (Variable Importance in the Projection)Parametro che indica l'importanza di una variabile nel modello PLS.

Virtual screeningDocking molecolare applicato a databases di strutture allo scopo di selezionare icomposti con maggior affinità per il bersaglio in esame.

Glossario 179

AAccuratezza 61-62, 65-66, 98-100, 103,

110, 115-116, 129ADME 106, 115, 160, 163, 175Allineamento di sequenze proteiche

150, 163ALOGP 110, 113, 116, 163Analisi delle Componenti Principali

(PCA) 38-40, 47-48, 50-53, 56-57, 59,61-62, 78, 85-88, 91, 94, 97-100, 163,171, 177-178

Analisi Discriminante (DA) 39, 91, 163Analisi farmacoforica 122, 163Analisi statistica multivariata di dati

(MultiVariate data Analysis) 37-38,40, 47, 163

ANOVA 29, 164Atomtype 164Autoscaling 49, 52, 62, 164

BBarriera emato-encefalica 91-92, 95Biplot 55BLAST (Basic Local Alignment Search

Tool) 136, 150, 164BLOSUM (BLOck SUbstitution Matrix)

136, 164Box-Behnken 21, 164

Cc.p. (center point) 15, 164

Campo di forza 97-98, 125-127, 134,139-141, 164

Canale hERG 91, 95, 97, 100CCC (Central Composite

Circumscribed) 20-21, 29, 30, 164CCF (Central Composite Face-centered)

20-21, 164Centratura 48-50, 94, 99, 164-165Centro di ionizzazione 104-107, 115,

165, 170Chemiometria 1, 165Chemoinformatica 119, 121, 145, 148,

152, 154, 158, 165Classificatore naïve bayesiano 89-90,

165CLOGP 110, 113, 116, 165Coefficiente K di Cohen 66, 98, 165Comparative modeling 135, 165Confounding 19-20, 22, 165, 173-174Coomans’ plot 57-58, 165Correlation loading plot 55, 66-69Correlazione 1-2, 38-39, 41-43, 51, 54-

55, 59, 67, 77, 88, 98, 166CPU (Central Processing Unit) 142,

166Cross-validazione 52, 61, 166CTAB (tabella di connettività) 145-

146, 151, 154, 156, 166

DData integration 41, 166

Indice analitico

181

Data mining 37, 110, 156, 158-159,161, 166

Data model 154-158, 166Database (banca dati) 107, 110, 114-

116, 122-123, 133-134, 145-146, 148-153, 156-158, 166-167, 179

Descrittore 0D 167Descrittore 1D 167Descrittore EVA (EigenVAlue) 86, 98-

100, 167Descrittore FRB 95, 167Descrittore molecolare 75-76, 167Descrittore WHIM 167Descrittori 2D 77, 86, 167Descrittori 3D 85-86, 167Descrittori 4D 77, 167Disegno (o piano) 168Disegno sperimentale (design of experi-

ments, DOE, experimental design) 2,4, 7-11, 14, 16, 24-15, 168

DModX (distanza dal modello) 51-53,56-59, 61-62, 75, 168

Docking molecolare 125, 131, 138, 168,179

Dominio di applicabilità del modello61, 75, 95, 168

Dominio sperimentale 2-4, 6-10, 14,16, 25, 29-30, 168, 173, 177

D-ottimale (disegno) 168

EELN (Quaderno di laboratorio elettro-

nico) 156, 168Equilibratura 139, 141, 169

FFASTA (FAST-All) 136, 169Fattore 2-3, 6-7, 9, 14-15, 17-21, 24-25,

27, 30-32, 41, 49-50, 59, 153, 164,169-170, 173-176, 179

Fattori di formulazione 21, 168-169Fattori di processo 21, 25, 168-169Fattori qualitativi 21, 25, 168-169Fattori quantitativi 24-25, 169Features farmacoforiche 124, 169

Fingerprint 57Foglio di lavoro 10-11, 169

GGPU (Graphic Processing Unit) 142, 169Grafo molecolare 78-79, 119-120, 169

HHammett-Taft (equazioni) 105-107,

115-116, 170Homology modeling 134-137, 170HTS (High-Throughput Screening) 161,

170

IIC50 (half maximal Inhibitory

Concentration) 97InChI (IUPAC International Chemical

Identifier) 121-122, 147-148, 170, 177Intervallo di variabilità (di un fattore)

3, 10, 14-16, 20, 24-25, 29, 73, 164,170, 176

LLigand-based drug design 122, 170Lipofilia 73-75, 79, 81, 92, 95, 103, 105,

107-117, 163, 165, 170-171, 174Lipofilia apparente 109, 170Loading 46-47, 51-55, 60, 63, 66-69,

78-80, 82, 84, 171Loading scatter plot 52-54

MMatrice di confusione 65-66, 165, 171Matrice di dati 171Meccanica molecolare 76, 85, 125-126,

129-130, 134, 139, 171Meccanica quantistica 126, 171Metodi proiettivi 38, 40, 47-48, 50-52,

91, 171Minimizzazione 129-130, 132, 138-

139, 141, 171MLOGP 110, 113, 116, 171MLR (Multiple Linear Regression) 9,

171

Indice analitico182

Model Validity 11, 26-27, 30-32, 171Modello 3, 8-14, 16-17, 22, 24-27, 29-

30, 32, 34, 39-43, 46-48, 50-53, 55-68,71-76, 78, 86-89, 91, 93-95, 97-00,110-111, 113, 116, 123-126, 135-139,154-155, 160, 163, 165-166, 168-169,171-172, 174-179

Modello farmacoforico 123-124, 163,169, 172

Multivariato (sistema) 4, 33, 38-39, 46-47, 59, 172

OO2PLS (Orthogonal Projections to

Latent Structures) 39-41, 50, 163,171-172

Omics science 40, 48, 166, 172Ottimizzazione (obiettivo) 16, 20-22,

24-25, 27, 29, 122, 130, 133, 135, 138-139, 141, 145, 170-172

Outlier 47, 50-54, 56-57, 61-62, 87-88,94, 97, 99-100, 172-173

Over-fitting 61

PPAM (Point Accept Mutation) 136, 172PARAFAC (Parallel Factor Analysis) 39,

173Parametrizzazione 110-111, 113, 139-

140, 173Pareto scaling 173Partizione ricorsiva 89, 91, 100, 115,

173Pattern di confounding 19-20, 173-174Pattern recognition 40, 42, 57, 69, 173PDB (Protein Data Bank) 136-137,

146, 149, 152, 173pH 25, 29-34, 104, 109, 113, 173Piano (o disegno) 4, 10, 15, 17-26, 29-

30, 43, 63, 68, 164-165, 168, 173-174Piano fattoriale completo 17-18, 20,

25-26, 173Piano fattoriale composito 20, 25-26,

29, 164, 174Piano fattoriale frazionario 18-20, 22,

26, 165, 173-174pKa 103-107, 109, 114-117, 174PLS (Projections to Latent Structures by

Partial Least Squares) 59, 174Principio di minima idrofobicità 174Produzione 29, 40, 139, 141-142, 154,

174Proiezione 38-40, 43-47, 56, 60-61, 63,

67, 89, 171, 174, 176-179

QQ2 11, 26-27, 30-32, 61-62, 67, 88-89,

95, 97-99, 166, 174QSAR (Quantitative Structure Activity

Relationship) 41, 71, 73-75, 79, 87,93, 97, 122, 125, 159, 174

QSDAR (Quantitative SpectrometricData-Activity Relationship) 87, 175

QSPR (Quantitative Structure PropertyRelationship) 41, 71, 73-75, 79, 110,175

RR2 11, 26-27, 30-32, 52, 57, 61-62, 67,

94-95, 97-99, 175Ramachandran Plot 138, 175Regressione semplice 14, 175Reti Neurali Artificiali o ANN

(Artificial Neural Network) 175Risposta 2-3, 5-8, 10-14, 16-17, 19-20,

22, 26-32, 41-42, 59, 61-65, 153, 159,171, 175, 177

RMSD (Root Mean Square Deviation)142, 175

SSAR (Structure Activity Relationship)

175Scaling 48-51, 164, 173, 176Schema di frammentazione 81, 99,

111-114, 176Schema di frammentazione del carbo-

nio isolante 176Score 44-47, 51-55, 60-63, 78-82, 84-

89, 91, 94, 98-99, 176-179

Indice analitico 183

Score scatter plot 52-55, 67Scoring function 125, 133, 176Screening (obiettivo) 16, 18, 20, 22,

124, 133, 137, 161-162, 170, 176, 179SDEC (Standard Deviation Error in

Calculation) 62, 74, 95, 176SDEP (Standard Deviation Error in

Prediction) 63, 95, 176Selettività 66, 100, 160Selezione del training set 93, 176SIMCA (Soft Independent Modeling of

Class Analogy) 39-40, 56-58, 66, 91,165, 177

SMILES (Simplified Molecular InputLine Entry Specification) 121, 147,154, 156, 170, 177

Solubilità 73, 103, 105, 108, 113-117,177

Sostanze congeneriche 177Spazio chimico 110, 115, 177Spazio delle variabili 44-46, 171, 176-

177Spazio latente 39, 47, 51, 63, 67, 100,

174, 177Strutture di dati 37, 39, 166Superficie di risposta 11, 17, 20, 27-29,

31-32, 177Superficie molecolare 77-78, 81-83, 92,

177

TT2 51-53, 61-62, 75, 80, 84, 94, 178Tabella delle connessioni 119-120, 178Tabella di dati 38, 40, 44-53, 57-60, 62,

66-67, 163, 168, 171, 178Tecniche supervised 48, 65, 178Tecniche unsupervised 48, 178Template 135-138, 178Test di robustezza (obiettivo) 16, 20,

178Test set 72, 87, 94-95, 98-100, 178TPSA (Topological Polar Surface Area)

74, 83, 92-93, 95, 98, 178Training set 56, 72, 87, 93-95, 98-100,

134, 176, 178

UUnit Variance 49-50, 164, 179

VVariabile descrittiva 49, 90, 171, 179Variabile latente 47, 179VIP (Variable Importance in the

Projection) 61, 89, 99, 179Virtual screening 133, 179

Ww*c plot 63-64, 66

Indice analitico184

Glossario - Springer978-88-470-2409-0/1.pdf · le quattro fasi del percorso di una sostanza chimica...

Documents

Transcript of Glossario - Springer978-88-470-2409-0/1.pdf · le quattro fasi del percorso di una sostanza chimica...