parte 2: Disegno sperimentale

DISEGNO SPERIMENTALE

Federico Marini

Experimental design? •  Il termine disegno sperimentale è usato in due contesti:

–  Descrivere la serie di esperimenti che vengono condotti allo scopo di mettere a punto un modello (ad es. di regressione)

–  Ottimizzazione di prodotti o di processi: l’ED è applicato per determinare in maniera efficiente l’insieme di condizioni necessarie per ottenere un prodotto o un processo con caratteristiche desiderabili, spesso ottimali.

•  Dal momento che la modellizzazione è uno degli strumenti principali per la fase di ottimizzazione, l’ED può essere applicato anche alla messa a punto di modelli ottimali.

•  Ci occuperemo principalmente del secondo contesto.

Le variabili •  Si vuole determinare un insieme (ottimale) di condizioni,

ovvero i valori numerici di una serie di fattori. •  I fattori sono variabili che vengono cambiate in maniera

controllata per studiare il loro effetto sul processo o sul prodotto e che hanno (possono avere) influenza sulle caratteristiche studiate.

•  Tipicamente, l’ED ha un approccio multivariato •  Le caratteristiche del prodotto o del processo che si vuole

ottimizzare vengono chiamate risposte e possono essere definite come variabili che descrivono le performances.

•  Due tipi di variabili: indipendenti (fattori, xi) e dipendenti (risposte, yi)

•  In molti casi, ciascuna risposta è trattata separatamente:

( )ni x,...,x,x,xfy 321=

I modelli •  Il modello che collega le risposte all’effetto dei fattori è

chiamato funzione di risposta o, sulla base del suo carattere multivariato, superficie di risposta.

•  Questi modelli sono ottenuti a partire dagli esperimenti. •  Il termine “disegno” indica che questi esperimenti sono scelti

ed eseguiti in maniera accuratamente pianificata e ponderata

Scopi del disegno sperimentale •  L’ED è utilizzato per ottenere un prodotto o un processo con

caratteristiche desiderabili. •  Questo significa che si vuole:

–  Comprendere l’effetto dei fattori e/o –  Modellare la relazione tra y e x

effettuando il minimo numero di esperimenti possibile. •  È necessaria una mappatura ordinata ed efficiente del

dominio sperimentale. •  Se applicato bene, l’ED permette di tagliare i costi. •  In molti casi si combinano entrambi gli scopi descritti.

Come si procede? •  Si inizia determinando quali fattori influenzino la risposta e fino

a che punto. •  Il passo successivo è spesso quello di ottenere un modello che

descriva in maniera quantitativa l’effetto dei fattori sulla risposta.

•  Infine, sulla base del modello si cerca di trovare le condizioni ottimali, ovvero i valori dei fattori che risultano nelle migliori caratteristiche del prodotto, processo o procedura studiati.

•  L’ED è quindi utilizzato per ottimizzare risposte. •  I valori ottimali possono essere i più alti o i più bassi possibile,

ma ci possono essere casi in cui uno sia interessato a determinare una regione in cui i risultati siano sufficientemente buoni.

Come si procede - 2

I fattori sperimentali •  Nell’ED i fattori possono essere qualitativi e quantitativi. •  Se uno è interessato a sapere se il tipo di catalizzatore o il

tipo di solvente abbia effetto sulla resa di una reazione, ha a che fare con fattori qualitativi.

•  Se invece si considera il pH, è un fattore quantitativo. •  I differenti valori a cui vengono controllati i fattori sono

chiamati livelli. •  Ad esempio, se l’ED richiede di effettuare esperimenti ai

valori di pH 5 e 9, allora ci sono due livelli di pH. •  Il termine livelli può essere usato anche per fattori qualitativi

(es. metanolo e acetonitrile) •  Sono possibili anche situazioni miste: ad es. valutare l’effetto

di solvente e pH su una risposta cromatografica.

I fattori sperimentali - 2 •  La selezione dei fattori è in genere il primo step

nell’applicazione di un disegno sperimentale •  Talora si sa quali fattori abbiano un effetto sulla risposta ma

spesso non si ha questa informazione •  In quest’ultimo caso, si parte annotando tutti i possibili fattori

che potrebbero avere un qualche effetto sulla risposta e si fa uno screening

•  Esistono disegni specifici che possono essere applicati per questo scopo (screening designs)

•  Una volta scelti i fattori è necessario fissare i limiti del dominio sperimentale, ovvero i livelli estremi a cui i fattori verranno studiati.

•  Il dominio sperimentale è delimitato dai livelli assunti da alcuni fattori.

Esempi di dominio sperimentale

Il dominio sperimentale •  Molto spesso si sceglie un dominio simmetrico, anche se in

alcuni casi questo può non essere possibile o addirittura desiderabile

•  È necessaria una corretta definizione dei limiti e dei livelli •  Limiti troppo ampi possono portare a fare esperimenti in

condizioni inutili e portano ad una precisione insufficiente del modello

•  Esistono metodi per avere un stima ragionevole di quali limiti porre al dominio sperimentale

Le risposte •  Un passaggio fondamentale nell’ED è la scelta delle risposte

da studiare •  Di solito si prova a modellare ogni risposta separatamente •  Nei casi reali, può capitare spesso che uno voglia studiare

più di una risposta contemporaneamente e che le condizioni ottimali per una siano in conflitto con quelle per le altre

•  In questo caso non si devono cercare le condizioni ottimali per ciascuna risposta separatamente, ma un adeguato compromesso

•  Le tecniche per trattare questo tipo di situazioni prendono il nome di metodi multicriterio.

ED e ottimizzazione •  Nella sua accezione più classica, ottimizzazione significa

trovare il valore dei fattori che corrisponda alla risposta più alta (es. massima resa di un prodotto desiderato) o più bassa (minima resa di un sottoprodotto).

•  Non sempre, tuttavia, questa è la scelta migliore •  Ad esempio, può capitare che il massimo della superficie di

risposta si trovi in una zona particolarmente ripida, per cui piccole variazioni dei fattori possono provocare brusche diminuzioni della y.

•  In questi casi, può essere meglio scegliere un valore più basso di risposta, ma in una regione in cui la superficie sia più piatta (maggiore robustezza).

•  Esistono disegni che ottimizzano allo stesso tempo la risposta e la robustezza (Taguchi).

ED e ottimizzazione - 2

Strategie di ottimizzazione •  Ci sono due tipi di strategie multivariate di ottimizzazione:

sequenziali e simultanee. •  Si possono dare anche combinazioni delle due. •  Le strategie simultanee consistono nell’effettuare un numero

relativamente alto di esperimenti secondo uno schema pre-arrangiato (disegni fattoriali e di miscela).

•  In queste strategie, i dati sperimentali sono utilizzati per mettere a punto dei modelli e, a loro volta, questi modelli per stimare le condizioni sperimentali ottimali (corrispondenti alla massima o minima y).

Strategie di ottimizzazione - 2 •  Una strategia sequenziale consiste nel condurre pochi

esperimenti alla volta e utilizzare i risultati di questi esperimenti per decidere quali esperimenti fare in seguito.

•  Il più famoso è il metodo simplex: in 2D si parte da 3 esperimenti organizzati a triangolo e di volta in volta ci si muove in direzione opposta all’esperimento che ha dato i risultati peggiori.

Sequenziale o simultaneo? •  L’approccio sequenziale si preferisce quando si è interessati

solamente alle condizioni ottimali per una singola risposta. •  Le sue caratteristiche matematiche lo rendono molto

efficiente in queste situazioni •  I metodi simultanei, invece, sono da preferire quando si vuole

conoscere anche il modello che lega le risposte ai fattori •  I disegni sequenziali, inoltre, non possono essere applicati in

maniera semplice quando si vogliano modellare più risposte

Le funzioni di risposta: i modelli •  L’ED è utilizzato per sviluppare modelli empirici: tutti quei

casi in cui non è possibile derivare la funzione di risposta dalla teoria

•  Questi casi capitano praticamente sempre •  La teoria ci permette spesso di prevedere che ci sia una

qualche relazione tra un certo fattore e una risposta •  Qualche volta ci permette di derivare quale tipo di funzione

(lineare, quadratica, …) ci si debba aspettare •  Ma non ci dà modo di stimare e calcolare i coefficienti di

questa funzione

I modelli - 2 •  Alcuni esempi di modelli (nel caso di due variabili):

•  Si nota che essi consistono di: –  Un termine noto b0

–  Termini di primo e secondo ordine per x1 e x2

–  Un termine di interazione x1x2

•  Spesso si lavora con fattori codificati, ovvero scalati affinché la loro variabilità sia compresa, ad esempio, tra –1 e +1.

•  In questo caso, lo zero coincide con il valore medio dell’intervallo.

•  b0 quindi rappresenta i l valore della risposta in corrispondenza del centroide.

211222110 xxbxbxbby +++=

21122222

211122110 xxbxbxbxbxbby +++++=

I modelli - 3 •  In genere, i modelli che si utilizzano sono di secondo ordine e

contengono termini quadratici e interazioni binarie. •  In principio si potrebbero utilizzare anche polinomi di ordine

superiore, ma questo è raramente necessario •  Nella pratica, molte situazioni possono essere approssimate,

almeno localmente, da queste funzioni. •  Esistono però delle eccezioni (ad es. risposte sigmoidali). •  Anche in questi casi, però, si possono scegliere opportune

regioni dove la risposta sia ancora quadratica

I modelli - 4 •  Questi tipi di modelli sono validi per le cosiddette variabili di

processo •  Questo nome si comprende meglio preso in opposizione a

variabili di miscela, ovvero quei fattori che descrivono la composizione di una miscela e che soddisfano la condizione di chiusura ad 1.

•  I modelli per le variabili di miscela non comprendono i termini quadratici associati ai singoli fattori, ma solo le interazioni.

•  Essi non comprendono nemmeno il termine noto. •  Talvolta può essere necessario ricorrere a modelli di terzo

ordine, con l’aggiunta del termine in parentesi. ( )321123322331132112332211 xxxbxxbxxbxxbxbxbxby ++++++=

I modelli - 5 •  I modelli descritti sono modelli di regressione. •  L’utilizzo di metodi di regressione per il calcolo dei

coefficienti permette di: –  Verificare se tutti i termini del modello siano necessari –  Validare il modello –  Stimare il valore dei coefficienti del modello in maniera più precisa

possibile –  Cercare di ottenere il più piccolo errore di previsione possibile attorno

al valore ottimale

•  In genere si usa la regressione lineare multipla (MLR) ma si può usare anche la regressione PLS.

Disegni simultanei (fattoriali) •  Si possono distinguere due classi di disegni:

–  Disegni in cui l’enfasi sia posta sulla possibilità di determinare quali fattori influenzino la risposta e di stimare l’entità di questa influenza

–  Disegni in cui l’enfasi si pone sulla fase di modellamento

•  Accanto a questi esistono due casi speciali: –  I già citati disegni di miscele –  I casi in cui non sia possibile controllare esattamente i livelli dei fattori

in studio. In questo caso, si cercherà di selezionare il migliore sottoset di esperimenti tra quelli possibili, attraverso un disegno D-ottimale

Disegni per valutare l’influenza dei fattori •  L’ED utilizzato principalmente a questo scopo è il disegno

fattoriale completo a due livelli •  In questo tipo di disegni, ogni fattore viene controllato a due

livelli e gli esperimenti sono condotti a tutte le possibili combinazioni di questi due livelli

•  Questi ED permettono di valutare l’effetto dei fattori e delle interazioni

•  Il modello ipotizzato è un modello di primo ordine che includa le interazioni binarie

•  I due livelli rappresentano i confini del dominio sperimentale

211222110 xxbxbxbby +++=

Disegni frazionati •  Quando il numero dei fattori aumenta, aumenta allo stesso

tempo il numero di esperimenti da fare (1024 per 10 fattori) •  In questi casi, si svolge sono una parte degli esperimenti

(1/2, ¼, 1/8) e il disegno che si ricava si chiama fattoriale frazionato

•  Il fatto di eseguire solo una parte degli esperimenti fa sì che si perdano informazioni su alcune o tutte le interazioni

•  In alcuni casi, non si è interessati per niente alle interazioni: questo accade quando lo scopo principale è identificare quali fattori abbiano effetto sulla risposta

Disegni di screening •  Quando si studia un nuovo processo (o si mette a punto un

nuovo metodo) è possibile che non si sappia in anticipo quali, tra i tanti possibili fattori, possa avere effetto sulla risposta

•  Quindi si cerca di fare uno screening di quali siano i fattori che influiscono

•  Per far ciò, si utilizza la massima frazione possibile di un disegno fattoriale (disegno saturato) o i corrispondenti disegni di Plackett-Burman

•  Questi ED sono utilizzati anche per determinare l’effetto collettivo di un insieme di fattori sulla varianza di una procedura, senza analizzare in dettaglio i contributi individuali, ad esempio per la verifica della robustezza di un metodo.

Response surface modeling •  Richiedono che uno sia in grado di descrivere relazioni

curvilinee e perciò si ha bisogno di un modello almeno di secondo ordine

•  Per questo motivo è necessario considerare almeno tre livelli per ogni fattore.

•  I più utilizzati sono il central composite design e il disegno di Doehlert

•  Normalmente si procede utilizzando i disegni a due livelli per valutare quali fattori siano significativi e solo la dipendenza della risposta da quei fattori viene modellata utilizzando tre o più livelli.

21122222

211122110 xxbxbxbxbxbby +++++=

Disegni fattoriali a due livelli •  I disegni completi a due livelli sono utilizzati per determinare

se alcuni fattori e/o le interazioni tra due o più fattori abbiano effetto sulla risposta, e per stimare l’entità di questo effetto

•  Si richiede che gli esperimenti vengano condotti a tutte le possibili combinazioni dei due livelli dei k fattori studiati

•  Il numero di questi esperimenti è 2k ed è la maniera in cui questi disegni vengono indicati

•  I livelli possono essere rappresentati in diverse maniere ma la modalità più utilizzata è quella di codificarli come –1 (livello più basso) ed 1 (livello più alto), o semplicemente come – e +

•  La stessa notazione si può applicare ai fattori qualitativi, solo che in questo caso –1 non è più piccolo di +1 ma solo differente.

Esempio disegno 2k

•  Immaginiamo di voler valutare l’effetto di 3 variabili su una risposta

•  Come detto, gli 8 (23) esperimenti da fare sono tutte le possibili combinazioni dei livelli + e – delle tre variabili

•  Possiamo organizzare questi esperimenti nella matrice del disegno o matrice degli esperimenti:

Calcolo diretto degli effetti •  Consideriamo il fattore A. Se osserviamo la matrice degli

esperimenti, vediamo come, ad esempio negli esperimenti 1 e 5 i valori di B e C rimangano costanti, mentre A varia

•  Quindi y1-y5 è una stima dell’effetto di A sulla risposta quando gli altri fattori rimangono costanti

•  La stessa cosa può dirsi di y2-y6, di y3-y7 e di y4-y8

•  L’effetto medio di A può essere quindi stimato come la media di queste differenze.

•  C’è un modo più semplice di scrivere questo termine, come la somma degli esperimenti al livello + meno quelli al livello – diviso il numero di differenze calcolate:

( ) ( ) ( ) ( )[ ]4

84736251 yyyyyyyyEA−+−+−+−=

[ ]4

87654321 yyyyyyyyEA−−−−+++=

Calcolo diretto degli effetti - 2 •  Questa considerazione vale per tutti i fattori. Ad esempio per il

fattore C:

•  In altre parole quindi, l’effetto principale di un fattore è la media delle risposte al livello + meno la media delle risposte al livello –

•  In generale si può calcolare quindi come:

•  Oppure come

•  Quando l’effetto non è descritto come differenza media tra i livelli + e -, ma come differenza rispetto ad un livello medio preso come 0 (modelli di regressione), allora l’effetto principale deve essere diviso per 2 (2k invece che 2k-1 al denominatore)

[ ]4

86427531 yyyyyyyyEC−−−−+++=

12 −∑∑ −

= ki

negativolivelloesppositivolivelloespE

−+ −= yyEi

Calcolo degli effetti - 3 •  Queste considerazioni possono essere applicate a tutti i

disegni fattoriali del tipo 2k. •  Consideriamo ad esempio il caso in cui si voglia valutare

l’effetto di 4 variabili di sferonizzazione sulla durezza di alcune pasticche

Calcolo degli effetti - 4 •  Le equazioni viste in precedenza possono essere facilmente

applicate anche a questo caso. •  Ad esempio, per calcolare l’effetto principale del fattore A:

•  In altre parole, variando il contenuto di acqua da 250 a 320 mL la durezza in media diminuisce di 2.26 unità

•  Nel caso uno fosse stato interessato all’effetto nel passaggio dal livello 0 al livello +1 (modello di regressione), si sarebbe dovuto dividere ulteriormente il valore ottenuto per 2, ottenendo un effetto di 1.13

( )

( ) 2628

66763856367446168

73734584439344248

.........

........yyE AAA

−=+++++++−

+++++++=−

=∑ ∑ −+

Calcolo degli effetti: interazioni •  Per calcolare l’effetto delle interazioni si procede in maniera

analoga, ma si devono fare alcune ulteriori considerazioni. •  Riprendiamo per semplicità il caso del disegno 23 visto in

precedenza:

•  E confrontiamo l’effetto di A calcolato a partire dalle differenze y1-y5 e y3-y7.

•  In entrambi i casi l’effetto di A è stimato allo stesso valore (+) di C, ma in un caso al livello positivo di B e nell’altro al livello negativo

Calcolo delle interazioni - 2 •  Sottraendo il secondo termine dal primo e dividendo per 2 si

ha una stima dell’effetto di B su A:

•  Allo stesso modo si può valutare l’effetto di A su B al livello + del fattore C:

•  Come si può vedere i due termini sono assolutamente identici EAB(C+)=EBA(C+)

•  Si può verificare, analogamente, che al livello – di C si ha un’altra stima dell’effetto dell’interazione

( ) ( )[ ] ( ) ( )[ ]22

53717351 yyyyyyyyE )C(AB+−+=−−−=+

( ) ( )[ ] ( ) ( )[ ]22

53717531 yyyyyyyyE )C(BA+−+=−−−=+

( ) ( )[ ]2

6482 yyyyE )C(AB+−+=−

Calcolo delle interazioni - 3 •  Mediando queste due stime, si ottiene l’effetto complessivo

dell’interazione:

•  Come nei casi precedenti, se si calcola un modello di regressione, questo termine va ulteriormente diviso per 2

•  In linea di principio, non è difficile scrivere tutte le interazioni in questo modo, ma nel caso in cui ci siano molti fattori, può richiedere tempo e molta attenzione.

•  Per fortuna, esiste un modo molto più rapido per descrivere i termini che compongono l’effetto delle interazioni.

•  Per descriverlo si parte dalla matrice degli esperimenti vista in precedenza

( )4

65438721 yyyyyyyyEAB−−−−+++=

Calcolo delle interazioni - 4 •  Per ciascun esperimento, il segno dell’interazione non è altro

che il prodotto dei segni che la compongono. •  Ad es, per il 5 esperimento A è al livello -, B è al livello +,

quindi il segno dell’interazione sarà dato da (-)x(+)=- •  Allo stesso modo, il termine di interazione ternaria ABC, nel

quarto esperimento sarà dato da (+)x(-)x(-)=+ •  Lo stesso per tutti gli altri termini •  A questo punto il calcolo delle interazioni diventa

esattamente identico a quanto visto per i fattori principali

Effetto delle interazioni - 5 •  L’effetto delle interazioni quindi è calcolato come la

differenza dei valori della risposta quando l’interazione è al livello + meno i valori della risposta quando l’interazione è al livello –

•  Il tutto diviso per 2k-1 (o 2k nel caso si consideri un modello di regressione)

•  Nel caso della sferonizzazione, i segni per alcuni effetti sono riportati in tabella:

Effetto delle interazioni - 6 •  Ad esempio per l’interazione ABC si ha:

•  Per cui, sostituendo i valori della y si ottiene:

( )8

15111086432161413129751 yyyyyyyyyyyyyyyyEABC−−−−−−−−+++++++=

( )8

38436654747316843645769356734624 ................EABC−−−−−−−−+++++++=

13750.EABC =

Esempio: determinazione dell’acetone •  Come esempio di applicazione supponiamo di voler

ottimizzare un metodo per la determinazione dell’acetone nell’acetato di cellulosa

•  In alternativa al metodo tradizionale, si ipotizza di disgregare l’acetato di cellulosa in un solvente opportuno ed effettuare la determinazione in quel mezzo.

•  Si studiano 3 fattori: –  Fattore A: pH (- acido, + basico) –  Fattore B: solvente (- H2O, + MeOH) –  Fattore C: tempo di disgregazione (- 3 min, + 6 min)

•  Ciascuno dei 23 esperimenti viene eseguito in duplicato

Matrice degli esperimenti

•  Per uniformità coi modelli di regressione si è scelto di calcolare l’effetto utilizzando 23 come divisore.

•  In questo particolare problema, la condizione ottimale corrisponde ad una risposta quanto più piccola possibile.

Exp nr A B C AB AC BC ABC I y1 y2 ym

1 - - - + + + - + 4.04 4.06 4.05 2 + - - - - + + + 7.02 6.82 6.92 3 - + - - + - + + 4.16 4.12 4.14 4 + + - + - - - + 5.68 5.80 5.74 5 - - + + - - + + 4.08 4.02 4.06 6 + - + - + - - + 7.23 7.20 7.21 7 - + + - - + - + 4.26 4.20 4.23 8 + + + + + + + + 5.72 5.86 5.79 effetto 1.15 -0.29 0.06 -0.36 0.03 -0.02 -0.04 5.27

Significatività degli effetti •  I calcoli visti in precedenza forniscono una stima dell’effetto

dei fattori. •  In molti casi il valore numerico sarà tale da guidare

direttamente lo sperimentatore nella scelta: –  Sufficientemente grande da giustificare di considerare il fattore –  Sufficientemente piccolo da suggerire di trascurarlo anche se

statisticamente significativo

•  Nelle situazioni intermedie è necessaria una stima più rigorosa della significatività

•  Se si riesce a stimare la deviazione standard associata alla stima degli effetti, attraverso un t-test è possibile valutare la significatività

•  Si confronta il valore sperimentale dell’effetto con il valore 0, utilizzando l’intervallo di confidenza o il tcrit.

Significatività degli effetti •  La deviazione standard sugli effetti può essere stimata a

partire dalla deviazione standard sulle misure sperimentali. •  In alcuni casi una stima di questa deviazione standard è

disponibile, per cui la deviazione standard sugli effetti è direttamente ricavabile utilizzando:

•  In tutti gli altri casi, la deviazione standard sulla misura va stimata.

•  Esistono 3 procedure: –  Utilizzo di esperimenti replicati –  Trascurare le interazioni di ordine superiore –  Utilizzare il punto centrale del disegno

Ns

s yeff

22 =

Significatività: esperimenti replicati •  Nel caso vengano effettuati esperimenti replicati, è possibile

stimare la deviazione standard associata alla misura, attraverso:

•  dove di sono le differenze tra y1 e y2 per ciascuno dei 2k (=N) esperimenti

•  Sostituendo i dati riportati nel nostro esempio si ottiene una varianza sulla misura della y pari a: 0.00513.

•  Utilizzando questo valore di s2y nell’equazione del lucido

precedente si ottiene una deviazione standard sugli effetti pari a: 0.018

•  Per il t-test, il numero di gradi di libertà è N, quindi 8 nel nostro caso.

•  tcrit=2.30 al 95% c.l., quindi tutti gli effetti maggiori di 0.04 in valore assoluto sono statisticamente significativi

Nd

s i iy 2

22 ∑=

Necessità di un disegno frazionato •  In un disegno fattoriale, il numero di esperimenti cresce

esponenzialmente col numero dei fattori •  Ad esempio per 7 fattori è necessario effettuare 128

esperimenti (per stimare 7 effetti principali, 21 int. binarie, 35 ternarie, 35 quaternarie, 21 a cinque termini, 7 a 6 termini ed 1 a 7 termini)

•  Le interazioni di ordine superiore al secondo sono spesso trascurabili

•  Si può sfruttare questa ridondanza per ridurre il numero degli esperimenti da effettuare.

•  Per far questo si seleziona un frazione (1/2p) di un disegno fattoriale completo e si eseguono solo quegli esperimentiè disegno fattoriale frazionato

Disegni fattoriali frazionati •  Si simboleggiano sottraendo all’esponente del disegno

completo un valore tale da ottenere il numero di esperimenti desiderati: 2k-p

•  Ad esempio un disegno 24-1 è un disegno per 4 fattori in cui si esegue la metà degli esperimenti corrispondenti ad un disegno completo (8 anziché 16)

•  Questi disegni devono essere bilanciati e coprire il dominio sperimentale nella maniera più completa possibile.

•  Come primo esempio consideriamo la possibilità di studiare i fattori che influenzano la risoluzione di due anioni (fosfato e fluoruro) in elettroforesi capillare.

•  Studiamo l’effetto di 3 fattori: –  pH (-: 8.0; +: 9.0) –  Conc. BE (-: 0.008 M; +: 0.010 M) –  Conc. modificante CEM (-: 0.0008 M; +: 0.0025 M)

Disegni fattoriali frazionati - 2 •  La maniera più efficace di mappare il dominio sperimentale in

3 dimensioni con 4 esperimenti è un tetraedro •  In questo modo, ogni fattore è in due esperimenti al livello + e

negli altri due al livello -: il risultato è un disegno bilanciato.

Disegni fattoriali frazionati - 3 •  Per spiegare come funzioni un disegno fattoriale frazionato,

scegliamo una situazione semplice: riduzione di un disegno 24 a 23 (metà degli esperimenti)

•  Per far questo, utilizziamo i dati della sferonizzazione e immaginiamo di eseguire solo i primi 8 esperimenti della tabella

•  La scelta degli esperimenti non è effettuata in maniera casuale ma, come detto per coprire quanto più possibile il dominio sperimentale.

•  Le modalità di effettuare questa scelta saranno illustrate in seguito, per ora ci soffermiamo sull’interpretazione dei risultati.

Disegno fattoriale 24-1

Disegno frazionato: interpretazione •  Il calcolo degli effetti in un disegno frazionato è analogo a

quanto descritto nel caso di un disegno completo. •  Ad esempio:

–  EA=1/8 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8) –  EBCD=1/8 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8)

•  Confrontando le equazioni si può notare come esse siano uguali, dal momento che A e BCD sono caratterizzate dalla stessa sequenza di + e –

•  Per comprendere esattamente cosa venga calcolato, analizziamo gli effetti degli stessi fattori nel disegno completo: –  EA=1/16 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8 + y9 + y10 + y11 + y12

– y13 – y14 – y15 – y16) –  EBCD=1/16 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8 - y9 - y10 - y11 - y12

+ y13 + y14 + y15 + y16)

Disegno frazionato: interpretazione - 2 •  A partire dalle equazioni del disegno completo, si nota come:

–  1/8 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8) = EA+EBCD

•  Considerazioni analoghe possono essere fatte per altre coppie di colonne (AD e BC; ABC e D)

•  In questo caso si dice che gli effetti sono confusi e che i termini sono alias uno dell’altro.

•  In generale ogni effetto in un disegno 2k-p è confuso con altri 2p-1 effetti

•  Di conseguenza non si stima più l’effetto di un singolo termine ma una somma di più effetti

•  Per l’interpretazione, di solito gli effetti di interazioni di ordine superiore al secondo sono considerati trascurabili.

Disegno frazionato: interpretazione - 3

Definizione dei contrasti e generazione del disegno •  Finora abbiamo visto come si calcolano gli effetti nel caso di

un disegno frazionato •  Ora studiamo come si definiscono gli alias e in che modo si

scelgono gli esperimenti da compiere •  Per fare questo abbiamo bisogno di introdurre delle regole

algebriche •  Abbiamo visto in precedenza come per ottenere i livelli delle

interazioni dovessimo moltiplicare i segni dei fattori che la compongono: –  Ad es: AB=AxB

•  Analogamente, è facile dimostrare come, per qualsiasi fattore, il termine quadratico corrisponda all’effetto medio: –  A2 = AxA = I

Definizione dei contrasti - 2

•  Nell’esempio considerato, A=BCD •  Quindi AxA=A2=I=AxBCD=ABCD •  Anche i livelli dell’interazione quaternaria ABCD si

confonderanno con l’effetto medio. •  Per questo motivo, definiamo contrasto generatore o

relazione generatrice l’equazione: –  I=ABCD

Definizione dei contrasti - 3 •  Per conoscere tutti gli altri gli alias è sufficiente moltiplicare il

contrasto generatore per il fattore o l’interazione di cui si vuole definire l’alias: –  AxI=A=AxABCD=A2BCD=IxBCD=BCD –  BxI=B=BxABCD=B2ACD=IxACD=ACD –  ACxI=AC=ACxABCD=A2C2BD=IxIxBD=BD –  …

•  Il numero delle relazioni generatrici è uguale a 2p-1 e corrisponde al numero di termini che si confondono con l’effetto medio.

•  Nel caso di un disegno 2k-1 dove p=1, come quello che stiamo considerando si ha una sola relazione generatrice (nel nostro caso, la già vista: I=ABCD)

Generazione del disegno •  Per capire come generare un disegno fattoriale frazionato,

esaminiamo la tabella:

•  Vediamo come le prime tre colonne rappresentino un disegno fattoriale completo per 3 variabili

•  Si potrebbe dire che per ricavare un disegno 24-1 da un disegno 23 abbiamo aggiunto un’altra colonna, scelta in maniera tale che D avesse gli stessi livelli di ABC

Generazione del disegno - 2 •  La considerazione precedente è equivalente al dire che

abbiamo deliberatamente “sacrificato” ABC ad essere confuso con D

•  Per generare il disegno abbiamo quindi dovuto dire D=ABC •  Questa relazione è chiamata generatore •  Il generatore porta alla relazione generatrice vista prima:

–  D=ABC èD2=I=ABCD •  Queste considerazioni permettono di costruire ogni disegno

frazionato 2k-p a partire dal corrispondente disegno completo 2q con q=k-p.

•  Ad esempio se volessimo utilizzare un disegno completo 23 per ridurre un disegno 25 (25-2), invece che 24 (24-1) dovremmo identificare due generatori e non più uno solo: –  D=ABC (si parte sempre dall’interazione di ordine maggiore) –  E=BC (sulla base della conoscenza del sistema si cerca di far

confondere un fattore con un’interazione che si pensa non importante)

Riduzione 25-2

•  In questo caso le relazioni generatrici sono: –  I=ABCD e I=BCE

•  Per ricavare la terza relazione mancante, possiamo utilizzare la condizione algebrica I2=IxI=I: –  IxI=ABCDxBCE=AB2C2DE=ADE

•  Quindi ci sono 3 contrasti generatori I=ADE=BCE=ABCD, che identificano i termini che si confondono con l’effetto medio

Generazione del disegno - 3 •  Possiamo quindi ricavare tutti gli altri alias della tabella

precedente moltiplicando per i fattori principali e per le interazioni i contrasti generatori: –  AxI = A = BCD (AxABCD) = ABCE (AxBCE) = DE (AxADE) –  BxI = B = ACD (BxABCD) = CE (BxBCE) = ABDE (BxADE) –  …

•  Vale la pena ricordare che si sarebbero ottenuti altri disegni nel caso si fosse scelto di confondere E con AC o con AB.

•  La scelta dei generatori è importantissima perché ci dice quali effetti possono essere valutati senza troppa interferenza

•  Se alcune specifiche interazioni sono d’interesse si deve cercare di non farle confondere l’una con l’altra.

Considerazioni •  Consideriamo il disegno 24-1 visto in precedenza. •  La stima degli effetti ha mostrato come l’effetto del fattore B

non fosse significativo •  Per gli altri 3 fattori (A,C,D) gli 8 esperimenti effettuati

rappresentano un disegno completo. •  La stessa cosa si sarebbe potuta dire nel caso uno qualsiasi

degli altri fattori principali si fosse rivelato non significativo •  Nel caso si scoprisse la non significatività di uno dei fattori,

sarebbe possibile rielaborare i risultati del disegno come se si trattasse del disegno completo corrispondente.

•  La stessa considerazione può essere fatta per un qualsiasi disegno 2k-p (in questo caso è necessario che p termini non siano significativi)

Scelta di esperimenti aggiuntivi •  Ritorniamo all’esempio sulla sferonizzazione visto in

precedenza. •  Attraverso il disegno fattoriale frazionato 24-1 è stato possibile

identificare come significativi i contributi dei fattori A, C e D •  Nessun termine di interazione binaria risultava significativo. •  Immaginiamo però che, ad esempio, il termine contenente le

due interazioni AC+BD fosse risultato significativo •  A questo punto si potrebbe essere interessati a sapere se

l’effetto andasse attribuito ad AC, a BD o a tutti e due •  Se questa informazione venisse reputata essenziale, ci si

potrebbe spingere fino a fare gli altri 8 esperimenti lasciati da parte

Scelta di esperimenti aggiuntivi - 2 •  È chiaro che la scelta di una strategia di questo tipo permette

comunque di salvare tempo e denaro •  Se siamo “fortunati”, l’informazione che cerchiamo è già

presente nei primi 8 esperimenti che facciamo, per cui non è necessario svolgerne di altri

•  Nel caso avessimo bisogno di ulteriori informazioni, possiamo effettuare gli altri esperimenti in seguito, ottenendo la stessa informazione che se avessimo fatto dall’inizio un disegno completo.

•  In generale, l’uso di un disegno frazionato come punto di partenza è spesso raccomandabile perché, tra le altre cose, il primo disegno sperimentale può permettere di evidenziare delle debolezze nella messa a punto degli esperimenti: –  Ad es: la scelta dei livelli a cui fissare i fattori non ottimale

Disegni di screening •  Quando si inizia uno studio si hanno spesso così tanti fattori

che può essere desiderabile inizialmente effettuale uno screening per capire quali siano importanti (abbiano un chiaro effetto) e continuare solo con quelli

•  In questo caso, non siamo troppo interessati alle interazioni, anzi vogliamo ottenere questa informazione con il minimo degli esperimenti

•  Spesso si utilizzano disegni 23-1 o 27-4 che permettono di studiare (fino a) 3 o 7 fattori con 4 o 8 esperimenti.

•  Questi disegni sono chiamati saturati perché rappresentano il più piccolo disegno fattoriale possibile

•  Infatti, ad esempio, non potrei mai ridurre un disegno 27 ad un disegno 22 perché avrei 4 esperimenti per studiare 7 fattori

Disegni di screening - 2 •  Va detto che non sempre è necessario utilizzare disegni

saturati •  Ad es. posso studiare 6 fattori con un disegno 27-4 e

l’introduzione di un fattore “dummy” ma anche scegliere di ridurre 26-4 ed avere un disegno che ha una risoluzione maggiore

•  D’altro canto esistono anche dei disegni supersaturati, dove gli effetti dei termini principali possono essere anche confusi tra di loro

•  Questi ultimi sono usati quando si ha a che fare con molti fattori, ma solo pochi sono veramente importanti

•  Una particolare applicazione dei disegni di screening è alla determinazione della solidità (ruggedness) di un processo

Ruggedness •  In questo caso, si è messo a punto un processo (ad esempio

un procedimento di misura) e si vuole sapere se piccole variazioni dalle condizioni di partenza possano avere influenza sulla qualità del processo stesso

•  Immaginiamo di voler determinare una tetraciclina per HPLC •  La fase mobile contiene una soluzione acquosa di sali

d’ammonio (0.1M ammonio ossalato, 0.2M ammonio fosfato) e DMF (270 mL).

•  Il pH è stato aggiustato a 7.65 e la velocità di flusso ad 1 mL/min

•  Il rapporto S/N per l’integrazione a 2 •  Il sesto parametro (età della colonna) non ha un valore

nominale

Ruggedness - 2

•  A partire da questi sei fattori si può, come detto scegliere di fare 8 esperimenti (27-4 identificando uno dei 7 fattori con una variabile dummy) o 16 (26-4, come fatto dagli autori di questo studio)

Ruggedness - 3 •  In questi esperimenti, la risposta è il fattore di capacità

Ruggedness - 4 •  Siamo interessati solo agli effetti

principali (trascuriamo tutte le interazioni)

•  Gli effetti maggiori in modulo del valore critico sono significativi

•  In questo caso il contributo maggiore è dato dal fattore F (età della colonna)

Disegni di Plackett-Burman •  Abbiamo visto come, utilizzando un disegno saturato, 8

esperimenti permettano di studiare fino a 7 fattori. •  Nel caso i fattori siano più di 7 abbiamo bisogno almeno di 16

esperimenti •  Plackett e Burman hanno proposto dei disegni di screening

che contemplano un numero di esperimenti che sia multiplo di 4 (4,8,12,16, 20…)

•  In questo modo è possibile studiare rispettivamente fino a 3,7,11,15,19,… fattori.

•  Nei casi in cui nx4=2k i disegni di Plackett-Burman sono una frazione di un disegno fattoriale completo (e quindi sono equivalenti ai disegni fattoriali frazionati)

•  Questo non avviene quando il numero di esperimenti non è una potenza di 2

Disegni di Plackett-Burman - 2 •  Consideriamo il disegno con 12 esperimenti (che permette di

studiare fino a 11 fattori). •  I disegni di Plackett-Burman hanno la peculiarità di essere

ciclici •  Ad esempio il disegno con 12 esperimenti e 11 fattori si

ottiene a partire da una prima riga data nel loro articolo originale (che corrisponde al primo esperimento): + + - + + + - - - + -

•  I successivi dieci esperimenti si ottengono permutando ciclicamente questa riga. Ad es, il secondo è: - + + - + + + - - - +

•  L’ultima riga è costituita da tutti segni -

Disegni di Plackett-Burman - 3

•  I disegni sono bilanciati (in questo caso ogni fattore è misurato a 6 livelli + e 6 -) e gli effetti principali non sono confusi tra di loro

•  Il calcolo degli effetti si fa come nel caso dei disegni fattoriali visti in precedenza

Disegni di Plackett-Burman - 4 •  Come anticipato, quando il numero di fattori che si vogliono

studiare è minore del numero massimo, si introducono dei fattori “dummy”

•  Youden e Steiner: “Dobbiamo associare questi fattori dummy ad operazioni senza senso come ‘prendere solennemente il beaker, osservarlo intensamente e rimetterlo a posto’ ”

•  Ovviamente in questo caso solo l’effetto dei fattori reali sarà significativo

•  Tuttavia, l’uso di fattori dummy permette una stima dell’incertezza sugli effetti, come citato in precedenza.

•  Analizziamo il caso della determinazione della ruggedness con 12 esperimenti (avremmo potuto utilizzarne 8, avendo 6 fattori, ma come nel caso visto in precedenza, gli autori hanno scelto di fare più esperimenti per una migliore valutazione dell’incertezza sugli effetti)

Ruggedness (P-B)

•  Come si può vedere, anche con il disegno di Plackett-Burman il fattore F (ovvero l’età della colonna) è quello che appare contribuire maggiormente

•  In questo caso è l’unico statisticamente significativo

Disegni a più livelli •  I disegni a due livelli permettono la stima degli effetti di tutti i

fattori e delle interazioni •  I disegni multi-livello sono utilizzati in contesti differenti •  Per fattori qualitativi non c’è altra scelta che considerare tanti

livelli quanti sono gli attributi dei fattori •  Per fattori quantitativi, due livelli permettono solo di

rappresentare linee, piani o iperpiani •  Se si vuole rappresentare una risposta curva c’è bisogno

almeno di tre livelli

Disegni a più livelli - 2 •  I disegni a più livelli vengono utilizzati per modellare una

relazione curvilinea. •  Si può scegliere tra modelli meccanicistici e modelli empirici •  Nel quadro dell’ED si usano quasi sempre modelli empirici, di

tipo quadratico. •  Come già anticipato, questo tipo di modelli includono in

genere un termine costante, termini di primo e secondo ordine e interazioni tra i fattori (spesso limitate alle interazioni binarie)

•  La qualità della stima dei coefficienti dipende dalla scelta del disegno

•  Comunque, una volta stimati i coefficienti del modello, è possibile prevedere la y a partire dalle x

•  Si ottengono le cosiddette superfici di risposta •  Alcuni tipi di superfici sono riportate nel lucido successivo

Superfici di risposta

parte 2: Disegno sperimentale

Documents

Transcript of parte 2: Disegno sperimentale