parte 2: Disegno sperimentale
Transcript of parte 2: Disegno sperimentale
DISEGNO SPERIMENTALE
Federico Marini
Experimental design? • Il termine disegno sperimentale è usato in due contesti:
– Descrivere la serie di esperimenti che vengono condotti allo scopo di mettere a punto un modello (ad es. di regressione)
– Ottimizzazione di prodotti o di processi: l’ED è applicato per determinare in maniera efficiente l’insieme di condizioni necessarie per ottenere un prodotto o un processo con caratteristiche desiderabili, spesso ottimali.
• Dal momento che la modellizzazione è uno degli strumenti principali per la fase di ottimizzazione, l’ED può essere applicato anche alla messa a punto di modelli ottimali.
• Ci occuperemo principalmente del secondo contesto.
Le variabili • Si vuole determinare un insieme (ottimale) di condizioni,
ovvero i valori numerici di una serie di fattori. • I fattori sono variabili che vengono cambiate in maniera
controllata per studiare il loro effetto sul processo o sul prodotto e che hanno (possono avere) influenza sulle caratteristiche studiate.
• Tipicamente, l’ED ha un approccio multivariato • Le caratteristiche del prodotto o del processo che si vuole
ottimizzare vengono chiamate risposte e possono essere definite come variabili che descrivono le performances.
• Due tipi di variabili: indipendenti (fattori, xi) e dipendenti (risposte, yi)
• In molti casi, ciascuna risposta è trattata separatamente:
( )ni x,...,x,x,xfy 321=
I modelli • Il modello che collega le risposte all’effetto dei fattori è
chiamato funzione di risposta o, sulla base del suo carattere multivariato, superficie di risposta.
• Questi modelli sono ottenuti a partire dagli esperimenti. • Il termine “disegno” indica che questi esperimenti sono scelti
ed eseguiti in maniera accuratamente pianificata e ponderata
Scopi del disegno sperimentale • L’ED è utilizzato per ottenere un prodotto o un processo con
caratteristiche desiderabili. • Questo significa che si vuole:
– Comprendere l’effetto dei fattori e/o – Modellare la relazione tra y e x
effettuando il minimo numero di esperimenti possibile. • È necessaria una mappatura ordinata ed efficiente del
dominio sperimentale. • Se applicato bene, l’ED permette di tagliare i costi. • In molti casi si combinano entrambi gli scopi descritti.
Come si procede? • Si inizia determinando quali fattori influenzino la risposta e fino
a che punto. • Il passo successivo è spesso quello di ottenere un modello che
descriva in maniera quantitativa l’effetto dei fattori sulla risposta.
• Infine, sulla base del modello si cerca di trovare le condizioni ottimali, ovvero i valori dei fattori che risultano nelle migliori caratteristiche del prodotto, processo o procedura studiati.
• L’ED è quindi utilizzato per ottimizzare risposte. • I valori ottimali possono essere i più alti o i più bassi possibile,
ma ci possono essere casi in cui uno sia interessato a determinare una regione in cui i risultati siano sufficientemente buoni.
Come si procede - 2
I fattori sperimentali • Nell’ED i fattori possono essere qualitativi e quantitativi. • Se uno è interessato a sapere se il tipo di catalizzatore o il
tipo di solvente abbia effetto sulla resa di una reazione, ha a che fare con fattori qualitativi.
• Se invece si considera il pH, è un fattore quantitativo. • I differenti valori a cui vengono controllati i fattori sono
chiamati livelli. • Ad esempio, se l’ED richiede di effettuare esperimenti ai
valori di pH 5 e 9, allora ci sono due livelli di pH. • Il termine livelli può essere usato anche per fattori qualitativi
(es. metanolo e acetonitrile) • Sono possibili anche situazioni miste: ad es. valutare l’effetto
di solvente e pH su una risposta cromatografica.
I fattori sperimentali - 2 • La selezione dei fattori è in genere il primo step
nell’applicazione di un disegno sperimentale • Talora si sa quali fattori abbiano un effetto sulla risposta ma
spesso non si ha questa informazione • In quest’ultimo caso, si parte annotando tutti i possibili fattori
che potrebbero avere un qualche effetto sulla risposta e si fa uno screening
• Esistono disegni specifici che possono essere applicati per questo scopo (screening designs)
• Una volta scelti i fattori è necessario fissare i limiti del dominio sperimentale, ovvero i livelli estremi a cui i fattori verranno studiati.
• Il dominio sperimentale è delimitato dai livelli assunti da alcuni fattori.
Esempi di dominio sperimentale
Il dominio sperimentale • Molto spesso si sceglie un dominio simmetrico, anche se in
alcuni casi questo può non essere possibile o addirittura desiderabile
• È necessaria una corretta definizione dei limiti e dei livelli • Limiti troppo ampi possono portare a fare esperimenti in
condizioni inutili e portano ad una precisione insufficiente del modello
• Esistono metodi per avere un stima ragionevole di quali limiti porre al dominio sperimentale
Le risposte • Un passaggio fondamentale nell’ED è la scelta delle risposte
da studiare • Di solito si prova a modellare ogni risposta separatamente • Nei casi reali, può capitare spesso che uno voglia studiare
più di una risposta contemporaneamente e che le condizioni ottimali per una siano in conflitto con quelle per le altre
• In questo caso non si devono cercare le condizioni ottimali per ciascuna risposta separatamente, ma un adeguato compromesso
• Le tecniche per trattare questo tipo di situazioni prendono il nome di metodi multicriterio.
ED e ottimizzazione • Nella sua accezione più classica, ottimizzazione significa
trovare il valore dei fattori che corrisponda alla risposta più alta (es. massima resa di un prodotto desiderato) o più bassa (minima resa di un sottoprodotto).
• Non sempre, tuttavia, questa è la scelta migliore • Ad esempio, può capitare che il massimo della superficie di
risposta si trovi in una zona particolarmente ripida, per cui piccole variazioni dei fattori possono provocare brusche diminuzioni della y.
• In questi casi, può essere meglio scegliere un valore più basso di risposta, ma in una regione in cui la superficie sia più piatta (maggiore robustezza).
• Esistono disegni che ottimizzano allo stesso tempo la risposta e la robustezza (Taguchi).
ED e ottimizzazione - 2
Strategie di ottimizzazione • Ci sono due tipi di strategie multivariate di ottimizzazione:
sequenziali e simultanee. • Si possono dare anche combinazioni delle due. • Le strategie simultanee consistono nell’effettuare un numero
relativamente alto di esperimenti secondo uno schema pre-arrangiato (disegni fattoriali e di miscela).
• In queste strategie, i dati sperimentali sono utilizzati per mettere a punto dei modelli e, a loro volta, questi modelli per stimare le condizioni sperimentali ottimali (corrispondenti alla massima o minima y).
Strategie di ottimizzazione - 2 • Una strategia sequenziale consiste nel condurre pochi
esperimenti alla volta e utilizzare i risultati di questi esperimenti per decidere quali esperimenti fare in seguito.
• Il più famoso è il metodo simplex: in 2D si parte da 3 esperimenti organizzati a triangolo e di volta in volta ci si muove in direzione opposta all’esperimento che ha dato i risultati peggiori.
Sequenziale o simultaneo? • L’approccio sequenziale si preferisce quando si è interessati
solamente alle condizioni ottimali per una singola risposta. • Le sue caratteristiche matematiche lo rendono molto
efficiente in queste situazioni • I metodi simultanei, invece, sono da preferire quando si vuole
conoscere anche il modello che lega le risposte ai fattori • I disegni sequenziali, inoltre, non possono essere applicati in
maniera semplice quando si vogliano modellare più risposte
Le funzioni di risposta: i modelli • L’ED è utilizzato per sviluppare modelli empirici: tutti quei
casi in cui non è possibile derivare la funzione di risposta dalla teoria
• Questi casi capitano praticamente sempre • La teoria ci permette spesso di prevedere che ci sia una
qualche relazione tra un certo fattore e una risposta • Qualche volta ci permette di derivare quale tipo di funzione
(lineare, quadratica, …) ci si debba aspettare • Ma non ci dà modo di stimare e calcolare i coefficienti di
questa funzione
I modelli - 2 • Alcuni esempi di modelli (nel caso di due variabili):
• Si nota che essi consistono di: – Un termine noto b0
– Termini di primo e secondo ordine per x1 e x2
– Un termine di interazione x1x2
• Spesso si lavora con fattori codificati, ovvero scalati affinché la loro variabilità sia compresa, ad esempio, tra –1 e +1.
• In questo caso, lo zero coincide con il valore medio dell’intervallo.
• b0 quindi rappresenta i l valore della risposta in corrispondenza del centroide.
211222110 xxbxbxbby +++=
21122222
211122110 xxbxbxbxbxbby +++++=
I modelli - 3 • In genere, i modelli che si utilizzano sono di secondo ordine e
contengono termini quadratici e interazioni binarie. • In principio si potrebbero utilizzare anche polinomi di ordine
superiore, ma questo è raramente necessario • Nella pratica, molte situazioni possono essere approssimate,
almeno localmente, da queste funzioni. • Esistono però delle eccezioni (ad es. risposte sigmoidali). • Anche in questi casi, però, si possono scegliere opportune
regioni dove la risposta sia ancora quadratica
I modelli - 4 • Questi tipi di modelli sono validi per le cosiddette variabili di
processo • Questo nome si comprende meglio preso in opposizione a
variabili di miscela, ovvero quei fattori che descrivono la composizione di una miscela e che soddisfano la condizione di chiusura ad 1.
• I modelli per le variabili di miscela non comprendono i termini quadratici associati ai singoli fattori, ma solo le interazioni.
• Essi non comprendono nemmeno il termine noto. • Talvolta può essere necessario ricorrere a modelli di terzo
ordine, con l’aggiunta del termine in parentesi. ( )321123322331132112332211 xxxbxxbxxbxxbxbxbxby ++++++=
I modelli - 5 • I modelli descritti sono modelli di regressione. • L’utilizzo di metodi di regressione per il calcolo dei
coefficienti permette di: – Verificare se tutti i termini del modello siano necessari – Validare il modello – Stimare il valore dei coefficienti del modello in maniera più precisa
possibile – Cercare di ottenere il più piccolo errore di previsione possibile attorno
al valore ottimale
• In genere si usa la regressione lineare multipla (MLR) ma si può usare anche la regressione PLS.
Disegni simultanei (fattoriali) • Si possono distinguere due classi di disegni:
– Disegni in cui l’enfasi sia posta sulla possibilità di determinare quali fattori influenzino la risposta e di stimare l’entità di questa influenza
– Disegni in cui l’enfasi si pone sulla fase di modellamento
• Accanto a questi esistono due casi speciali: – I già citati disegni di miscele – I casi in cui non sia possibile controllare esattamente i livelli dei fattori
in studio. In questo caso, si cercherà di selezionare il migliore sottoset di esperimenti tra quelli possibili, attraverso un disegno D-ottimale
Disegni per valutare l’influenza dei fattori • L’ED utilizzato principalmente a questo scopo è il disegno
fattoriale completo a due livelli • In questo tipo di disegni, ogni fattore viene controllato a due
livelli e gli esperimenti sono condotti a tutte le possibili combinazioni di questi due livelli
• Questi ED permettono di valutare l’effetto dei fattori e delle interazioni
• Il modello ipotizzato è un modello di primo ordine che includa le interazioni binarie
• I due livelli rappresentano i confini del dominio sperimentale
211222110 xxbxbxbby +++=
Disegni frazionati • Quando il numero dei fattori aumenta, aumenta allo stesso
tempo il numero di esperimenti da fare (1024 per 10 fattori) • In questi casi, si svolge sono una parte degli esperimenti
(1/2, ¼, 1/8) e il disegno che si ricava si chiama fattoriale frazionato
• Il fatto di eseguire solo una parte degli esperimenti fa sì che si perdano informazioni su alcune o tutte le interazioni
• In alcuni casi, non si è interessati per niente alle interazioni: questo accade quando lo scopo principale è identificare quali fattori abbiano effetto sulla risposta
Disegni di screening • Quando si studia un nuovo processo (o si mette a punto un
nuovo metodo) è possibile che non si sappia in anticipo quali, tra i tanti possibili fattori, possa avere effetto sulla risposta
• Quindi si cerca di fare uno screening di quali siano i fattori che influiscono
• Per far ciò, si utilizza la massima frazione possibile di un disegno fattoriale (disegno saturato) o i corrispondenti disegni di Plackett-Burman
• Questi ED sono utilizzati anche per determinare l’effetto collettivo di un insieme di fattori sulla varianza di una procedura, senza analizzare in dettaglio i contributi individuali, ad esempio per la verifica della robustezza di un metodo.
Response surface modeling • Richiedono che uno sia in grado di descrivere relazioni
curvilinee e perciò si ha bisogno di un modello almeno di secondo ordine
• Per questo motivo è necessario considerare almeno tre livelli per ogni fattore.
• I più utilizzati sono il central composite design e il disegno di Doehlert
• Normalmente si procede utilizzando i disegni a due livelli per valutare quali fattori siano significativi e solo la dipendenza della risposta da quei fattori viene modellata utilizzando tre o più livelli.
21122222
211122110 xxbxbxbxbxbby +++++=
Disegni fattoriali a due livelli • I disegni completi a due livelli sono utilizzati per determinare
se alcuni fattori e/o le interazioni tra due o più fattori abbiano effetto sulla risposta, e per stimare l’entità di questo effetto
• Si richiede che gli esperimenti vengano condotti a tutte le possibili combinazioni dei due livelli dei k fattori studiati
• Il numero di questi esperimenti è 2k ed è la maniera in cui questi disegni vengono indicati
• I livelli possono essere rappresentati in diverse maniere ma la modalità più utilizzata è quella di codificarli come –1 (livello più basso) ed 1 (livello più alto), o semplicemente come – e +
• La stessa notazione si può applicare ai fattori qualitativi, solo che in questo caso –1 non è più piccolo di +1 ma solo differente.
Esempio disegno 2k
• Immaginiamo di voler valutare l’effetto di 3 variabili su una risposta
• Come detto, gli 8 (23) esperimenti da fare sono tutte le possibili combinazioni dei livelli + e – delle tre variabili
• Possiamo organizzare questi esperimenti nella matrice del disegno o matrice degli esperimenti:
Calcolo diretto degli effetti • Consideriamo il fattore A. Se osserviamo la matrice degli
esperimenti, vediamo come, ad esempio negli esperimenti 1 e 5 i valori di B e C rimangano costanti, mentre A varia
• Quindi y1-y5 è una stima dell’effetto di A sulla risposta quando gli altri fattori rimangono costanti
• La stessa cosa può dirsi di y2-y6, di y3-y7 e di y4-y8
• L’effetto medio di A può essere quindi stimato come la media di queste differenze.
• C’è un modo più semplice di scrivere questo termine, come la somma degli esperimenti al livello + meno quelli al livello – diviso il numero di differenze calcolate:
( ) ( ) ( ) ( )[ ]4
84736251 yyyyyyyyEA−+−+−+−=
[ ]4
87654321 yyyyyyyyEA−−−−+++=
Calcolo diretto degli effetti - 2 • Questa considerazione vale per tutti i fattori. Ad esempio per il
fattore C:
• In altre parole quindi, l’effetto principale di un fattore è la media delle risposte al livello + meno la media delle risposte al livello –
• In generale si può calcolare quindi come:
• Oppure come
• Quando l’effetto non è descritto come differenza media tra i livelli + e -, ma come differenza rispetto ad un livello medio preso come 0 (modelli di regressione), allora l’effetto principale deve essere diviso per 2 (2k invece che 2k-1 al denominatore)
[ ]4
86427531 yyyyyyyyEC−−−−+++=
12 −∑∑ −
= ki
negativolivelloesppositivolivelloespE
−+ −= yyEi
Calcolo degli effetti - 3 • Queste considerazioni possono essere applicate a tutti i
disegni fattoriali del tipo 2k. • Consideriamo ad esempio il caso in cui si voglia valutare
l’effetto di 4 variabili di sferonizzazione sulla durezza di alcune pasticche
Calcolo degli effetti - 4 • Le equazioni viste in precedenza possono essere facilmente
applicate anche a questo caso. • Ad esempio, per calcolare l’effetto principale del fattore A:
• In altre parole, variando il contenuto di acqua da 250 a 320 mL la durezza in media diminuisce di 2.26 unità
• Nel caso uno fosse stato interessato all’effetto nel passaggio dal livello 0 al livello +1 (modello di regressione), si sarebbe dovuto dividere ulteriormente il valore ottenuto per 2, ottenendo un effetto di 1.13
( )
( ) 2628
66763856367446168
73734584439344248
.........
........yyE AAA
−=+++++++−
+++++++=−
=∑ ∑ −+
Calcolo degli effetti: interazioni • Per calcolare l’effetto delle interazioni si procede in maniera
analoga, ma si devono fare alcune ulteriori considerazioni. • Riprendiamo per semplicità il caso del disegno 23 visto in
precedenza:
• E confrontiamo l’effetto di A calcolato a partire dalle differenze y1-y5 e y3-y7.
• In entrambi i casi l’effetto di A è stimato allo stesso valore (+) di C, ma in un caso al livello positivo di B e nell’altro al livello negativo
Calcolo delle interazioni - 2 • Sottraendo il secondo termine dal primo e dividendo per 2 si
ha una stima dell’effetto di B su A:
• Allo stesso modo si può valutare l’effetto di A su B al livello + del fattore C:
• Come si può vedere i due termini sono assolutamente identici EAB(C+)=EBA(C+)
• Si può verificare, analogamente, che al livello – di C si ha un’altra stima dell’effetto dell’interazione
( ) ( )[ ] ( ) ( )[ ]22
53717351 yyyyyyyyE )C(AB+−+=−−−=+
( ) ( )[ ] ( ) ( )[ ]22
53717531 yyyyyyyyE )C(BA+−+=−−−=+
( ) ( )[ ]2
6482 yyyyE )C(AB+−+=−
Calcolo delle interazioni - 3 • Mediando queste due stime, si ottiene l’effetto complessivo
dell’interazione:
• Come nei casi precedenti, se si calcola un modello di regressione, questo termine va ulteriormente diviso per 2
• In linea di principio, non è difficile scrivere tutte le interazioni in questo modo, ma nel caso in cui ci siano molti fattori, può richiedere tempo e molta attenzione.
• Per fortuna, esiste un modo molto più rapido per descrivere i termini che compongono l’effetto delle interazioni.
• Per descriverlo si parte dalla matrice degli esperimenti vista in precedenza
( )4
65438721 yyyyyyyyEAB−−−−+++=
Calcolo delle interazioni - 4 • Per ciascun esperimento, il segno dell’interazione non è altro
che il prodotto dei segni che la compongono. • Ad es, per il 5 esperimento A è al livello -, B è al livello +,
quindi il segno dell’interazione sarà dato da (-)x(+)=- • Allo stesso modo, il termine di interazione ternaria ABC, nel
quarto esperimento sarà dato da (+)x(-)x(-)=+ • Lo stesso per tutti gli altri termini • A questo punto il calcolo delle interazioni diventa
esattamente identico a quanto visto per i fattori principali
Effetto delle interazioni - 5 • L’effetto delle interazioni quindi è calcolato come la
differenza dei valori della risposta quando l’interazione è al livello + meno i valori della risposta quando l’interazione è al livello –
• Il tutto diviso per 2k-1 (o 2k nel caso si consideri un modello di regressione)
• Nel caso della sferonizzazione, i segni per alcuni effetti sono riportati in tabella:
Effetto delle interazioni - 6 • Ad esempio per l’interazione ABC si ha:
• Per cui, sostituendo i valori della y si ottiene:
( )8
15111086432161413129751 yyyyyyyyyyyyyyyyEABC−−−−−−−−+++++++=
( )8
38436654747316843645769356734624 ................EABC−−−−−−−−+++++++=
13750.EABC =
Esempio: determinazione dell’acetone • Come esempio di applicazione supponiamo di voler
ottimizzare un metodo per la determinazione dell’acetone nell’acetato di cellulosa
• In alternativa al metodo tradizionale, si ipotizza di disgregare l’acetato di cellulosa in un solvente opportuno ed effettuare la determinazione in quel mezzo.
• Si studiano 3 fattori: – Fattore A: pH (- acido, + basico) – Fattore B: solvente (- H2O, + MeOH) – Fattore C: tempo di disgregazione (- 3 min, + 6 min)
• Ciascuno dei 23 esperimenti viene eseguito in duplicato
Matrice degli esperimenti
• Per uniformità coi modelli di regressione si è scelto di calcolare l’effetto utilizzando 23 come divisore.
• In questo particolare problema, la condizione ottimale corrisponde ad una risposta quanto più piccola possibile.
Exp nr A B C AB AC BC ABC I y1 y2 ym
1 - - - + + + - + 4.04 4.06 4.05 2 + - - - - + + + 7.02 6.82 6.92 3 - + - - + - + + 4.16 4.12 4.14 4 + + - + - - - + 5.68 5.80 5.74 5 - - + + - - + + 4.08 4.02 4.06 6 + - + - + - - + 7.23 7.20 7.21 7 - + + - - + - + 4.26 4.20 4.23 8 + + + + + + + + 5.72 5.86 5.79 effetto 1.15 -0.29 0.06 -0.36 0.03 -0.02 -0.04 5.27
Significatività degli effetti • I calcoli visti in precedenza forniscono una stima dell’effetto
dei fattori. • In molti casi il valore numerico sarà tale da guidare
direttamente lo sperimentatore nella scelta: – Sufficientemente grande da giustificare di considerare il fattore – Sufficientemente piccolo da suggerire di trascurarlo anche se
statisticamente significativo
• Nelle situazioni intermedie è necessaria una stima più rigorosa della significatività
• Se si riesce a stimare la deviazione standard associata alla stima degli effetti, attraverso un t-test è possibile valutare la significatività
• Si confronta il valore sperimentale dell’effetto con il valore 0, utilizzando l’intervallo di confidenza o il tcrit.
Significatività degli effetti • La deviazione standard sugli effetti può essere stimata a
partire dalla deviazione standard sulle misure sperimentali. • In alcuni casi una stima di questa deviazione standard è
disponibile, per cui la deviazione standard sugli effetti è direttamente ricavabile utilizzando:
• In tutti gli altri casi, la deviazione standard sulla misura va stimata.
• Esistono 3 procedure: – Utilizzo di esperimenti replicati – Trascurare le interazioni di ordine superiore – Utilizzare il punto centrale del disegno
Ns
s yeff
22 =
Significatività: esperimenti replicati • Nel caso vengano effettuati esperimenti replicati, è possibile
stimare la deviazione standard associata alla misura, attraverso:
• dove di sono le differenze tra y1 e y2 per ciascuno dei 2k (=N) esperimenti
• Sostituendo i dati riportati nel nostro esempio si ottiene una varianza sulla misura della y pari a: 0.00513.
• Utilizzando questo valore di s2y nell’equazione del lucido
precedente si ottiene una deviazione standard sugli effetti pari a: 0.018
• Per il t-test, il numero di gradi di libertà è N, quindi 8 nel nostro caso.
• tcrit=2.30 al 95% c.l., quindi tutti gli effetti maggiori di 0.04 in valore assoluto sono statisticamente significativi
Nd
s i iy 2
22 ∑=
Necessità di un disegno frazionato • In un disegno fattoriale, il numero di esperimenti cresce
esponenzialmente col numero dei fattori • Ad esempio per 7 fattori è necessario effettuare 128
esperimenti (per stimare 7 effetti principali, 21 int. binarie, 35 ternarie, 35 quaternarie, 21 a cinque termini, 7 a 6 termini ed 1 a 7 termini)
• Le interazioni di ordine superiore al secondo sono spesso trascurabili
• Si può sfruttare questa ridondanza per ridurre il numero degli esperimenti da effettuare.
• Per far questo si seleziona un frazione (1/2p) di un disegno fattoriale completo e si eseguono solo quegli esperimentiè disegno fattoriale frazionato
Disegni fattoriali frazionati • Si simboleggiano sottraendo all’esponente del disegno
completo un valore tale da ottenere il numero di esperimenti desiderati: 2k-p
• Ad esempio un disegno 24-1 è un disegno per 4 fattori in cui si esegue la metà degli esperimenti corrispondenti ad un disegno completo (8 anziché 16)
• Questi disegni devono essere bilanciati e coprire il dominio sperimentale nella maniera più completa possibile.
• Come primo esempio consideriamo la possibilità di studiare i fattori che influenzano la risoluzione di due anioni (fosfato e fluoruro) in elettroforesi capillare.
• Studiamo l’effetto di 3 fattori: – pH (-: 8.0; +: 9.0) – Conc. BE (-: 0.008 M; +: 0.010 M) – Conc. modificante CEM (-: 0.0008 M; +: 0.0025 M)
Disegni fattoriali frazionati - 2 • La maniera più efficace di mappare il dominio sperimentale in
3 dimensioni con 4 esperimenti è un tetraedro • In questo modo, ogni fattore è in due esperimenti al livello + e
negli altri due al livello -: il risultato è un disegno bilanciato.
Disegni fattoriali frazionati - 3 • Per spiegare come funzioni un disegno fattoriale frazionato,
scegliamo una situazione semplice: riduzione di un disegno 24 a 23 (metà degli esperimenti)
• Per far questo, utilizziamo i dati della sferonizzazione e immaginiamo di eseguire solo i primi 8 esperimenti della tabella
• La scelta degli esperimenti non è effettuata in maniera casuale ma, come detto per coprire quanto più possibile il dominio sperimentale.
• Le modalità di effettuare questa scelta saranno illustrate in seguito, per ora ci soffermiamo sull’interpretazione dei risultati.
Disegno fattoriale 24-1
Disegno frazionato: interpretazione • Il calcolo degli effetti in un disegno frazionato è analogo a
quanto descritto nel caso di un disegno completo. • Ad esempio:
– EA=1/8 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8) – EBCD=1/8 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8)
• Confrontando le equazioni si può notare come esse siano uguali, dal momento che A e BCD sono caratterizzate dalla stessa sequenza di + e –
• Per comprendere esattamente cosa venga calcolato, analizziamo gli effetti degli stessi fattori nel disegno completo: – EA=1/16 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8 + y9 + y10 + y11 + y12
– y13 – y14 – y15 – y16) – EBCD=1/16 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8 - y9 - y10 - y11 - y12
+ y13 + y14 + y15 + y16)
Disegno frazionato: interpretazione - 2 • A partire dalle equazioni del disegno completo, si nota come:
– 1/8 (y1 + y2 + y3 + y4 - y5 - y6 - y7 - y8) = EA+EBCD
• Considerazioni analoghe possono essere fatte per altre coppie di colonne (AD e BC; ABC e D)
• In questo caso si dice che gli effetti sono confusi e che i termini sono alias uno dell’altro.
• In generale ogni effetto in un disegno 2k-p è confuso con altri 2p-1 effetti
• Di conseguenza non si stima più l’effetto di un singolo termine ma una somma di più effetti
• Per l’interpretazione, di solito gli effetti di interazioni di ordine superiore al secondo sono considerati trascurabili.
Disegno frazionato: interpretazione - 3
Definizione dei contrasti e generazione del disegno • Finora abbiamo visto come si calcolano gli effetti nel caso di
un disegno frazionato • Ora studiamo come si definiscono gli alias e in che modo si
scelgono gli esperimenti da compiere • Per fare questo abbiamo bisogno di introdurre delle regole
algebriche • Abbiamo visto in precedenza come per ottenere i livelli delle
interazioni dovessimo moltiplicare i segni dei fattori che la compongono: – Ad es: AB=AxB
• Analogamente, è facile dimostrare come, per qualsiasi fattore, il termine quadratico corrisponda all’effetto medio: – A2 = AxA = I
Definizione dei contrasti - 2
• Nell’esempio considerato, A=BCD • Quindi AxA=A2=I=AxBCD=ABCD • Anche i livelli dell’interazione quaternaria ABCD si
confonderanno con l’effetto medio. • Per questo motivo, definiamo contrasto generatore o
relazione generatrice l’equazione: – I=ABCD
Definizione dei contrasti - 3 • Per conoscere tutti gli altri gli alias è sufficiente moltiplicare il
contrasto generatore per il fattore o l’interazione di cui si vuole definire l’alias: – AxI=A=AxABCD=A2BCD=IxBCD=BCD – BxI=B=BxABCD=B2ACD=IxACD=ACD – ACxI=AC=ACxABCD=A2C2BD=IxIxBD=BD – …
• Il numero delle relazioni generatrici è uguale a 2p-1 e corrisponde al numero di termini che si confondono con l’effetto medio.
• Nel caso di un disegno 2k-1 dove p=1, come quello che stiamo considerando si ha una sola relazione generatrice (nel nostro caso, la già vista: I=ABCD)
Generazione del disegno • Per capire come generare un disegno fattoriale frazionato,
esaminiamo la tabella:
• Vediamo come le prime tre colonne rappresentino un disegno fattoriale completo per 3 variabili
• Si potrebbe dire che per ricavare un disegno 24-1 da un disegno 23 abbiamo aggiunto un’altra colonna, scelta in maniera tale che D avesse gli stessi livelli di ABC
Generazione del disegno - 2 • La considerazione precedente è equivalente al dire che
abbiamo deliberatamente “sacrificato” ABC ad essere confuso con D
• Per generare il disegno abbiamo quindi dovuto dire D=ABC • Questa relazione è chiamata generatore • Il generatore porta alla relazione generatrice vista prima:
– D=ABC èD2=I=ABCD • Queste considerazioni permettono di costruire ogni disegno
frazionato 2k-p a partire dal corrispondente disegno completo 2q con q=k-p.
• Ad esempio se volessimo utilizzare un disegno completo 23 per ridurre un disegno 25 (25-2), invece che 24 (24-1) dovremmo identificare due generatori e non più uno solo: – D=ABC (si parte sempre dall’interazione di ordine maggiore) – E=BC (sulla base della conoscenza del sistema si cerca di far
confondere un fattore con un’interazione che si pensa non importante)
Riduzione 25-2
• In questo caso le relazioni generatrici sono: – I=ABCD e I=BCE
• Per ricavare la terza relazione mancante, possiamo utilizzare la condizione algebrica I2=IxI=I: – IxI=ABCDxBCE=AB2C2DE=ADE
• Quindi ci sono 3 contrasti generatori I=ADE=BCE=ABCD, che identificano i termini che si confondono con l’effetto medio
Generazione del disegno - 3 • Possiamo quindi ricavare tutti gli altri alias della tabella
precedente moltiplicando per i fattori principali e per le interazioni i contrasti generatori: – AxI = A = BCD (AxABCD) = ABCE (AxBCE) = DE (AxADE) – BxI = B = ACD (BxABCD) = CE (BxBCE) = ABDE (BxADE) – …
• Vale la pena ricordare che si sarebbero ottenuti altri disegni nel caso si fosse scelto di confondere E con AC o con AB.
• La scelta dei generatori è importantissima perché ci dice quali effetti possono essere valutati senza troppa interferenza
• Se alcune specifiche interazioni sono d’interesse si deve cercare di non farle confondere l’una con l’altra.
Considerazioni • Consideriamo il disegno 24-1 visto in precedenza. • La stima degli effetti ha mostrato come l’effetto del fattore B
non fosse significativo • Per gli altri 3 fattori (A,C,D) gli 8 esperimenti effettuati
rappresentano un disegno completo. • La stessa cosa si sarebbe potuta dire nel caso uno qualsiasi
degli altri fattori principali si fosse rivelato non significativo • Nel caso si scoprisse la non significatività di uno dei fattori,
sarebbe possibile rielaborare i risultati del disegno come se si trattasse del disegno completo corrispondente.
• La stessa considerazione può essere fatta per un qualsiasi disegno 2k-p (in questo caso è necessario che p termini non siano significativi)
Scelta di esperimenti aggiuntivi • Ritorniamo all’esempio sulla sferonizzazione visto in
precedenza. • Attraverso il disegno fattoriale frazionato 24-1 è stato possibile
identificare come significativi i contributi dei fattori A, C e D • Nessun termine di interazione binaria risultava significativo. • Immaginiamo però che, ad esempio, il termine contenente le
due interazioni AC+BD fosse risultato significativo • A questo punto si potrebbe essere interessati a sapere se
l’effetto andasse attribuito ad AC, a BD o a tutti e due • Se questa informazione venisse reputata essenziale, ci si
potrebbe spingere fino a fare gli altri 8 esperimenti lasciati da parte
Scelta di esperimenti aggiuntivi - 2 • È chiaro che la scelta di una strategia di questo tipo permette
comunque di salvare tempo e denaro • Se siamo “fortunati”, l’informazione che cerchiamo è già
presente nei primi 8 esperimenti che facciamo, per cui non è necessario svolgerne di altri
• Nel caso avessimo bisogno di ulteriori informazioni, possiamo effettuare gli altri esperimenti in seguito, ottenendo la stessa informazione che se avessimo fatto dall’inizio un disegno completo.
• In generale, l’uso di un disegno frazionato come punto di partenza è spesso raccomandabile perché, tra le altre cose, il primo disegno sperimentale può permettere di evidenziare delle debolezze nella messa a punto degli esperimenti: – Ad es: la scelta dei livelli a cui fissare i fattori non ottimale
Disegni di screening • Quando si inizia uno studio si hanno spesso così tanti fattori
che può essere desiderabile inizialmente effettuale uno screening per capire quali siano importanti (abbiano un chiaro effetto) e continuare solo con quelli
• In questo caso, non siamo troppo interessati alle interazioni, anzi vogliamo ottenere questa informazione con il minimo degli esperimenti
• Spesso si utilizzano disegni 23-1 o 27-4 che permettono di studiare (fino a) 3 o 7 fattori con 4 o 8 esperimenti.
• Questi disegni sono chiamati saturati perché rappresentano il più piccolo disegno fattoriale possibile
• Infatti, ad esempio, non potrei mai ridurre un disegno 27 ad un disegno 22 perché avrei 4 esperimenti per studiare 7 fattori
Disegni di screening - 2 • Va detto che non sempre è necessario utilizzare disegni
saturati • Ad es. posso studiare 6 fattori con un disegno 27-4 e
l’introduzione di un fattore “dummy” ma anche scegliere di ridurre 26-4 ed avere un disegno che ha una risoluzione maggiore
• D’altro canto esistono anche dei disegni supersaturati, dove gli effetti dei termini principali possono essere anche confusi tra di loro
• Questi ultimi sono usati quando si ha a che fare con molti fattori, ma solo pochi sono veramente importanti
• Una particolare applicazione dei disegni di screening è alla determinazione della solidità (ruggedness) di un processo
Ruggedness • In questo caso, si è messo a punto un processo (ad esempio
un procedimento di misura) e si vuole sapere se piccole variazioni dalle condizioni di partenza possano avere influenza sulla qualità del processo stesso
• Immaginiamo di voler determinare una tetraciclina per HPLC • La fase mobile contiene una soluzione acquosa di sali
d’ammonio (0.1M ammonio ossalato, 0.2M ammonio fosfato) e DMF (270 mL).
• Il pH è stato aggiustato a 7.65 e la velocità di flusso ad 1 mL/min
• Il rapporto S/N per l’integrazione a 2 • Il sesto parametro (età della colonna) non ha un valore
nominale
Ruggedness - 2
• A partire da questi sei fattori si può, come detto scegliere di fare 8 esperimenti (27-4 identificando uno dei 7 fattori con una variabile dummy) o 16 (26-4, come fatto dagli autori di questo studio)
Ruggedness - 3 • In questi esperimenti, la risposta è il fattore di capacità
Ruggedness - 4 • Siamo interessati solo agli effetti
principali (trascuriamo tutte le interazioni)
• Gli effetti maggiori in modulo del valore critico sono significativi
• In questo caso il contributo maggiore è dato dal fattore F (età della colonna)
Disegni di Plackett-Burman • Abbiamo visto come, utilizzando un disegno saturato, 8
esperimenti permettano di studiare fino a 7 fattori. • Nel caso i fattori siano più di 7 abbiamo bisogno almeno di 16
esperimenti • Plackett e Burman hanno proposto dei disegni di screening
che contemplano un numero di esperimenti che sia multiplo di 4 (4,8,12,16, 20…)
• In questo modo è possibile studiare rispettivamente fino a 3,7,11,15,19,… fattori.
• Nei casi in cui nx4=2k i disegni di Plackett-Burman sono una frazione di un disegno fattoriale completo (e quindi sono equivalenti ai disegni fattoriali frazionati)
• Questo non avviene quando il numero di esperimenti non è una potenza di 2
Disegni di Plackett-Burman - 2 • Consideriamo il disegno con 12 esperimenti (che permette di
studiare fino a 11 fattori). • I disegni di Plackett-Burman hanno la peculiarità di essere
ciclici • Ad esempio il disegno con 12 esperimenti e 11 fattori si
ottiene a partire da una prima riga data nel loro articolo originale (che corrisponde al primo esperimento): + + - + + + - - - + -
• I successivi dieci esperimenti si ottengono permutando ciclicamente questa riga. Ad es, il secondo è: - + + - + + + - - - +
• L’ultima riga è costituita da tutti segni -
Disegni di Plackett-Burman - 3
• I disegni sono bilanciati (in questo caso ogni fattore è misurato a 6 livelli + e 6 -) e gli effetti principali non sono confusi tra di loro
• Il calcolo degli effetti si fa come nel caso dei disegni fattoriali visti in precedenza
Disegni di Plackett-Burman - 4 • Come anticipato, quando il numero di fattori che si vogliono
studiare è minore del numero massimo, si introducono dei fattori “dummy”
• Youden e Steiner: “Dobbiamo associare questi fattori dummy ad operazioni senza senso come ‘prendere solennemente il beaker, osservarlo intensamente e rimetterlo a posto’ ”
• Ovviamente in questo caso solo l’effetto dei fattori reali sarà significativo
• Tuttavia, l’uso di fattori dummy permette una stima dell’incertezza sugli effetti, come citato in precedenza.
• Analizziamo il caso della determinazione della ruggedness con 12 esperimenti (avremmo potuto utilizzarne 8, avendo 6 fattori, ma come nel caso visto in precedenza, gli autori hanno scelto di fare più esperimenti per una migliore valutazione dell’incertezza sugli effetti)
Ruggedness (P-B)
• Come si può vedere, anche con il disegno di Plackett-Burman il fattore F (ovvero l’età della colonna) è quello che appare contribuire maggiormente
• In questo caso è l’unico statisticamente significativo
Disegni a più livelli • I disegni a due livelli permettono la stima degli effetti di tutti i
fattori e delle interazioni • I disegni multi-livello sono utilizzati in contesti differenti • Per fattori qualitativi non c’è altra scelta che considerare tanti
livelli quanti sono gli attributi dei fattori • Per fattori quantitativi, due livelli permettono solo di
rappresentare linee, piani o iperpiani • Se si vuole rappresentare una risposta curva c’è bisogno
almeno di tre livelli
Disegni a più livelli - 2 • I disegni a più livelli vengono utilizzati per modellare una
relazione curvilinea. • Si può scegliere tra modelli meccanicistici e modelli empirici • Nel quadro dell’ED si usano quasi sempre modelli empirici, di
tipo quadratico. • Come già anticipato, questo tipo di modelli includono in
genere un termine costante, termini di primo e secondo ordine e interazioni tra i fattori (spesso limitate alle interazioni binarie)
• La qualità della stima dei coefficienti dipende dalla scelta del disegno
• Comunque, una volta stimati i coefficienti del modello, è possibile prevedere la y a partire dalle x
• Si ottengono le cosiddette superfici di risposta • Alcuni tipi di superfici sono riportate nel lucido successivo
Superfici di risposta