Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e...

39
1 1 MODELLI EMPIRICI Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain E-mail: [email protected] Home page: www.gest.unipd.it/~livio/Corso_Civile.html 2 MODELLI EMPIRICI SOMMARIO Introduzione ai modelli empirici Regressione lineare semplice polinomiale con regressori qualitativi Regressione lineare multipla e superfici di risposta Trasformazione dei dati nella regressione Modelli non lineari

Transcript of Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e...

Page 1: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

1

1MODELLI EMPIRICI

Metodi Statistici e Probabilistici per l’Ingegneria

MODELLI EMPIRICI

Corso di Laurea in Ingegneria Civile

Facoltà di Ingegneria, Università di Padova

Docente: Dott. L. CorainE-mail: [email protected] Home page: www.gest.unipd.it/~livio/Corso_Civile.html

2MODELLI EMPIRICI

SOMMARIO

Introduzione ai modelli empirici

Regressione

lineare semplice

polinomiale

con regressori qualitativi

Regressione lineare multipla e superfici di risposta

Trasformazione dei dati nella regressione

Modelli non lineari

Page 2: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

2

3MODELLI EMPIRICI

Molti problemi in ingegneria e scienze coinvolgono l’esplorazione delle relazioni tra due o più variabili e la modellazione del possibile legame esistente tra queste.Il modello e l’analisi di regressione rappresenta una tecnica statistica molto utile per questi tipi di problemi.In generale, si suppone che vi sia una sola variabile dipendente o risposta Y, dipendente da k variabili indipendenti (esplicative/regressori) x1,x2,…,xk.Frequentemente si usano i metodi di regressione per analizzare i dati di studi osservazionali o esperimenti non pianificati, utili anche quando negli esperimenti programmati qualcosa è andato storto.Il modello di regressione può essere applicato anche come analisi aggiuntiva al quella ANOVA a dataset provenienti da esperimenti programmati.

INTRODUZIONE AI MODELLI EMPIRICI

4MODELLI EMPIRICI

L’analisi di regressione è utilizzata anche per capire quali specifiche variabili, tra un insieme di diverse variabili indipendenti, sono legate alla variabile dipendente e per esplorare le forme di queste relazioni.L’analisi di regressione viene molto spesso utilizzata al fine di ottenere delle previsioni.Le prestazioni dei metodi di analisi di regressione, in pratica dipendono dalla forma del processo di generazione dei dati, e come questo si relazione all’approccio di regressione utilizzato.Dal momento che la vera forma del processo di generazione dei dati non è noto, l'analisi di regressione dipende in qualche misura dal fare assunzioni su questo processo.

INTRODUZIONE AI MODELLI EMPIRICI

Page 3: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

3

5MODELLI EMPIRICI

Nell’analisi di regressione l'obiettivo della stima sono i parametri β che caratterizzano una funzione delle variabili indipendenti chiamata funzione di regressione:

Y = f(X;β) + ε.– Variabile dipendente/risposta: Y. – Variabili indipendenti/esplicative: X. – Parametri ignoti identificati da β.– Termine di errore casuale: ε.

L'utente dell’analisi di regressione deve fare un'ipotesi ragionevole sulla funzione f(X;β).A volte la forma di questa funzione può essere nota, altre volte si deve applicare un processo trial and error, altre volte infine la forma è ignota perché troppo complessa e si decide di adottare una funzione semplificata che possibilmente la rappresenti.

INTRODUZIONE AI MODELLI EMPIRICI

6MODELLI EMPIRICI

Le assunzioni classiche per l'analisi di regressione sono:– Il campione deve essere rappresentativo della

popolazione verso la quale si vuol fare inferenza.– L’errore è assunto essere una variabile casuale con

media condizionata alle variabili esplicative pari a zero.– Le variabili indipendenti sono prive di errore

(deterministiche). Se così non fosse, la modellazione dove prendere in considerazione le tecniche per i modelli con errori nelle variabili.

– Gli errori sono incorrelati, cioè la matrice di varianze/covarianze degli errori è diagonale e ogni elemento non nullo è la varianza dell’errore.

– La varianza dell’errore è costante rispetto alle osservazioni (omoschedasticità). Se così non fosse, si dovrebbero utilizzare la tecnica dei minimi quadrati pesati o altri metodi idonei a queste condizioni.

INTRODUZIONE AI MODELLI EMPIRICI

Page 4: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

4

7MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Per esempio, in un processo chimico, si supponga che la purezza dell’ossigeno prodotto sia legata al livello di idrocarburi d’esercizio del processo.L’analisi di regressione può essere usata per costruire un modello per prevedere le rese in termini di purezza per uno specificato livello di idrocarburi.

8MODELLI EMPIRICI

Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi.

REGRESSIONE LINEARE SEMPLICE

Page 5: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

5

9MODELLI EMPIRICI

Sulla base del diagramma di dispersione, è ragionevole supporre che la media della variabile casuale Y sia legata alla x dalla seguente relazione lineare:

dove la pendenza e l’intercetta della retta si chiamano coefficienti di regressione.

Il modello di regressione lineare semplice è dato da

dove il termine di errore casuale ε è assunto IID (indipendente ed identicamente distribuito) con media zero e varianza (costante) σ2.

REGRESSIONE LINEARE SEMPLICE

10MODELLI EMPIRICI

Possiamo pensare al modello di regressione come ad un modello empirico.Dalle assunzioni sul termine casuale ε è possibile ricavare media e varianza della variabile risposta Y:

cioè vi è una distribuzione di valori Y per ogni dato x e la varianza di questa distribuzione è la stessa ad ogni x:

Il vero modello di regressione è il luogo geometrico di tutti valori medi condizionati di Y per ogni dato x:

dove β1 può essere interpretato come la variazione del valore medio di Y per un variazione unitaria di x.

REGRESSIONE LINEARE SEMPLICE

Page 6: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

6

11MODELLI EMPIRICI

Ipotetica vera distribuzione di Y per un dato x per i dati sulla della purezza dell’ossigeno rispetto al livello di idrocarburi.

REGRESSIONE LINEARE SEMPLICE

12MODELLI EMPIRICI

Il caso della regressione lineare semplice considera un singolo regressore o predittore x e una variabiledipendente o risposta Y. Supponiamo di avere n coppie di osservazioni (x1,y1), (x2,y2),…, (xn,yn).Il metodo dei minimi quadrati viene utilizzato per stimare i parametri, β0 e β1 minimizzando la somma dei quadrati delle deviazioni verticali.

Deviazioni dei dati dal modello di regressione stimato.

REGRESSIONE LINEARE SEMPLICE

Page 7: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

7

13MODELLI EMPIRICI

Consideriamo il modello di regressione lineare semplice in riferimento alle n osservazioni del campione

con εi~IID(0,σ2) e definiamo una funzione obiettivo Lcome la somma degli scarti al quadrato delle osservazioni dal vero modello di regressione:

Gli stimatori (detti ai minimi quadrati) dei due parametri β0 e β1 devono soddisfare le due equazioni

REGRESSIONE LINEARE SEMPLICE

0 1ˆ ˆβ e β

14MODELLI EMPIRICI

Semplificando le due espressioni si ottengono le cosiddette equazioni normali ai minimi quadrati

le cui soluzioniforniscono glistimatori aiminimi quadratidove

e .

REGRESSIONE LINEARE SEMPLICE

Page 8: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

8

15MODELLI EMPIRICI

Gli stimatori ai minimi quadrati dei due parametri β0 e β1sono non distorti

con varianza pari a

Si può dimostrare che sono anche stimatori consistenti, ovvero asintoticamente la probabilità che assumano il vero valore del parametro è pari ad uno.

REGRESSIONE LINEARE SEMPLICE

16MODELLI EMPIRICI

La retta di regressione stimata (o prevista) è quindi

si noti che ogni coppia di osservazioni soddisfa la relazione

dove il termine viene definito residuo.L’i-esimo residuo ei rappresenta l’errore relativo al valore previsto dal modello rispetto all’osservazione yi.In seguito vedremo che i residui verranno utilizzati come per ottenere delle elaborazioni dette analisi dei residui che mirano a valutare dal punto di vista descrittivo l’adeguatezza del modello stimato rispetto alle assunzioni (normalità, indipendenza ed eteroschedasticità) del modello di regressione lineare.

REGRESSIONE LINEARE SEMPLICE

Page 9: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

9

17MODELLI EMPIRICI

Riprendendo l’esempio della purezza dell’ossigeno rispetto al livello di idrocarburi, le stime ai minimi quadrati del coefficiente angolare e dell’intercetta sono

Il modello di regressione stimato risulta quindi

Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi e modello di regressioneŷ = 74.20 + 14.97x.

REGRESSIONE LINEARE SEMPLICE

18MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Page 10: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

10

19MODELLI EMPIRICI

La somma dei quadrati degli errori SSE è pari a

Si può dimostrare che il valore atteso della somma dei quadrati degli errori è tale che E(SSE) = (n – 2)σ2.

REGRESSIONE LINEARE SEMPLICE

Quindi, una stimatore non distorto di σ2 è

dove SSE può essere facilmente calcolato come

20MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Assumendo che il termine di errore casuale ε abbia distribuzione normale, ovvero εi~NID(0,σ2), è possibile considerare due statistiche test finalizzare a fare inferenza sui due parametri β0 e β1, formalmente

dove un importate caso è quello del cosiddetto test di significatività della regressione: H0: β1=0 vs. H1: β1≠0Le statistiche test appropriate sono:

che hanno distribuzione nulla t di Student con n-2 gdl, ovvero l’ipotesi nulla sarà rigettata se .

Page 11: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

11

21MODELLI EMPIRICI

Il mancato rifiuto dell’ipotesi nulla H0: β1=0 vs. H1: β1≠0 è equivalente a concludere che non vi è una relazione lineare tra x e Y.

REGRESSIONE LINEARE SEMPLICE

Possibili casi in cui l’ipotesi H0: β1 = 0 non è rigettata.

Possibili casi in cui l’ipotesi H0: β1 = 0 viene è rigettata.

22MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Page 12: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

12

23MODELLI EMPIRICI

Una procedura alternativa (ma equivalente) per sottoporre a verifica la significatività della regressione (H0: β1=0 vs. H1: β1≠0) può essere sviluppata grazie all’approccio dell’Analisi della Varianza (applicato alla regressione), mediante l’espressione:

Se l’ipotesi nulla H0: β1=0 è vera, la statistica test

segue una distribuzione F1,n-2 e l’ipotesi sarà rifiutata, a livello di significatività α, se F0 > Fα;1,n-2.

REGRESSIONE LINEARE SEMPLICE

24MODELLI EMPIRICI

I risultati delle verifica di ipotesi sulla significatività della regressione via Analisi della Varianza vengono usualmente rappresentati in forma tabellare:

dove le quantità MSR e MSE sono chiamate quadrati medi della regressione e dell’errore.SSR e SSE rappresentano rispettivamente la parte della variabilità totale della risposta Y spiegata dalla regressione e la parte imputabile al termine di errore.

REGRESSIONE LINEARE SEMPLICE

Page 13: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

13

25MODELLI EMPIRICI

è chiamata coefficiente di determinazione - R2 ed èspesso utilizzata per giudicare l’adeguatezza del modello di regressione.Il range dei valori possibili dell’R2 sono 0 ≤ R2 ≤ 1.Spesso ci riferiamo all’R2 come la quantità della variabilità nei dati spiegata o interpretata dal modello di regressione. Per il modello di regressione della purezza dell’ossigeno rispetto al livello di idrocarburi,

R2 = SSR/SST = 152.13/173.38 = 0.877Quindi, il modello interpreta l’87.7% della variabilitàpresente nei dati.

La quantità

REGRESSIONE LINEARE SEMPLICE

26MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Page 14: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

14

27MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

28MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Sotto l’assunzione εi~NID(0,σ2), ovvero di normalità del termine di errore (o equivalentemente delle osservazioni Yi), oltre a condurre dei test di significatività sui parametri, è possibile costruire degli intervalli di confidenza all’(1-α)100% per il coefficiente angolare β1 e per l’intercetta β0:

Page 15: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

15

29MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

30MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Oltre agli intervalli di confidenza per parametri β1 e β0, èpossibile costruire intervalli di confidenza anche per

la previsione media µY|x0:

la previsione puntuale Y0:

Page 16: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

16

31MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

32MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi, retta di regressione stimata e limiti di confidenza al 95% di µY|x0.

Page 17: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

17

33MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

34MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi, retta di regressione stimata, limiti di confidenza al 95% di µY|x0 (linee interne) e limiti di previsione al 95% (linee esterne).

Page 18: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

18

35MODELLI EMPIRICI

Adottare un modello di regressione richiede alcune assunzioni: εi~NID(0,σ2),

gli errori devono essere variabili aleatorie incorrelatecon media zero;gli errori devono avere varianza costante;gli errori devono essere distribuiti normalmente.

L'analista deve sempre considerare la validità di queste assunzioni e condurre analisi per esaminare l'adeguatezza del modello.I residui del modello di regressione sono definiti come ei=yi−ŷi, dove yi è il valore osservato e ŷi è il corrispondente valore stimato dal modello di regressione.

REGRESSIONE LINEARE SEMPLICE

36MODELLI EMPIRICI

Possibili pattern dei grafici dei residui.

(a) soddisfacente, (b) imbuto,(c) double bow, (d) non lineare.

REGRESSIONE LINEARE SEMPLICEL'analisi dei residui è spesso utile nel valutare l'ipotesi che gli errori sono hanno distribuzione normale, con varianza costante, e nel determinare se sarebbe utile considerare nel modello ulteriori termini.

Page 19: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

19

37MODELLI EMPIRICI

REGRESSIONE LINEARE SEMPLICE

Normal probabilityplot dei residui

Residui vs. valori previsti ŷ

38MODELLI EMPIRICI

La regressione polinomiale è una forma di regressione lineare in cui la relazione tra la variabile indipendente xe la variabile dipendente Y viene modellata da un polinomio.La regressione polinomiale adatta una relazione non lineare tra il valore di x e la corrispondente media condizionata di Y, indicata con E(Y|X).Anche se la regressione polinomiale adatta ai dati un modello non lineare, il problema di stima statistica èlineare, nel senso che la funzione di regressione E(Y|x) è lineare nei parametri ignoti che sono stimati dai dati.Quindi, la regressione polinomiale è considerata un caso particolare di regressione lineare multipla.

REGRESSIONE POLINOMIALE

Page 20: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

20

39MODELLI EMPIRICI

• Modello lineare semplice:Yi = β0 + β1xi + εi, i =1,...,n.

• Modello quadratico:Yi = β0 + β1xi + β2xi

2 + εi, i =1,...,n.• Modello cubico:

Yi = β0 + β1xi + β2xi2 + β3xi

3 + εi, i =1,...,n.• Modello polinomiale di ordine p:

Yi = β0 + β1xi + β2xi2 +…+ βpxi

p + εi, i =1,...,n.

Un approccio alternativo è la regressione non parametrica in cui la funzione link non prende una forma predeterminata, ma viene costruita in base alle informazioni ricavate dai dati.

REGRESSIONE POLINOMIALE

40MODELLI EMPIRICI

REGRESSIONE CON REGRESSORI QUALITATIVIIn un modello di regressione si possono introdurre anche delle variabili esplicative di tipo qualitativo (es. tipo di prodotto, fornitore, ecc.), che possono essere definite su due o più livelli (modalità, categorie).A questo scopo, data una variabile qualitativa su a livelli, ènecessario applicare la seguente procedura:

o un livello (ad es. il primo) viene scelto come riferimento (baseline);

o si costruiscono a−1 variabili (di comodo o dummy) D2,...,Da, secondo una delle due codifiche:

1. Dij=1, se in corrispondenza dell’i-esima osserva-zione (i=1,...,n) si osserva il livello j-esimo della variabile qualitativa; altrimenti Dij=0;

2. Dij=1, se in corrispondenza dell’i-esima osserva-zione (i=1,...,n) si osserva il livello j-esimo; Dij=−1 se si osserva il livello 1 (baseline), altrimenti Dij=0.

Page 21: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

21

41MODELLI EMPIRICI

REGRESSIONE CON REGRESSORI QUALITATIVISi noti che la variabile di comodo per la categoria di riferimento non viene considerata in quanto si verrebbe a determinare una dipendenza lineare tra le colonne della matrice dei regressori con conseguente impossibilità di invertire la matrice X′X.Il coefficiente di una variabile dummy deve essere sempre interpretato in relazione alla categoria di riferimento, vale a dire la categoria che riceve il valore 0.Le variabili dummy possono interagire con regressori sia quantitativi sia qualitativi. Se un modello contiene più variabili esplicative di tipo qualitativo con diverse categorie, l'introduzione delle dummy per tutte le combinazioni possono ‘consumare’un gran numero di gradi di libertà, specialmente se la dimensione del campione è relativamente piccolo.

42MODELLI EMPIRICI

Un modello spesso usato è il modello di regressione lineare multipla con due variabili indipendenti:

Il modello descrive un piano nello spazio tridimensionale (y,x1,x2).In generale, quando la variabile di risposta y può essere legata a k variabili esplicative è possibile specificare il seguente modello lineare:

Regressione polinomiale o con variabili qualitative sono casi particolari di regressione lineare multipla.Questo approccio può essere applicato a dati provenienti sia da studi osservazionali sia sperimentali (dopo l’analisi ANOVA, se uno o più fattori sono di tipo numerico).

REGRESSIONE LINEARE MULTIPLA

Page 22: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

22

43MODELLI EMPIRICI

Il dati si presentano nell’usuale forma di dataset:

Il modello di regressione lineare multipla, per la singola osservazione yi, si presenta nella forma

con εi~IID(0,σ2).

Riscritto in termini matriciali, risulta .

REGRESSIONE LINEARE MULTIPLA

44MODELLI EMPIRICI

y è un vettore (n×1) delle variabili casuali rappresentanti le osservazioniX è una matrice (n×p) dei livelli delle variabili indipendenti, con p=k+1

è un vettore (p×1) dei coefficienti di regressione è un vettore (n×1) di errori casuali

REGRESSIONE LINEARE MULTIPLA

Page 23: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

23

45MODELLI EMPIRICI

Definiamo una funzione obiettivo L come la somma degli scarti al quadrato delle osservazioni dal vero modello di regressione La funzione dei minimi quadrati

Semplificando si ottiene un sistema di p equazioni dette normali ai minimi quadrati, che è semplice risolvere in forma matriciale.L’obiettivo è quello di trovare il vettore degli stimatori ai minimi quadrati del parametro β, tale da minimizzare

Dopo alcuni passaggi si ottiene .

REGRESSIONE LINEARE MULTIPLA

1ˆ ( )−′ ′=β XX X y

46MODELLI EMPIRICI

I valori stimati dal modello di regressione lineare multipla sono definiti come In notazione scalare

La differenza tra osservazioni reali yi e i corrispondenti valori stimati ŷi definisce il vettore (nx1) dei residui e

Per stimare σ2 si considera la somma dei quadrati dei residui SSE

Si può mostrare che quindi uno sti-matore non distorto di σ2 è dato da: .

REGRESSIONE LINEARE MULTIPLA

2ˆ ( )ESS n pσ = −

Page 24: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

24

47MODELLI EMPIRICI

Il metodo dei minimi quadrati produce uno stimatore _del parametro β del modello di regressione lineare che è BLUE (Best Linear Unbiased Estimator), ovvero è non distorto e ottimale nella classe degli stimatori lineari.Lo stimatore è inoltre consistente (converge asintotica-mente in probabilità al vero valore).Le proprietà della varianza di viene espressa dalla matrice varianze-covarianze

che è una matrice simmetrica, il cui i-esimo elemento nella diagonale principale è la varianza dello stimatore del coefficiente di regressione individuale e il cui elemento (ij)-esimo è la covarianza tra e

REGRESSIONE LINEARE MULTIPLA

β̂

β̂

48MODELLI EMPIRICI

La multicollinearità è un fenomeno che si può verificare in presenza di alta correlazione tra due o piùvariabili indipendenti.Questo significa che alcune variabili contribuiscono con delle informazioni ridondanti al modello di regressione multipla.L’inclusione di due variabili indipendenti strettamente correlate può influenzare negativamente i risultati della regressione e portare a stime dei parametri instabili (errore standard elevati e conseguenti bassi valori osservati dei t-test), tanto che i segni dei parametri potrebbero anche non corrispondere alle aspettative iniziali.

REGRESSIONE LINEARE MULTIPLA

Page 25: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

25

49MODELLI EMPIRICI

La presenza di multicollinearità è suggerita da alcuni situazioni:o segni errato sui parametri stimati;o grandi variazioni nella stima di un parametro quando

una nuova variabile si aggiunge al modello;o una variabile significativa in precedenza diventa

insignificante quando una nuova variabile indipendente è aggiunta;

o la stima della deviazione standard del modello aumenta quando una variabile viene aggiunto al modello;

o valori elevati (>5) dell’indice VIF (Variance InflationFactor), calcolato per ogni data stima del parametro βj.

REGRESSIONE LINEARE MULTIPLA

50MODELLI EMPIRICI

Sotto l’assunzione che gli errori del modello siano εi~IIN(0,σ2), cioè indipendenti e distribuiti normalmente, con valore atteso zero e varianza costante, è possibile sviluppare delle procedure di verifica di ipotesi sulla significatività dei parametri del modello. Una prima verifica di ipotesi (di tipo globale), mira a determinare se vi sono relazioni lineari tra la variabile di risposta Y ed almeno uno dei regressori:

Il rifiuto di H0 implica che almeno uno dei regressori contribuisce al modello, si tratta perciò di una procedura sulla significatività dell’intero modello di regressione.La statistica test utilizzata si sviluppa dalla usuale scomposizione della somma dei quadrati:

REGRESSIONE LINEARE MULTIPLA

Page 26: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

26

51MODELLI EMPIRICI

Dove le somma dei quadrati totali SST, dovuta alla regressione SSR è dell’errore SSE sono

Sotto l’ipotesi nulla la statistica test di interesse è di tipo F:

L’ipotesi nulla dovrà essere rifiutata se Foss > Fα;k,n−k −1.

REGRESSIONE LINEARE MULTIPLA

52MODELLI EMPIRICI

Il p-value, usualmente riportato nella tabella ANOVA della regressione, rappresenta un metodo alternativo ed equivalente per la verifica di ipotesi.

Dalla scomposizione della somma dei quadrati, si può calcolare l’indice di determinazione R2:

che è una misura della parte della variabilità di y spiegata dal modello. Un basso/elevato valore di R2 non implica necessariamente però che il modello di regressione sia cattivo/buono.

REGRESSIONE LINEARE MULTIPLA

Page 27: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

27

53MODELLI EMPIRICI

Dato che l’indice R2 aumenta monotonicamenteaggiungendo nuovi termini al modello, si preferisce utilizzarlo nella versione di R2

adj aggiustato ( adjusted):

L’indice R2adj non aumenta necessariamente quando si

aggiungono variabili nel modello, ma se si aggiungono termini superflui il valore decresce.Spesso siamo interessati a determinare l’utilitàindividuale di ciascuna delle variabili indipendenti, nel modello di regressione.Si deve decidere cioè se l’incremento nella somma dei quadrati della regressione è sufficiente a giustificare l’uso di una variabile aggiuntiva nel modello.

REGRESSIONE LINEARE MULTIPLA

54MODELLI EMPIRICI

Le ipotesi per valutare la significatività di un singolo coefficiente di regressione sono H0: βj=0 vs. H1: βj≠0.Una statistica test (di tipo t di Student) appropriata a testare questa ipotesi è

dove il denominatore è spesso chiamato errore standard.La maggior parte dei software di calcolo della regressione fornisce il test t per ogni parametro del modello.In alternativa, mediante un test F si può esaminare il contributo alla somma dei quadrati della regressione di una particolare variabile (posto che le altre variabili siano incluse nel modello): si tratta del metodo della somma dei quadrati aggiuntivi, utile anche a verificare se un dato sottoinsieme delle variabili contribuisce significativamente al modello.

REGRESSIONE LINEARE MULTIPLA

Page 28: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

28

55MODELLI EMPIRICI

Dal modello di regressione si vuole veri-ficare se il sottoinsieme X1 delle variabili di regressione contribuisce significativamente al modello. Il modello di regressione può essere riscritto evidenziando X1 e X2 e i relativi coefficienti β1 e β2:

Per il modello completo che include sia β1 sia β2 si ottiene dove l’errore ha p gradi di libertà, da cui

Per il modello ridotto, che recepisce il vincolo β1=0, si ottiene

REGRESSIONE LINEARE MULTIPLA

56MODELLI EMPIRICI

Si definisce la somma dei quadrati della regressione dovuta a β1 dato che β2 è già nel modello:

Ora dato che è indipendente da MSE, l’ipotesi H0: β1=0 può essere valutata dalla statistica

Tale statistica test è chiamata test F parziale e misura l’effetto di un vincolo imposto su di un sotto insieme di variabili indipendenti.Usualmente il vincolo è β1=0, ma con lo stesso approccio si potrebbe considerare anche il caso piùgenerale espresso da un sistema di equazioni lineari del tipo Rβ=r.

REGRESSIONE LINEARE MULTIPLA

Page 29: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

29

57MODELLI EMPIRICI

Consideriamo l’esempio della viscosità e supponiamo di volere studiare il contributo della variabile X2 nel modello.Le ipotesi da valutare sono H0: β2=0 vs. H1: β2=0. Ciò richiederà la somma dei quadrati aggiuntiva dovuta a β2

Il modello ridotto èPer valutare la statistica test adeguata è

Questa procedura equivale a condurre il test t su β2.

REGRESSIONE LINEARE MULTIPLA

58MODELLI EMPIRICI

Sotto assunzione di normalità degli errori casuali èpossibile costruire degli intervalli di confidenza per i coefficienti di regressione e per altre quantitàd’interesse nel modello di regressione.Un intervallo di confidenza al (1−α)% per il coefficiente di regressione βj è dato da

dove Cjj è l’elemento in posizione jj della matrice Un intervallo di confidenza per la risposta media µy|x0

in corrispondenza del punto x0=(x01,x02,…,x0k)

dove .

REGRESSIONE LINEARE MULTIPLA

Page 30: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

30

59MODELLI EMPIRICI

Infine, un intervallo di confidenza utile per prevedere future osservazioni del valore puntuale della risposta y0in corrispondenza del punto x0=(x01,x02,…,x0k)

dove .Quando si prevedono nuove osservazioni occorre molta cautela nell’eventuale estrapolazione al di fuori della regione contenente le osservazioni originarie.

REGRESSIONE LINEARE MULTIPLA

60MODELLI EMPIRICI

REGRESSIONE LINEARE MULTIPLAUno degli aspetti più delicati della regressione lineare multipla è la selezione delle variabili esplicative al fine di ottenere un modello finale soddisfacente.Infatti, la stima di un modello iniziale che include tutti i k possibili regressori produrrà quasi certamente un risultato in cui alcuni regressori avranno un p-value significativo mentre altri non l’avranno. Si pone quindi la questione della corretta/opportuna selezione del sottoinsieme dei regressori.In questo ambito non esiste un algoritmo ottimale che consente in tutte le condizioni di ottenere un modello finale “ottimo”.Ci si può affidare ad algoritmi alternativi, tenendo presente che questi non necessariamente produrranno lo stesso risultato.

Page 31: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

31

61MODELLI EMPIRICI

REGRESSIONE LINEARE MULTIPLAGli algoritmi più utilizzati per la selezione delle variabili esplicative nel modello di regressione lineare multipla si dividono in due categorie: 1. step-wise e 2. best sub-set.Gli algoritmi step-wise funzionano a passi, secondo una delle tre modalità:o Forward stepwise selection: inizia con il modello vuoto

e aggiunge regressori in modo sequenziale;o Backward stepwise selection: inizia con il modello

completo e toglie regressori in modo sequenziale;o Stepwise selection: combinazione di selezione forward

e backward.La procedura best sub-set si basa sull’idea di stimare tutte le possibili equazioni di regressione utilizzando tutte le possibili combinazioni di variabili indipendenti, quindi si sceglie il modello in termini di migliore adattamento ai dati (R2 elevato, MSE piccolo e indice Cp di Mallow appropriato).

62MODELLI EMPIRICI

Le analisi diagnostiche del modello di regressione sono delle tecniche che riguardano l’adeguatezza del modello e che si applicano usualmente a quello che si considera il modello stimato finale.L’analisi grafica dei residui fa parte di queste procedure. Alcuni autori suggeriscono di lavoro non sui residui ordinari quanto su una loro forma modificata, suggerendo che questi forniscono più informazioni.Uno tipo di questi residui è detto residui standardizzati

caratterizzati da media zero e varianza unitaria che tornano utili nella ricerca degli outlier o valori anomali.Il processo di standardizzazione trasforma la scala dei residui, in quanto li divide per la loro deviazione media approssimata.

REGRESSIONE LINEARE MULTIPLA

ˆ , 1,...,i id e i nσ= =

Page 32: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

32

63MODELLI EMPIRICI

La varianza dell’i-esimo residuo è ,dove la matrice H=X(X′X)−1X′trasforma il vettore dei valoriosservati in un vettore di valoriprevisti.In generale, residui prossimi al centro dello spazio di Xhanno varianza maggiore di quelli relativi a posizioni piùdistanti. Tenendo conto della non uniformità della varianza quando si trasforma la scala dei residui, conviene considerare i residui studentizzati:

In molte situazioni la varianza dei residui si stabilizza, particolarmente per grandi insiemi di dati ed in questi casi le differenze tra i residui standardizzati e studentizzati saranno piccole.

REGRESSIONE LINEARE MULTIPLA

64MODELLI EMPIRICI

Si riportano sedici osservazioni della viscosità di un polimero (y) e di due variabili di processo-temperatura di reazione (x1) e portata del catalizzatore (x2), a cui si vuole adattare unmodello di regressione multipla:

Impostate le matrici X ed y, si trovano le matrici X’X ed il vettore X’y e la stima ai minimi quadrati di

REGRESSIONE LINEARE MULTIPLA

Page 33: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

33

65MODELLI EMPIRICI

La tabella sottostante riporta alcuni output ottenuti con Minitab per accostamento del modello di regressione per l’esempio della viscosità.

REGRESSIONE LINEARE MULTIPLA

The regression equation isViscosity = 1566 + 7.62 Temp (x1) + 8.58 Feed rat (x2)

Predictor Coef SE Coef T PConstant 1566.08 61.59 25.43 0.000Temp (x1) 7.6213 0.6184 12.32 0.000Feed rat (x2) 8.585 2.439 3.52 0.004

S = 16.3586 R-Sq = 92.7% R-Sq(adj) = 91.6%

Analysis of Variance

Source DF SS MS F PRegression 2 44157 22079 82.50 0.000Residual Error 13 3479 268Total 15 47636

66MODELLI EMPIRICI

REGRESSIONE LINEARE MULTIPLAIl grafico 3D sottostante riporta i valori stimati dal modello di regressione (FITS) ovvero il piano di risposta che stima la viscosità in funzione delle combinazioni di temperatura di reazione (x1) e portata del catalizzatore (x2).

FITS

2250

2300

100

2350

2400

12

9010

Temp (x1)808Feed rat (x2)

Surface Plot of FITS vs Feed rat (x2); Temp (x1)

Page 34: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

34

67MODELLI EMPIRICI

Valori previsti, residui ed altri strumenti diagnostici.

REGRESSIONE LINEARE MULTIPLA

68MODELLI EMPIRICI

Residual

Per

cent

40200-20-40

99

90

50

10

1

Fitted Value

Res

idua

l

2400235023002250

20

10

0

-10

-20

Residual

Freq

uenc

y

24120-12-24

4.8

3.6

2.4

1.2

0.0

Observation Order

Res

idua

l

16151413121110987654321

20

10

0

-10

-20

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Viscosity

REGRESSIONE LINEARE MULTIPLAI grafici sulla diagnostica dei residui evidenziano delle problematiche in merito all’assunzione di normalità e di omoschedasticità degli errori (c’è una tendenza della varianza della viscosità osservata ad aumentare con valori crescenti di viscosità).

Page 35: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

35

69MODELLI EMPIRICI

I grafici dei residui rispetto a x1 (temperatura) e x2 (portata del catalizzatore) suggeriscono inoltre che la variabilitàdella viscosità tende ad aumentare al crescere della temperatura.

REGRESSIONE LINEARE MULTIPLA

Temp (x1)

Res

idua

l

10095908580

30

20

10

0

-10

-20

Residuals Versus Temp (x1)(response is Viscosity)

Feed rat (x2)

Res

idua

l

1312111098

30

20

10

0

-10

-20

Residuals Versus Feed rat (x2)(response is Viscosity)

70MODELLI EMPIRICI

REGRESSIONE LINEARE MULTIPLAConsideriamo due esempi di applicazione della regressione lineare multipla a dati provenienti da uno studio sperimentale.

1. In uno studio sulle proprietà meccaniche di alcune miscele bituminose, si vuole stabilire se il modulo di rigidezza è legato al tipo di scheletro (SCHEL: A,B), e alle percentuali di cemento (CEM: 1,2,3) e di bitume (BIT: 2,3,4).

2. In uno studio sulle proprietà di alcuni calcestruzzi (Tipo Calc: normale, con ritardante, con fluidificante) si sono misurati valori di resistenza (lb/in^2) considerando anche la percentuale di acqua (% Acqua: 1, 2, 3%) e la percentuale di cemento (% Cem: 3, 4, 5%).

Page 36: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

36

71MODELLI EMPIRICI

REGRESSIONE LINEARE MULTIPLAESEMPIO 1: Per la miscela con scheletro B è stata adattata ai dati sperimentali una opportuna superficie di risposta.Estimated Regression Coeff. for Sm(MPa)Term Coef SE Coef T PConstant 5584.40 130.49 42.796 0.000CEM 324.95 71.47 4.547 0.000BIT 656.37 71.47 9.184 0.000CEM^2 -6.63 123.79 -0.054 0.957BIT^2 -500.99 123.79 -4.047 0.000CEM*BIT -200.53 87.54 -2.291 0.024

S = 553.6 R-Sq = 60.1% R-Sq(adj) = 57.7%

Sm (MPa)

4000

5000

12

CEM

Sm (MPa)

6000

4

3 BIT

23

Surface Plot of Sm (MPa) vs BIT; CEM

CEM

BIT

3.02.52.01.51.0

4.0

3.5

3.0

2.5

2.0

Sm (MPa)

4500 - 50005000 - 55005500 - 6000

> 6000

< 40004000 - 4500

Contour Plot of Sm (MPa) vs BIT; CEM

Residual

Per

cent

200010000-1000-2000

99.9

99

90

50

10

1

0.1

Fitted Value

Res

idua

l

60005500500045004000

1000

0

-1000

-2000

Residual

Freq

uenc

y

10005000-500-1000-1500-2000

20

15

10

5

0

Observation Order

Res

idua

l

9080706050403020101

1000

0

-1000

-2000

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Dat

Residual Plots for Sm (MPa)

72MODELLI EMPIRICI

REGRESSIONE LINEARE MULTIPLAESEMPIO 2: per il calcestruzzo di tipo normale è stata adattata ai dati sperimentali una opportuna superficie di risposta.

Estimated Regression Coefficients for Rc [lb/in^2]

Term Coef SE Coef T PConstant 4042.5 255.45 15.825 0.000% Cem -149.9 34.76 -4.313 0.001% Acqua -714.6 243.34 -2.937 0.011% Acqua^2 197.4 60.21 3.279 0.005

S = 120.4 R-Sq = 70.8% R-Sq(adj) = 64.6%

Analysis of Variance for Rc [lb/in^2]Source DF Adj SS Adj MS F PRegression 3 493244 164415 11.34 0.000Residual Error 14 203017 14501Total 17 696261

Residual

Per

cent

2001000-100-200

99

90

50

10

1

Fitted Value

Res

idua

l

3200300028002600

200

100

0

-100

-200

Residual

Freq

uenc

y

2001000-100-200

4

3

2

1

0

Observation Order

Res

idua

l

18161412108642

200

100

0

-100

-200

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Rc [lb/in^2]

Page 37: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

37

73MODELLI EMPIRICI

REGRESSIONE LINEARE MULTIPLAESEMPIO 2: per il calcestruzzo di tipo normale è stata adattata ai dati sperimentali una opportuna superficie di risposta.

Rc

2600

2800

34

% Cem

3000

3200

15

3

2 % Acqua

Surface Plot of Rc [lb/in^2] vs % Acqua; % Cem

% Cem

% A

cqua

5.04.54.03.53.0

3.0

2.5

2.0

1.5

1.0

Rc [lb/in^2]

2800 - 29002900 - 30003000 - 31003100 - 3200

> 3200

< 27002700 - 2800

Contour Plot of Rc [lb/in^2] vs % Acqua; % Cem

74MODELLI EMPIRICI

Quando si considera l’applicazione di un modello lineare, se l’assunto della linearità viene a cadere anche approssimativamente, a volte è possibile trasformare nel modello di regressione sia le variabili indipendenti sia quella dipendente al fine di migliorarne la linearità.Un'altra assunzione della regressione lineare è che la variabile dipendente dovrebbe variare almeno approssimativamente secondo una legge normale intorno al suo valore atteso, con la stessa varianza per ogni possibile valore atteso (questa proprietà è nota come omoschedasticità).Sebbene la normalità non sia necessaria per ottenere le stime appropriate ai minimi quadrati dei parametri di regressione (teorema di Gauss-Markov) ...

TRASFORMAZIONE DEI DATI NELLA REGRESSIONE

Page 38: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

38

75MODELLI EMPIRICI

… intervalli di confidenza e test di ipotesi avranno le proprietà statistiche desiderate solo se la media condizionata rispetto alle variabili esplicative della variabile dipendente sarà almeno approssimativamente normale e con varianza costante.Le trasformazioni logaritmo e radice quadrata sono comunemente utilizzate per i dati positivi, e la trasformazione inversa (reciproco) può essere utilizzato per dati non-zero.La trasformazione di potenza è una famiglia di trasformazioni parametrizzate da un non negativo valore λ che include il logaritmo, radice quadrata, e il reciproco come casi particolari.

TRASFORMAZIONE DEI DATI NELLA REGRESSIONE

76MODELLI EMPIRICI

Per approcciare la questione della trasformazione dei dati in modo sistematico, è possibile utilizzare tecniche di stima statistica per stimare il parametro λ della trasformazione di potenza, in modo da identificare la trasformazione che è approssimativamente la piùappropriata ad un dato contesto. Dal momento che la famiglia delle trasformazioni di potenza include anche la trasformazione identica, questo approccio può anche indicare se sarebbe preferibile analizzare i dati senza alcuna trasformazione. Nell'analisi di regressione, questo approccio è conosciuto come la tecnica di Box-Cox.

TRASFORMAZIONE DEI DATI NELLA REGRESSIONE

Page 39: Modelli empiricilivio/PDF/PDF_CIVILE/Modelli empirici.pdf1 MODELLI EMPIRICI 1 Metodi Statistici e Probabilistici per l’Ingegneria MODELLI EMPIRICI Corso di Laurea in Ingegneria Civile

39

77MODELLI EMPIRICI

La regressione non lineare è una forma di regressione in cui i dati osservati sono modellati da una funzione che è una combinazione lineare dei parametri del modello e dipende da una o più variabili indipendenti. I parametri vengono stimati con algoritmi numerici basati su approssimazioni iterative.A volte i modelli non lineari possono essere linearizzatimediante trasformazioni opportune. Consideriamo ad esempio il modello esponenziale (ignorando l’errore):Yi=β0eβ

1X

i. Se applichiamo la trasformazione logaritmica ad entrambi i membri otteniamo

lnYi = lnβ0+β1Xiil che suggerisce di stimare i parametri ignoti attraverso una regressione lineare di lnY su X.

MODELLI NON LINEARI

78MODELLI EMPIRICI

Il processo di stima per un modello non lineare, ma linearizzabile non richiede alcune ottimizzazione iterata. Tuttavia, l'utilizzo di una trasformazione lineare richiede cautela.

1 ii iXYe β

γ εα −= +

+

Un utile modello genuinamente non lineare è il cosiddetto modello logistico a due o tre parametri:

MODELLI NON LINEARI