Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei...

25
Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri

Transcript of Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei...

Page 1: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Corso di Statistica Industriale

Corsi di Laurea Specialistica in

Ingegneria Gestionale e Ingegneria Meccanica

Docente: Ilia Negri

Page 2: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Orario del corso:

Martedı: dalle 14.00 alle 16.00

Venerdı: dalle 10.30 alle 12.30

Ricevimento:

Dopo la Lezione

e-mail: [email protected]

Page 3: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Programma del corso:

L1 Presentazione del corso - Il modello lineare sempliceE1 Presentazione dell’ambiente RL2 Il modello lineare - verifica d’ipotesi e intervalli di confidenzaE2 I dati in R - prime funzioni statisticaL3 Il modello lineare con piu variabili. Selezione del modelloE3 Applicazioni. Procedure stepwise forward e backward in RL4 Analisi della varianza.E4 Esperimenti ad un fattore. ApplicazioniL5 Modelli lineari generalizzatiE5 Applicazioni: modelli logit.L6 Controllo della qualita - generalita. Carte di controllo per variabiliE6 Presentazione libreria qcc in RL7 ARL e curva operativa caratteristica.E7 Applicazioni ed esempi.L8 Carte di controllo per attributiE8 Applicazioni ed esempiL9 Carte di controllo CUSUM ed EWMAE9 Applicazioni ed esempiL10 Controllo statistico multivariatoE10 Carta Chi quadrato e T quadratoL11 Disegno degli esperimenti: piani fattoriali completi a due livelli.L12 Modello della risposta sperimentale e analisi dell’esperimento.L13 Sperimentazione sotto il vincolo di budgetE11 Applicazioni ed esempi

3

Page 4: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Esame e altro...

• L’esame consiste in una prova scritta con 3 esercizi. Durante il corso

verranno date delle esercitazioni e dei temi da discutere. Per chi ha avuto

a che fare con un processo di produzione. (Tirocinio, tesi, o altri motivi)

recuperare i dati delle variabili con cui ha lavorato.

Tutte le informazioni e il materiale del corso lo trovate alla pagina

http://www.unibg.it/Pers/?Ilia.Negri

L’esame puo essere diviso in due parti. La prima parte si svolge sulla prima

parte del corso ed e valida fino a settembre 2006.

4

Page 5: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Libri di Testo:

• Montgomery-Runger-Faris Hubele: Statistica per ingegneria, Egea.

• Montgomery: Controllo statistico della qualita, McGraw Hill.

Altre letture:

• Draper-Smith: Applied Regression Analisysis, Wiley.

• Mason-Young: Multivariate Statistical Process Control with IndustrialApplications, ASA SIAM.

• Venables-Ripley: Modern Applied Statistics with S-Plus, Springer.

• Iacus-Masarotto: Laboratorio di Statistica con R, McGraw Hill.

5

Page 6: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Il modello lineare - Richiami

La piu semplice relazione tra due variabili e quella lineare

y = β0 + β1x

Se il legame tra le variabili non e deterministico per un fissato valore di x

ci saranno diversi valori di y.

Esempio Stiamo investigando come il tempo di rottura y di un utensile,

espresso in h, varia con la forza applicata x, misurata in kg/mm2. Se

applichiamo una forza x = 20 kg/mm2 il tempo di rottura dell’utensile e

una variabile aleatoria, che denotiamo con Y . Se osserviamo il tempo di

rottura pari a 45 h, allora diciamo che il valore osservato di Y associato a

x = 20kg/mm2 e y = 45 h.

6

Page 7: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

I modelli probabilistici - Richiami

Un modello probabilistico e una variabile casuale che descrive il fenomeno

che si sta studiando

Le variabili casuali si dividono in discrete e continue

Sono caratterizzate dai valori che assumono e dalla distribuzione di

probabilita

Esempio Variabile casuale discreta. X v.c. di Poisson.

Valori che assume: k = 0,1,2, . . .,

Distribuzione: P (X = k) = e−λλk

k!Esempio Variabile casuale continua. X v.c. Esponenziale

Valori che assume: x ≥ 0,

Distribuzione: f(x) = λe−λx, x ≥ 0. P (a ≤ X ≤ b) =∫ ba λe−λxdx.

7

Page 8: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Grafici della distribuzione di Poisson per diversi valori del parametro λ

0 5 10 15 20

0.0

0.2

0.4

0.6

λ = 0.3

k

d

0 5 10 15 20

0.00

0.05

0.10

0.15

0.20

λ = 3

k

d

0 5 10 15 20

0.00

0.02

0.04

0.06

0.08

0.10

0.12

λ = 10

k

d8

Page 9: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Grafici della distribuzione Esponenziale per diversi valori del parametro λ

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

λ = 0.5

x

f(x)

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

λ = 1

x

f(x)

0 2 4 6 8 10

01

23

45

λ = 5

x

f(x)

9

Page 10: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Il modello lineare probabilistico

Per il modello deterministico y = β0 + β1x il valore di y dipende dal valore

di x.

La generalizzazione di questo modello al modello probabilistico assume che

la variabile Y e aleatoria e il suo valore atteso e una funzione lineare di x.

Per un fissato valore di x il valore di Y si discosta dal suo valore atteso per

una quantita aleatoria.

Il modello e:

Y = β0 + β1x + ε (1)

La quantita ε nel modello e una v.c. distribuita normalmente con valore

atteso E(ε) = 0 e varianza V ar(ε) = σ2. E il termine d’errore del modello

Senza ε ogni coppia osservata (x, y) cadrebbe sulla retta y = β0 + β1x che

e detta retta di regressione vera.

10

Page 11: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Denotiamo con x1, x2, . . . , xn i valori della variabile indipendente, con Yi e

yi la v.c e il valore osservato associato a xi. Le coppie (x1, y1), . . . (xn, yn)

sono il risultato di n osservazioni indipendenti, sono i dati a disposizione.

Supponiamo di avere queste 11 osservazioni:

1 2 3 4 5 6 7 8 9 10 11x 15.00 16.00 17.00 18.00 19.00 20.00 21.00 22.00 23.00 24.00 25.00y 42.83 57.77 54.90 40.09 39.18 41.44 35.24 34.75 35.09 48.75 38.27

La prima cosa da fare e rappresentarli in un grafico a dispersione:

●●

16 18 20 22 24

3540

4550

55Osservazioni

x

y

11

Page 12: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Per ogni x fissato la variabile Y e Gaussiana. La sua media e la sua varianza

si deducono dal modello lineare

E(Y |x) = E(β0 + β1x + ε) = β0 + β1x + E(ε) = β0 + β1x

V ar(Y |x) = V ar(β0 + β1x + ε) = V ar(β0 + β1x) + V ar(ε) = 0 + σ2 = σ2

Esempio.(Continua) Supponiamo che il legame tra la forza applicata e il

tempo di rottura sia dato dalla (1). Nel modello scelto, la media del tempo

di rottura varia linearmente con la forza applicata (come?). Per una forza

applicata pari a x kg/mm2 il tempo di rottura e una variabile Gaussiana

la cui media e β0 + β1x e la sua varianza e σ2. Al variare di x la media

di Y cambia mentre la varianza rimane costante. Si tratta di un modello

omoschedastico.

12

Page 13: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Riportiamo la retta vera nel grafico a dispersione delle osservazioni

●●

16 18 20 22 24

3540

4550

55

Le osservazioni e la retta vera

x

y

y = 65 − 1.2x

La retta vera

●●

16 18 20 22 2435

4045

5055

Le distribuzioni di Y

x

y

13

Page 14: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

La densita Gaussiana per diversi valori dei parametri

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

N(0, 1)

x

f(x)

−6 −4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

N(0, 2)

x

f(x)

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

N(3, 1)

x

f(x)

−6 −4 −2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

N(3, 0.5)

x

f(x)

14

Page 15: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Esempio. (Continua). Supponiamo che il legame tra la forza applicata

x e il tempo di rottura y di un utensile sia descritto da una modello di

regressione lineare semplice e che la vera retta di regressione sia

y = 65− 1.2x, σ = 8.

Allora per ogni valore x della forza applicata il tempo di rottura e una v.c.

gaussiana con valore atteso 65− 1.2x e scarto quadratico medio σ = 8.

a) Calcolare la probabilita che il tempo di rottura sia superiore a 50 ore

quando x = 20 e quando x = 25.

b) Denotate con Y1 e Y2 rispettivamente il tempo di rottura quando x1 =

25 e x2 = 24 calcolare la probabilita che Y1 > Y2.

15

Page 16: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

La stima dei parametri del modello

Supponiamo che il legame tra le variabili x e y sia il modello di Regressione

Semplice dato da

Y = β0 + β1x + ε, E(ε) = 0, V ar(ε) = σ2

I valori di β0, β1 e σ2 sono i parametri del modello e non saranno mai noti

all’investigatore. Sono note invece le n osservazioni (x1, y1), . . . , (xn, yn)

sulle quali occorre basarsi per stimare i parametri e la vera retta di regres-

sione.

Ipotesi: ogni yi e un’osservazione della v.c. Yi = β0 + β1xi + εi, e gli n

errori ε1, . . . , εn sono n v.c. indipendenti e identicamente distribuite (i.i.d.)

Da questa ipotesi segue l’indipendenza delle v.c. Y1, . . . , Yn

16

Page 17: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Secondo il modello i punti osservati si distribuiscono attorno alla vera rettadi regressione in modo aleatorio. Dobbiamo stimare la retta di regres-sione del modello. Nel grafico sono disegnati i punti e due possibili rettecandidate a essere la stima della vera retta di regressione

●●

16 18 20 22 24

3540

4550

55

Due possibili rette per il modello

x

y

y = 67 − 1.2x y = 91 − 2.25x

La nostra stima per la retta y = β0 + β1x sara quella che meglio si adatta(fit) ai punti osservati. Secondo il principio dei minimi quadrati (Gauss,1777-1855) la retta che meglio si adatta ai datti e quella per la quale ledistanze verticali dei punti dalla retta sono le piu piccole possibili.

17

Page 18: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Il principio dei minimi quadrati

Se denotiamo con y = b0+ b1x la generica retta, la distanza verticale di un

punto da questa generica retta e yi− (b0 + b1xi). La somma delle distanze

al quadrato e data da

D(b0, b1) =n∑

i=1

(yi − (b0 + b1xi))2

Dobbiamo trovare il minimo rispetto a b0 e b1. Derivando e ponendo le

derivate uguali a zero otteniamo le equazioni normalinb0 + (∑

xi)b1 =∑

yi

(∑

xi)b0 + (∑

x2i )b1 =

∑xiyi

La soluzione di queste equazioni e data dab1 = β1 =

∑(xi−x)(yi−y)∑

(xi−x)2=

SxySxx

b0 = β0 =∑

yi−β1∑

xin

18

Page 19: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Esempio 1 (Pavement Thickness Design for No-Fines Concrete ParkingLots, J. of Transportation Engr., 1995, 476-484). Si studia come lapercentuale di porosita (y) sia legata all’unita di peso x.

x y x2 xy y2

1 99.00 28.80 9801.00 2851.20 829.442 101.10 27.90 10221.21 2820.69 778.413 102.70 27.00 10547.29 2772.90 729.004 103.00 25.20 10609.00 2595.60 635.045 105.40 22.80 11109.16 2403.12 519.846 107.00 21.50 11449.00 2300.50 462.257 108.70 20.90 11815.69 2271.83 436.818 110.80 19.60 12276.64 2171.68 384.169 112.10 17.10 12566.41 1916.91 292.41

10 112.40 18.90 12633.76 2124.36 357.2111 113.60 16.00 12904.96 1817.60 256.0012 113.80 16.70 12950.44 1900.46 278.8913 115.10 13.00 13248.01 1496.30 169.0014 115.40 13.60 13317.16 1569.44 184.9615 120.00 10.80 14400.00 1296.00 116.64

Somme 1640.10 299.80 179849.73 32308.59 6430.06

19

Page 20: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Quelle calcolate sono le quantita che servono per trovare le stime dei

parametri della retta. Infatti le formule date si possono riscrivere in questo

modo

β1 =Sxy

Sxx=

∑xiyi − (

∑xi)(

∑yi)/n∑

x2i − (

∑xi)2/n

, β0 = y − β1x

Sostituendo i valori trovati nella tabella otteniamo

β1 =32308.59− (1640.10)(299.80)/15

179849.73− (1640.10)2/15= −0.90473066 ≈ −0.905

β0 = 299.80/15− (−0.90473066)1640.10/15 = 118.909917 ≈ 118.91

Quindi per un aumento di 1 pcf di unita di peso ci si aspetta un cambia-

mento della porosita associato pari a −0.905% (cioe una diminuzione dello

0.905%). L’equazione della retta di regressione stimata risulta

y = 118.91− 0.905x

La retta stimata serve per stimare il valore medio di Y quando x = x∗ ovvero

la stima puntuale del valore di Y data una nuova osservazione x = x∗. Ad

esempio per x = 110 il valore medio della porisita stimata e y = 19.4%.

20

Page 21: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

100 105 110 115 120

1520

25

peso

poro

sita

100 105 110 115 120

1520

25peso

poro

sita

21

Page 22: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

La stima di σ2

Non dobbiamo dimenticare che tra i parametri del modello vi e anche lavarianza dell’errore ε. La stima di questa varianza si basa sui residui. Iresidui sono definiti come

ei = yi − yi, dove yi = β0 + β1xi

Si verifica che la somma dei residui e nulla. La stima della varianzadell’errore la si ottiene come

σ2 = s2 =

∑(yi − yi)

2

n− 2=

SSE

n− 2Il denominatore n − 2 e pari ai gradi di liberta associati alla stima deglierrori e e dovuto al fatto che per ottenere s2 due parametri devono esserestimati. Lo stimatore S2 lo si ottiene sostituendo a yi le v.c. Yi. Si puodimostrare che E(S2) = σ2.

Il calcolo di SSE puo essere effettuato senza calcolare tutti i residui. Valeinfatti la relazione

SSE =∑

y2i − β0

∑yi − β1

∑xiyi.

22

Page 23: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

La stima di σ2 per i dati dell’esempio la otteniamo da

x y y e e2

1 99.00 28.80 29.34 −0.54 0.292 101.10 27.90 27.44 0.46 0.213 102.70 27.00 25.99 1.01 1.014 103.00 25.20 25.72 −0.52 0.275 105.40 22.80 23.55 −0.75 0.566 107.00 21.50 22.10 −0.60 0.367 108.70 20.90 20.57 0.33 0.118 110.80 19.60 18.67 0.93 0.879 112.10 17.10 17.49 −0.39 0.15

10 112.40 18.90 17.22 1.68 2.8311 113.60 16.00 16.13 −0.13 0.0212 113.80 16.70 15.95 0.75 0.5613 115.10 13.00 14.78 −1.78 3.1514 115.40 13.60 14.50 −0.90 0.8215 120.00 10.80 10.34 0.46 0.21

Somme 1.640.10 299.80 299.80 4.707346e-13 11.44

SSE

n− 2=

6430.06− (118.91)(299.80)− (−0.905)(32308.59)

13=

11.44

13= 0.88.

23

Page 24: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Il coefficiente di determinazione

Per valutare la bonta di adattamento del modello stimato ai dati si ricorread un indice che tiene conto della percentuale di variabilita di y che ilmodello riesce a spiegare. La variabilita totale di y e data dalla sommatotale dei quadrati

SST =∑

(yi − y)2 =∑

y2i − (

∑yi)

2/n

SSE puo essere interpretata come una misura di quanta variabilita di y ilmodello non riesce a spiegare. Poiche la retta dei minimi quadrati e quellaottenuta minimizzando la somma al quadrato degli errori si deduce cheSSE ≤ SST e l’uguaglianza vale solo se la retta di regressione e la rettay = y. L’indice

r2 = 1−SSE

SSTe detto coefficiente di determinazione

si interpreta come la proporzione di variabilita delle y osservate che e spie-gata dal modello.Esempio. (Continua) Abbiamo un r2 molto alto.

r2 = 1−SSE

SST= 1−

11.4388

6430.06− 299.802/15= 1−

11.44

438.06= 0.974

24

Page 25: Ingegneria Gestionale e Ingegneria Meccanica · Statistica Industriale Lez. 1 Il principio dei minimi quadrati Se denotiamo con y = b0 +b1x la generica retta, la distanza verticale

Statistica Industriale Lez. 1

Esercizio: per i dati nella tabella a pagina 11, calcolare la stima col metodo

dei minimi quadrati dei coefficienti della retta di regressione:

Y = β0 + β1x + ε.

Calcolare quindi la stima della varianza degli errori ε e il valore del coeffi-

ciente di determinazione. Commentare i risultati ottenuti.

25