Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di...

55
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello Strumenti statistici per l’analisi di dati genetici Luca Tardella + Maria Brigida Ferraro 1 email: [email protected] Lezione #2 – Regressione 04 aprile 2014

Transcript of Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di...

Page 1: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Strumenti statistici per l’analisi di dati genetici

Luca Tardella + Maria Brigida Ferraro

1email: [email protected]

Lezione #2 – Regressione

04 aprile 2014

Page 2: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Page 3: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Sommario (I)

La regressione dal punto di vista descrittivo: la nozione diinterpolazione

Descrizione ideale di una relazione tra 2 variabili Y e XVariabile dipendente e variabile dipendenteFormulazione astratta del problema di interpolazione: una famiglia difunzioni, una misura della distanza tra una nuvola di punti ed unafunzione (curva) idealeLa retta di regressione: coefficienti della retta di regressione;interpretazione geometricaProprieta della retta di regressioneNozione di residuoRelazioni tra la regressione e la nozione di correlazioneDecomposizione della variabilita della Y in due componenti: lavariabilita ricostruita dalla retta di regressione e la variabilita residuaGeneralizzazioni: la regressione multipla e la regressione polinomiale(cenni)

Page 4: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Sommario (II)

La regressione dal punto di vista inferenziale nei modelli statistici

Funzione di regressioneIl modello di regressione lineareRuolo delle variabili casuali, parametri, quantita fissate noteStime dei parametri del modello

Differenza di ruolo tra interpolazione e modello di regressione

Modelli di regressione lineare (semplice, multipla) e strumentiinferenziali

Esempio su dati reali (analisi sensoriale e metaboliti)

Page 5: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

La regressione lineare

Particolare approccio allo studio della dipendenzadi un carattere quantitativo Y da un altro carattere quantitativo X :Finora avevamo considerato due tipi di dipendenza:

(i) di Y da X [Y |X ] (o viceversa di X da Y )

(ii) mutua tra i due caratteri X e Y

In (i) si e sempre tentato di qualificare e quantificare la presenza divariazioni sistematiche del carattere Y in concomitanza con variazioni delcarattere X attraverso un indice legato alle distribuzioni (ed eventualisintesi) condizionate di Y |X .Nella regressione lineare si riprende questo approccio e lo si approfondiscecon l’idea di ricostruire un legame funzionale tra i due caratteriquantitativi come strumento per esplicitare una regolarita.Ripartiamo da un esempio particolare in cui X e quantitativo e assumeun numero finito di modalita → Funzione di Regressione

Page 6: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Esempio(I)

●●●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

19 20 21 22 23 24 25 26

1520

2530

3540

Altezza dei bambini vs eta’

eta’ (in mesi)

alte

zza

(in p

ollic

i)

20 21 22 23 24 25

30.0

30.5

31.0

31.5

32.0

eta’ (in mesi)

alte

zza

(in

pol

lici)

Cerchiamo una funzione che spiega come varia Y al variare di X

●●●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

19 20 21 22 23 24 25 26

1520

2530

3540

Altezza dei bambini vs eta’

eta’ (in mesi)

alte

zza

(in p

ollic

i)

Page 7: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Impostazione del problema di regressione

Cerchiamo una funzione “teorica” f : X → Y x 7→ y = f (x) chesia il piu possibile in grado di rappresentare l’evidenza empiricamostrata nel diagramma (nuvola di punti)

Scegliere una famiglia di funzioni “candidate” f ∈ FProblema di adattamento di una relazione (curva) teorica ad unadistribuzione empirica (problema di interpolazione)

Quale significato attribuisco a tale operazione?

Semplificazione ↔ Interpretazione

Quali funzioni sono candidate ad agevolare l’interpretazione dellarelazione funzionale?

Criterio di semplicita =⇒ facilita di comprensione

come formalizzo l’idea che la curva rossa rappresenta bene la nuvolanera?

Scostamento/distanza tra relazione teorica e realta −→ Criterio deiminimi quadrati

Page 8: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Criterio dei minimi quadrati

f −→ F (f ) =n∑

i=1

(yi − f (xi ))2

Stabilito il criterio si cerca di risolvere il problema di individuare, se esiste,

inff∈F

F (f )

e nel caso in cui l’inf e raggiunto in corrispondenza di una funzione f ∗,l’estremo inferiore e in effetti un minimo

F (f ∗) = inff∈F

F (f )

Page 9: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Criterio dei minimi quadrati - possibili famiglie di funzionicandidate

Quali possono essere le famiglie di curve da considerare?

la famiglia di tutte le funzioni reali

F = FT = { tutte le funzioni }

F = FR = { tutte le rette } = {f (x ;α, β), α ∈ <, β ∈ <}

dove f (x ;α, β) = α + βx

F = FRP = { tutte le rette parallele all’asse x } = {f (x ;α), α ∈ <}

dove f (x ;α) = α

OvviamenteFRP ⊂ FR ⊂ FT

Page 10: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Funzione di Regressione ovveroLinea [Spezzata] delle Medie Condizionate

Se non considero restrizioni al tipo di funzione f (x) (ovvero F e lafamiglia di tutte le funzioni da < → <) allora la soluzione al problema deiminimi quadrati

minf∈F

F (f ) = minf∈F

n∑i=1

(yi − f (xi ))2 −→n∑

i=1

(yi − f ∗(xi ))2

e data dalla funzione

x 7→ f ∗(x) = MEDIA[Y |X = x ]

definita in modo univoco nei soli punti x = xi per qualche unita i

y∗i = f ∗(xi ) = MEDIA[Y |X = xi ]

(se unita con segmenti viene anche denominata spezzata delle medie[condizionate]) → vedi figura

Page 11: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Regressione lineare o retta di regressione

Scelto il criterio di scostamento (non-adattamento) da minimizzare

F (α, β) =n∑

i=1

(yi − f (xi ;α, β))2 =n∑

i=1

(yi − (α + β xi ))2

soluzione del problema di ottimo

minα,β

F (α, β) = minα,β

n∑i=1

[yi − (α + βxi )]2

=n∑

i=1

[yi − (α∗ + β∗xi )]2

da luogo alla retta di regressione

y = α∗ + β∗x

dove α∗ e β∗ sono i parametri della r. di regressione (r.interpolatrice ottima)

• visualizziamo la retta • interpretiamo i parametri• proprieta della soluzione dei minimi quadrati

Page 12: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Una precisazione sulle notazioni

Nota che la retta di regressione

y = α∗ + β∗x

e quella particolare retta y = α + β x dove i coefficienti dell’equazionecaratteristica sono quei valori particolari α∗ e β∗ della r. di regressione (r.interpolatrice ottima)In corrispondenza dei valori osservati xi del regressore X si ottengono ivalori teorici y∗i del carattere Y corrispondenti alla retta di regressione

y∗i = α∗ + β∗xi

Posso anche valutare il valore teorico in corrispondenza di un valore x0

non osservato

y∗0 = α∗ + β∗x0

(interpolare/estrapolare dati mancanti, “prevedere” ...)

Page 13: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Soluzione dei minimi quadrati (I)

Soluzioni in α e β del seguente sistema di equazioni

0 =∂

∂αF (α, β) = 2

n∑i=1

[yi − (α + βxi )] (−1) (1)

0 =∂

∂βF (α, β) = 2

n∑i=1

[yi − (α + βxi )] (−xi ) (2)

e quindi moltiplicando entrambe le equazioni per − 12

n∑i=1

yi − αn − βn∑

i=1

xi = ny − nα− nxβ = 0 (3)

n∑i=1

xiyi − αn∑

i=1

xi − βn∑

i=1

x2i =

n∑i=1

xiyi − nxα− βn∑

i=1

x2i = 0 (4)

da cui moltiplicando la prima equazione per − xn e la seconda per 1

notteniamo (→ segue)

Page 14: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Soluzione dei minimi quadrati II

−x y + xα + x2β = 0 (5)

1

n

n∑i=1

xiyi − xα−

(1

n

n∑i=1

x2i

)β = 0 (6)

Sommando le due equazioni(1

n

n∑i=1

xiyi − x y

)−

(1

n

n∑i=1

x2i − x2

)β = 0 (7)

otteniamo la soluzione in β

β∗ =Cov [X ,Y ]

Var [X ]=

∑ni=1(xi − x)(yi − y)∑n

i=1(xi − x)2

e dalla prima equazione (nella versione del lucido precedente)

y − α− βx = 0

sostituendo a β la soluzione β∗ otteniamo

α∗ = y − β∗x

Page 15: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Come ottenere i coefficienti dei minimi quadrati in R

... e molte altre informazioni collegate

“a mano” usando le formuleusando il comando lm( ... , ...) che restituisce un oggettocomplesso di classe lm acronimo anglosassone per “linear model”ovvero “modello lineare”> y<-height

> x<-age

> obj<-lm(y ~ age)

> attributes(obj)

$names

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "xlevels" "call" "terms" "model"

$class

[1] "lm"

Page 16: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Come visualizzare i dati, la retta di regressione ...

... e altre info utili con R

> plot(x,y,main="Nuvola dei punti")

> abline(obj$coefficients)

> y.valori.teorici<-obj$fitted

> points(x,y.valori.teorici,pch="x",col="red",font=2)

> ## visualizziamo gli scostamenti tra

> ## valore osservato y[i]

> ## e valore teorico y.valori.teorici[i]

> segments(x[1],y[1],x[1],y.valori.teorici[1],col="blue")

> summary(obj)

Page 17: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Interpretazione dei parametri

interpretazione geometrica: α intercetta e β coefficiente angolare

interpretazione in termini di variazioni corrispondenti

campo di variazione

segno dei parametri?

unita di misura

Page 18: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Proprieta della retta di regressione

in genere si denota con y∗i il valore teorico della variabile dipendenteY in corrispondenza dell’osservazione X = xi previsto dalla relazionefunzionale stabilita dalla retta di regressione ovvero y∗i = α∗ + β∗xi ;il punto (xi , y

∗i ) giace sulla retta

la retta passa per (x , y), il baricentro della nuvola dei punti

la somma dei residui ei = yi − y∗i = yi − (α∗+β∗xi ) e nulla e y∗ = y

caratterizziamo quando β∗ = 0 (anche con esempi grafici)

relazione tra il coefficiente di correlazione e la misura diaccostamento della nuvola dei punti alla “retta” detto coefficiente oindice di determinazione R2

r 2 = R2 = 1−∑n

i=1 e2i∑n

i=1(yi − y)2= 1−

∑ni=1(yi − y∗i )2∑ni=1(yi − y)2

= 1− Dev(E )

Dev(Y )

altre interpretazioni del coefficiente R2

casi notevoli: R2 = 0 e R2 = 1

Page 19: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Tre quantita importanti nell’interpolazione con la retta diregressione

Dev(Y ∗) =n∑

i=1

(y∗i − y)2

Dev(E ) =n∑

i=1

e2i =

n∑i=1

(yi − y∗i )2

Dev(Y ) =n∑

i=1

(yi − y)2

- sono tre devianze dal significato ben chiaro

- sono strettamente legate tra di loro dalla relazioneDev(Y ) = Dev(Y ∗) + Dev(E )

- consentono di chiarire alcuni aspetti fondamentali dell’operazione diregressione e comprendere meglio alcuni indici come ad esempio ilcoefficiente di correlazione r

Page 20: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Relazioni fondamentali

1 decomposizione

Dev(Y ) = Dev(Y ∗) + Dev(E )

2 relazione con il coefficiente r

Dev(Y ∗) = r 2Dev(Y )

3 misura di accostamento relativo

R2 =Dev(Y ∗)

Dev(Y )= 1− Dev(E )

Dev(Y )

4 implicazioni geometriche

Dev(E ) = (1− r 2)Dev(Y )

5 interpolazioni con diverse famiglie e miglioramento di accostamento

r 2 = R2 =(0)ΘY |X −(1) ΘY |X

(0)ΘY |X=

Dev(Y )− Dev(E )

Dev(Y )=

Dev(Y ∗)

Dev(Y )

Page 21: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Asimmetria di ruolo

Sottolineiamo ancora una volta l’asimmetria nel ruolo dei due caratterinello studio della dipendenza.

Asimmetria e nesso di causa-effetto?

In alcuni casi ha meno significato (o non ne ha affatto) parlare diregressione di Y da X (prezzo degli immobili e caratteristichedell’immobile, altezza bambini e tempo) soprattutto in circostanze dicorrelazione spuria (tasso di analfabetismo e emissioni inquinanti in unanazione)

Eta dai tronchi d’albero → numero di cerchi e diametro: in alcuni casipuo avere senso regredire Y rispetto ad X o viceversa X rispetto a Y

Page 22: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Adattamento di una curva teorica a dati empirici o modelloesplicativo/interpretativo?

Rilevo la regolarita empirica e la semplifico con pochi parametricaratteristici (descrizione)Prima di poter parlare di una vera e propria spiegazione (scientifica) di Ymediante una relazione funzionale con X (induzione) dovrei postulare unmodello con adeguate assunzioni e conseguentemente convalidarlo,escludendo preliminarmente che la relazione registrata sia di tipo spurio.Altri scopi dell’adattamento: perequazione, interpolazione edestrapolazione

Page 23: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Terminologia di regressione

Perche viene denominata regressione lineare?

Famoso articolo di Galton sulle altezze di 928 coppie di padri e figli →

●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

50 60 70 80 90

5060

7080

90

Dati di Galton sulle altezze di familiari

Altezza del padre

Alte

zza

del f

iglio

Y = X

Y = 23.94 + 0.65 X

bisettriceinterpolatrice ottima

Page 24: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Analisi dei residui

Per vedere se vi e un comportamento sistematico nei residui che potrebbesuggerire l’uso di curve interpolatrici di tipo diverso ad esempio

y = α + βx (8)

y = α + βx2 (9)

y = α + β log(x) (10)

E’ ancora possibile trovare la migliore curva interpolatrice nel caso dellaseconda e terza relazione?RIS. Sı! E’ sempre un regressione lineare rispetto ai parametri α e β conla semplice variante che la variabile che funge da variabile indipendente(regressore) e trasformata in una diversa “scala” z = log(x)

Page 25: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Cenni ad ulteriori generalizzazioni

In realta nei problemi del mondo reale i caratteri (le variabili) coinvoltinon sono mai solamente due e l’idea di interpolare con una curva perottenere una spiegazione funzionale di una di esse potra/dovra sfruttarele eventuali informazioni utili in tutte/parte delle altre variabili

y = α + βx + γz

y = β0 + β1x1 + β2x2

y = β0 + β1x1 + β2x2 + ...βkxk

In realta l’espressione ultima puo farci capire come arricchire la classedelle funzioni utilizzabili come relazioni funzionaliAttenzione! Interpretazione del generico coefficiente di regressioneparziale βj

Page 26: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Regressione Polinomiale

y = β0 + β1x + β2x2 + ...βkxk

Vantaggi → l’adattamento migliora

Svantaggi → si complica l’interpretazione e la comprensione dellarelazione funzionale che dipende da un maggior numero di parametri

Page 27: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

La regressione come modello statistico-probabilistico

Un modello statistico e rappresentato da una famiglia di possibilidistribuzioni che rappresentano, idealizzando, il meccanismo aleatorio allabase delle nostre osservazioni sperimentali.

{f (y ; θ); θ ∈ Θ}

In che modo formalizziamo la dipendenza di due variabili X e Y ?L’idea generale e quella pensare alla funzione di regressione

µ(x) = E [Y |X = x ]

attraverso una famiglia di funzioni di x che dipendono da uno o piuparametri.Nel caso della regressione lineare semplice sara

µ(x) = α + βx

Page 28: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

La regressione come modello statistico-probabilistico

Il modello di regressione lineare semplice e dunque rappresentato daiseguenti ingredienti: in corrispondenza di una generica osservazione isapendo che Xi = xi (ovvero considerando noto e fissato xi )l’osservazione di Yi non si pensera legata unicamente da una relazionedeterministica con la xi . In effetti se consideriamo un campione dibabmini tutti di eta pari a 21 mesi non ci attendiamo di osservare semprela stessa altezza, ma riteniamo che essa possa aggirarsi intorno ad unvalore medio di riferimento.

Page 29: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

La regressione come modello statistico-probabilistico

La media condizionata µ(xi ) = E [Yi |X = xi ] e proprio tale valore ecostituisce la cosiddetta componente sistematica del modello alla qualeva ad aggiungersi una componente accidentale del tutto aleatoria cherappresenta un ipotetico errore e/o deviazione dalla componentesistematica. La componente accidentale ha un’opportuna distribuzione ditipo normale (legge per eccellenza degli errori accidentali, non sistematici)

componente accidentale

Yi = α + βxi︸ ︷︷ ︸+︷︸︸︷Ui

componente sistematica

Yi variabile casuale osservabileUi variabile casuale non osservabileα , β parametri (fissi) incognitixi quantita fissa e notaIpotesi standard del modello di regressione lineare sempliceUi i.i.d. N(0, σ2) da cui segue che

Yi ∼ N(α + βxi , σ2)

Page 30: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Gli strumenti inferenziali del modello di regressione lineare

Stima puntuale dei parametri del modello

Stimatori e valutazione dell’imprecisione delle stime: standard error eintervalli di confidenza per i parametri del modello

Test d’ipotesi per i parametri del modello: significativita deicoefficienti di regressione e p − value

Stima della funzione di regressione in un punto fissato x0 (valoreteorico di riferimento): µ(x0) = E [Y |X = x0]

Previsione di una nuova osservazione Y0 in corrispondenza di unvalore fissato X = x0 della variabile dipendente

Adeguatezza del modello: analisi dei residui

Page 31: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Modello di regressione lineare multipla

Estensione del modello di regressione lineare semplice: cenni agli aspettigeometrici e all’interpretazione dei parametri

Stima puntuale dei parametri del modello

Valutazione dell’imprecisione delle stime: standard error e intervallidi confidenza per i parametri del modello

Test d’ipotesi per i parametri del modello: significativita deicoefficienti di regressione e p − value

Stima della funzione di regressione in un punto fissato x0 (valoreteorico di riferimento): µ(x0) = E [Y |X = x0]

Previsione di una nuova osservazione Y0 in corrispondenza di unvalore fissato X = x0 della variabile dipendente

Adeguatezza del modello: analisi dei residui

Scelta del modello: significativita dei coefficienti di regressioneparziale, selezione delle variabili esplicative, procedure step-wise

Page 32: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Stima puntuale dei parametri del modello

Modello di regressione lineare semplice

Yi = α + βxi︸ ︷︷ ︸+︷︸︸︷Ui

componente sistematica

stimatori di massima verosimiglianza e stime dei minimi quadrati diα e β coincidono sotto le ipotesi standard

α =1

n

n∑i=1

Yi − β1

n

n∑i=1

xi = Y − βx

β =1n

∑ni=1(xi − x)(Yi − Y )1n

∑ni=1(xi − x)2

=Sx,Y

S2x

Page 33: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Stima puntuale dei parametri del modello (1)

Modello di regressione lineare semplice

Per stimare σ2 si utilizzano i residui

Ei = Yi − Y ∗i = Yi − (α + βxi )

e precisamente

σ2 =

∑ni=1 Ei

2

n − 2

La quantita a numeratore viene spesso indicata con l’acronimo (Sumof Squared Errors)

SSE =n∑

i=1

e2i

Page 34: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Stima puntuale dei parametri del modello (2)

Modello di regressione lineare semplice

Gli stimatori hanno una distribuzione che dipende dai parametriincogniti e precisamente

α ∼ N

(α, σ2

∑ni=1 x2

i

n∑n

i=1(xi − x)2

)β ∼ N

(β,

σ2∑ni=1(xi − x)2

)

Page 35: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Stima puntuale dei parametri del modello (3)

Quando andiamo a sostituire a Yi i valori yi effettivamente osservati eanalogamente facciamo con i valori di xi otteniamo le stime dei parametriLa quantificazione dell’errore commesso da tali stime dipende dalladistribuzione degli stimatori e in particolare dalla loro variabilita ...

σ2β

=σ2∑n

i=1(xi − x)2

... che, a sua volta verra opportunamente stimata. Generalmente siconsidera la deviazione standard ovvero radice della stima della varianza

σβ =

√σ2∑n

i=1(xi − x)2(standard error)

Page 36: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Stima della funzione di regressione in un punto fissato x0

Ci interessa stimare il valore teorico di riferimento rispetto ad un valoredella variabile dipendente fissato x0 qualsiasi, non necessariamentecorrispondente ai valori osservati xi (i = 1, 2, ..., n) usati per stimare iparametri

µ(x0) = E [Y |X = x0] = α + βx0

N.B. La quantita che vogliamo stimare e ingognita ma e fissata (nonaleatoria)!

Page 37: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Stima della funzione di regressione in un punto fissato x0

Faremo riferimento allo stimatore

µ(x0) = α + βx0

che avra una sua distribuzione

µ(x0) ∼ N

(α + βx0, σ

2

(1

n+

(x0 − x)2∑ni=1(xi − x)2

))e del quale potremo stimare tanto la variabilita

σµ(x0) =

√σ2

(1

n+

(x0 − x)2∑ni=1(xi − x)2

)quanto utilizzare per derivare l’espressione degli intervalli di confidenza[

µ(x0)− tα/2σµ(x0), µ(x0) + t1−α/2σµ(x0)]

Replicando gli intervalli di confidenza intorno ai valori teorici µ(x0)stimati in corrispondenza di tutti i possibili valori x0 in un certo intervallootteniamo una cosiddetta banda di confidenza intorno alla retta diregressione.

Page 38: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Banda di confidenza

●●

●●

● ●●

●● ●

●●

●●

−2 −1 0 1 2

02

46

810

x

y

Page 39: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Previsione di una nuova osservazione Y0 corrispondente ax0

Ci interessa prevedere una quantita aleatoria e non piu un valore fissato.La migliore previsione (nel senso del minimo errore quadratico medio) diuna variabile aleatoria

Y0 ∼ N(µ(x0) = E [Y |X = x0], σ2

)e proprio il suo valore atteso, ossia la media che in questo caso edipendente da x0 (media condizionata) e coincidera numericamente conla stima di µ(x0). Tuttavia, essendo

Y0 = µ(x0) + U0

dovremo tener conto nell’errore di previsione non solo della variabilitadella stima della componente sistematica (in rosso)

µ(x0) ∼ N

(α + βx0, σ

2

(1

n+

(x0 − x)2∑ni=1(xi − x)2

))ma anche anche la componente σ2 dovuta alla componente accidentaleU0 e dunque ....

Page 40: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Previsione di una nuova osservazione Y0 corrispondente ax0

....

σY0=

√σ2

(1 +

1

n+

(x0 − x)2∑ni=1(xi − x)2

)e quindi derivare l’espressione degli intervalli di previsione[

Y0 − tα/2σY0, Y0 + t1−α/2σY0

]Replicando gli intervalli di confidenza intorno ai valori teorici Y0 stimati incorrispondenza di tutti i possibili valori x0 in un certo intervallo otteniamouna cosiddetta banda di confidenza intorno alla retta di regressione.

●●

●●

● ●●

●● ●

●●

●●

−2 −1 0 1 2

02

46

810

x

y

Page 41: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Test d’ipotesi per i parametri del modello

Consideriamo il parametro di maggiore interesse β.Si fa riferimento alla distribuzione t di Student in quanto

β − βσβ

∼ Tn−2

Per testare

H0 : β = 0

H1 : β 6= 0

Si va a vedere se sostituendo a β il valore ipotizzato sotto l’ipotesi nullaH0 si ottiene un valore della statistica

t = toss =β

σβ

che non sia la realizzazione di un evento estremamente improbabile per ladistribuzione sotto H0 ovvero definisco la regione di rifiuto del test come

R{

t < tα/2 oppure t > t1−α/2

}

−4 −2 0 2 4

0.0

0.1

0.2

0.3

x

dt(x

, df =

5)

Eventi estremamente improbabili per una T con 5 g.d.l.

Alternativamente si puo considerare il p-value (livello di significativitaosservato)

p = Pr {|T | > toss |H0}dove

T =β

σβRegola di decisione per la significativita di β1:

p-value basso (< α) =⇒ evento imporobabile sotto H0 e dunque H0

rifiutata (parametro β significativo ovvero significativamente diversoda 0p-value alto (> α) =⇒ evento non imporobabile sotto H0 e dunquenon ci sono sufficienti evidenze per rifiutare H0 (accettiamo la nonsignificativita del coefficiente)

Page 42: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Adeguatezza del modello: diagnostiche ed analisi deiresidui

Non-linearita

Omoschedasticita dell’errore

Incorrelazione degli errori

Normalita dell’errore

Valori anomali

Per molti di questi aspetti esistono diversi test statistici, ma alcunediagnostiche preliminari possono essere desunte da un’opportuna analisigrafica dei residui.Possiamo avvalerci di R per simulare dati da modelli conformi/difformidalle ipotesi di base per vedere cosa ci si deve attendere e/o cosa puosuccedere.

Page 43: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Diagnostiche

Valori anomali influenti evidenziati attraverso

Distanza di Cook

Di =

∑(y∗j − y∗j,(−i)

)2

p ·MSE

Page 44: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Modello di regressione lineare multipla

componente accidentale

Yi = β0 + β1x1i + +β2x2i + ...+ βkxki︸ ︷︷ ︸+︷︸︸︷Ui

componente sistematica

Per un’adeguata descrizione degli stimatori, delle loro distribuzioni e dellecorrispondenti stime abbiamo bisogno di una notazione matriciale.

Y = Xβ + U

Sulle Ui (componente accidentale) rimangono le stesse ipotesi standard(normalita, omoschedasticita, incorrelazione/indipendenza)

U ∼ N(0, σ2I )

Accenniamo solamente e ci soffermiamo a sottolineare solo alcuni aspettidi rilievo che distinguono il modello di regressione multipla da quellosemplice.

β = (XTX )−1XTY

β ∼ N(β, σ2(XTX )−1

)I valori teorici potranno essere stimati in modo simile al caso semplice

µ(xi1, ..., xik) = yi = β0 + β1xi1 + ...βkxik+

stima della media condizionata (funzione/iperpiano di regressione)Analogamente i residui

ei = yi − yi

in notazione matricialee = Y − X β.

L’interpretazione del singolo coefficiente di regressione parziale βi devetenere conto della presenza delle altre covariate. Rappresental’incremento che la variabile dipendente (y) subisce in corrispondenza diun incremento unitario della covariata xi tenendo costanti tutte le altrecovariate.

Page 45: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Modello di regressione lineare multipla: scelta del modello

In teoria con tante covariate (k) a disposizione abbiamo la possibilita diconsiderare tanti modelli di regressione differenti (2k). Come ciregoliamo?

Significato che il ricercatore attribuisce ai regressori in relazione allavariabile dipendente oggetto di studio

Significativita dei coefficienti di regressione parziale: attenzionequando rimuoviamo (o aggiungiamo) covariate nel modellodobbiamo attenderci valori differenti delle stime (possibili anchecambiamenti di segno) e dunque anche possibili cambiamenti nellaloro significativita

...

Page 46: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Modello di regressione lineare multipla: scelta del modello

...

Miglioramento nel SSE dovuto all’utilizzo di uno o piu regressoriaggiuntivi → test F parzialiUtilizzando k regressori ottengo dei residui con i quali calcoloSSE (k). Se agli stessi regressori aggiungo altri p regressori ottengonecessariamente un miglioramento (diminuzione) della somma deiquadrati dei residui. La quantita

SSE (k)− SSE (k + p)

opportunamente standardizzata ci consente di testare lasignificativita complessiva dei coefficienti dei regressori aggiuntiviinclusi nel modello

Fp,n−(k+p+1) =

SSE(k)−SSE(k+p)p

SSE(k+p)n−(k+p+1)

Page 47: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Modello di regressione lineare multipla: scelta del modello

...

Uso dell’AIC (Akaike1 Information Criterion)In un modello M1(d1) con d1 parametri

AICM1(d1) = −2 max log(Lik)M1 + 2d1

Con il termine −2d1 teniamo conto del numero di parametri,penalizzando modelli con molti parametri. Andiamo a privilegiaremodelli con valore dell’AIC basso.Con AIC e possibile confrontare modelli annidati ma anche modellinon annidati.Se i modelli sono annidati possiamo avvalerci di un test d’ipotesibasato su

−2 max log(Lik)M1 − (−2 max log(Lik)M1 ) ∼ χ2d1−d2

dove d1 e la dimensione del modello piu ricco di parametri (d1 > d2).

1o Asymptotic

Page 48: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Modello di regressione lineare multipla: scelta del modello

Uso del BIC (Bayesian Information Criterion)In un modello M1(d1) con d1 parametri

BICM1(d1) = −2 max log(Lik)M1 + d1 ∗ log(n)

(simile al precedente, con migliori proprieta asintotiche ina lcuni casi)

Page 49: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Modello di regressione lineare multipla: scelta del modello

Uso del Cp di MallowsIn un modello di regressione lineare con p coefficienti di regressione(inclusa dunque l’intercetta)

Cp =SSEp

S2+ 2p − n

doce SSEp e la somma dei quadrati dei residui ottenuta dal modellocon p coefficienti di regressione e la quantita a denominatore S2 euna stima del parametro σ2 ottenuta, indipendentemente dalmodello con p coefficienti (tipicamente con il modello con tutti iregressori)

Si privilegiano i modelli con valori bassi di Cp anche se, nel caso ilmodello con p regressori fosse effettivamente il modello che hagenerato i dati, ci si attende un valore di Cp intorno al valore p.

Page 50: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Scelta del modello

La logica sottostante a tutti i criteri di scelta e la stessa: si cerca ditrovare un compromesso tra

+ MISURA di FIT - COMPLESSITA’ (# parametri del modello)

Page 51: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Diagnostiche

Valori anomali e/o influenti evidenziati attraverso

Residui standardizzati:

e[stand ]i =

yi − y∗iσ√

1− hii

(sono su una scala standard e quindi valori eccezionalmente grandipossono essere quantificati in modo adeguato (±2)Leverage:sono i valori hii che ritroviamo nella formula

y∗i =n∑

j=1

hijyj

con cui si ricostruisce il valore predetto come combinazione lineare diquelli osservatiNel caso semplice p = 2

hii =1

n+

(xi − x)2∑nj=1(xj − x)2

Page 52: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Simulazione dal modello ed alcuni dataset reali

Regressione

1 pomo (tomato.csv)

ANOVADal pacchetto DAAG

1 tomato

Page 53: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

*

Page 54: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

●●●

●●

●●

x

y

Page 55: Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di regressioneInferenzaDiagnosticheRegressione multipla: scelta del modello Strumenti

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

●●●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

19 20 21 22 23 24 25 26

1520

2530

3540

Altezza dei bambini vs eta’

eta’ (in mesi)

alte

zza

(in p

ollic

i)

●●●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

19 20 21 22 23 24 25 26

1520

2530

3540

Altezza dei bambini vs eta’ (medie condizionate in rosso)

eta’ (in mesi)

alte

zza

(in

pol

lici)

x x x xx x

●●●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

19 20 21 22 23 24 25 26

1520

2530

3540

Altezza dei bambini vs eta’ (funzione di regressione − spezzata)

eta’ (in mesi)

alte

zza

(in

pol

lici)

x x x xx x

●●●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

19 20 21 22 23 24 25 26

1520

2530

3540

Altezza dei bambini vs eta’ (retta di regressione)

eta’ (in mesi)

alte

zza

(in

pol

lici)

xxx

xxx xxxxxx x

x xxx xxxx

xxx x

xxx xx x xx x

xx xxx xxx x xx

xx x

x xxxxxxxx x

xx x

xx

x xxxxxxx xxxxx xxx x

xx

xx x

x xxxxxx x

xx xxxx

xx

x xxxx

xx xx x

xx xxxx

x xx x xxx

xx

xx xx

xx

xxxx

xxx xxxx

xxx xxx x