Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di...

Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello

Strumenti statistici per l’analisi di dati genetici

Luca Tardella + Maria Brigida Ferraro

1email: luca.tardella@uniroma1.it

Lezione #2 – Regressione

04 aprile 2014

Sommario (I)

La regressione dal punto di vista descrittivo: la nozione diinterpolazione

Descrizione ideale di una relazione tra 2 variabili Y e XVariabile dipendente e variabile dipendenteFormulazione astratta del problema di interpolazione: una famiglia difunzioni, una misura della distanza tra una nuvola di punti ed unafunzione (curva) idealeLa retta di regressione: coefficienti della retta di regressione;interpretazione geometricaProprieta della retta di regressioneNozione di residuoRelazioni tra la regressione e la nozione di correlazioneDecomposizione della variabilita della Y in due componenti: lavariabilita ricostruita dalla retta di regressione e la variabilita residuaGeneralizzazioni: la regressione multipla e la regressione polinomiale(cenni)

Sommario (II)

La regressione dal punto di vista inferenziale nei modelli statistici

Funzione di regressioneIl modello di regressione lineareRuolo delle variabili casuali, parametri, quantita fissate noteStime dei parametri del modello

Differenza di ruolo tra interpolazione e modello di regressione

Modelli di regressione lineare (semplice, multipla) e strumentiinferenziali

Esempio su dati reali (analisi sensoriale e metaboliti)

La regressione lineare

Particolare approccio allo studio della dipendenzadi un carattere quantitativo Y da un altro carattere quantitativo X :Finora avevamo considerato due tipi di dipendenza:

(i) di Y da X [Y |X ] (o viceversa di X da Y )

(ii) mutua tra i due caratteri X e Y

In (i) si e sempre tentato di qualificare e quantificare la presenza divariazioni sistematiche del carattere Y in concomitanza con variazioni delcarattere X attraverso un indice legato alle distribuzioni (ed eventualisintesi) condizionate di Y |X .Nella regressione lineare si riprende questo approccio e lo si approfondiscecon l’idea di ricostruire un legame funzionale tra i due caratteriquantitativi come strumento per esplicitare una regolarita.Ripartiamo da un esempio particolare in cui X e quantitativo e assumeun numero finito di modalita → Funzione di Regressione

Esempio(I)

●●●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

●●

19 20 21 22 23 24 25 26

Altezza dei bambini vs eta’

eta’ (in mesi)

20 21 22 23 24 25

eta’ (in mesi)

Cerchiamo una funzione che spiega come varia Y al variare di X

●●●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

●●

19 20 21 22 23 24 25 26

eta’ (in mesi)

Impostazione del problema di regressione

Cerchiamo una funzione “teorica” f : X → Y x 7→ y = f (x) chesia il piu possibile in grado di rappresentare l’evidenza empiricamostrata nel diagramma (nuvola di punti)

Scegliere una famiglia di funzioni “candidate” f ∈ FProblema di adattamento di una relazione (curva) teorica ad unadistribuzione empirica (problema di interpolazione)

Quale significato attribuisco a tale operazione?

Semplificazione ↔ Interpretazione

Quali funzioni sono candidate ad agevolare l’interpretazione dellarelazione funzionale?

Criterio di semplicita =⇒ facilita di comprensione

come formalizzo l’idea che la curva rossa rappresenta bene la nuvolanera?

Scostamento/distanza tra relazione teorica e realta −→ Criterio deiminimi quadrati

Criterio dei minimi quadrati

f −→ F (f ) =n∑

(yi − f (xi ))2

Stabilito il criterio si cerca di risolvere il problema di individuare, se esiste,

inff∈F

F (f )

e nel caso in cui l’inf e raggiunto in corrispondenza di una funzione f ∗,l’estremo inferiore e in effetti un minimo

F (f ∗) = inff∈F

F (f )

Criterio dei minimi quadrati - possibili famiglie di funzionicandidate

Quali possono essere le famiglie di curve da considerare?

la famiglia di tutte le funzioni reali

F = FT = { tutte le funzioni }

F = FR = { tutte le rette } = {f (x ;α, β), α ∈ <, β ∈ <}

dove f (x ;α, β) = α + βx

F = FRP = { tutte le rette parallele all’asse x } = {f (x ;α), α ∈ <}

dove f (x ;α) = α

OvviamenteFRP ⊂ FR ⊂ FT

Funzione di Regressione ovveroLinea [Spezzata] delle Medie Condizionate

Se non considero restrizioni al tipo di funzione f (x) (ovvero F e lafamiglia di tutte le funzioni da < → <) allora la soluzione al problema deiminimi quadrati

minf∈F

F (f ) = minf∈F

n∑i=1

(yi − f (xi ))2 −→n∑

(yi − f ∗(xi ))2

e data dalla funzione

x 7→ f ∗(x) = MEDIA[Y |X = x ]

definita in modo univoco nei soli punti x = xi per qualche unita i

y∗i = f ∗(xi ) = MEDIA[Y |X = xi ]

(se unita con segmenti viene anche denominata spezzata delle medie[condizionate]) → vedi figura

Regressione lineare o retta di regressione

Scelto il criterio di scostamento (non-adattamento) da minimizzare

F (α, β) =n∑

(yi − f (xi ;α, β))2 =n∑

(yi − (α + β xi ))2

soluzione del problema di ottimo

minα,β

F (α, β) = minα,β

n∑i=1

[yi − (α + βxi )]2

[yi − (α∗ + β∗xi )]2

da luogo alla retta di regressione

y = α∗ + β∗x

dove α∗ e β∗ sono i parametri della r. di regressione (r.interpolatrice ottima)

• visualizziamo la retta • interpretiamo i parametri• proprieta della soluzione dei minimi quadrati

Una precisazione sulle notazioni

Nota che la retta di regressione

y = α∗ + β∗x

e quella particolare retta y = α + β x dove i coefficienti dell’equazionecaratteristica sono quei valori particolari α∗ e β∗ della r. di regressione (r.interpolatrice ottima)In corrispondenza dei valori osservati xi del regressore X si ottengono ivalori teorici y∗i del carattere Y corrispondenti alla retta di regressione

y∗i = α∗ + β∗xi

Posso anche valutare il valore teorico in corrispondenza di un valore x0

non osservato

y∗0 = α∗ + β∗x0

(interpolare/estrapolare dati mancanti, “prevedere” ...)

Soluzione dei minimi quadrati (I)

Soluzioni in α e β del seguente sistema di equazioni

0 =∂

∂αF (α, β) = 2

n∑i=1

[yi − (α + βxi )] (−1) (1)

0 =∂

∂βF (α, β) = 2

n∑i=1

[yi − (α + βxi )] (−xi ) (2)

e quindi moltiplicando entrambe le equazioni per − 12

n∑i=1

yi − αn − βn∑

xi = ny − nα− nxβ = 0 (3)

n∑i=1

xiyi − αn∑

xi − βn∑

n∑i=1

xiyi − nxα− βn∑

x2i = 0 (4)

da cui moltiplicando la prima equazione per − xn e la seconda per 1

notteniamo (→ segue)

Soluzione dei minimi quadrati II

−x y + xα + x2β = 0 (5)

n∑i=1

xiyi − xα−

n∑i=1

)β = 0 (6)

Sommando le due equazioni(1

n∑i=1

xiyi − x y

n∑i=1

x2i − x2

)β = 0 (7)

otteniamo la soluzione in β

β∗ =Cov [X ,Y ]

Var [X ]=

∑ni=1(xi − x)(yi − y)∑n

i=1(xi − x)2

e dalla prima equazione (nella versione del lucido precedente)

y − α− βx = 0

sostituendo a β la soluzione β∗ otteniamo

α∗ = y − β∗x

Come ottenere i coefficienti dei minimi quadrati in R

... e molte altre informazioni collegate

“a mano” usando le formuleusando il comando lm( ... , ...) che restituisce un oggettocomplesso di classe lm acronimo anglosassone per “linear model”ovvero “modello lineare”> y<-height

> x<-age

> obj<-lm(y ~ age)

> attributes(obj)

$names

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "xlevels" "call" "terms" "model"

$class

[1] "lm"

Come visualizzare i dati, la retta di regressione ...

... e altre info utili con R

> plot(x,y,main="Nuvola dei punti")

> abline(obj$coefficients)

> y.valori.teorici<-obj$fitted

> points(x,y.valori.teorici,pch="x",col="red",font=2)

> ## visualizziamo gli scostamenti tra

> ## valore osservato y[i]

> ## e valore teorico y.valori.teorici[i]

> segments(x[1],y[1],x[1],y.valori.teorici[1],col="blue")

> summary(obj)

Interpretazione dei parametri

interpretazione geometrica: α intercetta e β coefficiente angolare

interpretazione in termini di variazioni corrispondenti

campo di variazione

segno dei parametri?

unita di misura

Proprieta della retta di regressione

in genere si denota con y∗i il valore teorico della variabile dipendenteY in corrispondenza dell’osservazione X = xi previsto dalla relazionefunzionale stabilita dalla retta di regressione ovvero y∗i = α∗ + β∗xi ;il punto (xi , y

∗i ) giace sulla retta

la retta passa per (x , y), il baricentro della nuvola dei punti

la somma dei residui ei = yi − y∗i = yi − (α∗+β∗xi ) e nulla e y∗ = y

caratterizziamo quando β∗ = 0 (anche con esempi grafici)

relazione tra il coefficiente di correlazione e la misura diaccostamento della nuvola dei punti alla “retta” detto coefficiente oindice di determinazione R2

r 2 = R2 = 1−∑n

i=1 e2i∑n

i=1(yi − y)2= 1−

∑ni=1(yi − y∗i )2∑ni=1(yi − y)2

= 1− Dev(E )

Dev(Y )

altre interpretazioni del coefficiente R2

casi notevoli: R2 = 0 e R2 = 1

Tre quantita importanti nell’interpolazione con la retta diregressione

Dev(Y ∗) =n∑

(y∗i − y)2

Dev(E ) =n∑

n∑i=1

(yi − y∗i )2

Dev(Y ) =n∑

(yi − y)2

- sono tre devianze dal significato ben chiaro

- sono strettamente legate tra di loro dalla relazioneDev(Y ) = Dev(Y ∗) + Dev(E )

- consentono di chiarire alcuni aspetti fondamentali dell’operazione diregressione e comprendere meglio alcuni indici come ad esempio ilcoefficiente di correlazione r

Relazioni fondamentali

1 decomposizione

Dev(Y ) = Dev(Y ∗) + Dev(E )

2 relazione con il coefficiente r

Dev(Y ∗) = r 2Dev(Y )

3 misura di accostamento relativo

R2 =Dev(Y ∗)

Dev(Y )= 1− Dev(E )

Dev(Y )

4 implicazioni geometriche

Dev(E ) = (1− r 2)Dev(Y )

5 interpolazioni con diverse famiglie e miglioramento di accostamento

r 2 = R2 =(0)ΘY |X −(1) ΘY |X

(0)ΘY |X=

Dev(Y )− Dev(E )

Dev(Y )=

Dev(Y ∗)

Dev(Y )

Asimmetria di ruolo

Sottolineiamo ancora una volta l’asimmetria nel ruolo dei due caratterinello studio della dipendenza.

Asimmetria e nesso di causa-effetto?

In alcuni casi ha meno significato (o non ne ha affatto) parlare diregressione di Y da X (prezzo degli immobili e caratteristichedell’immobile, altezza bambini e tempo) soprattutto in circostanze dicorrelazione spuria (tasso di analfabetismo e emissioni inquinanti in unanazione)

Eta dai tronchi d’albero → numero di cerchi e diametro: in alcuni casipuo avere senso regredire Y rispetto ad X o viceversa X rispetto a Y

Adattamento di una curva teorica a dati empirici o modelloesplicativo/interpretativo?

Rilevo la regolarita empirica e la semplifico con pochi parametricaratteristici (descrizione)Prima di poter parlare di una vera e propria spiegazione (scientifica) di Ymediante una relazione funzionale con X (induzione) dovrei postulare unmodello con adeguate assunzioni e conseguentemente convalidarlo,escludendo preliminarmente che la relazione registrata sia di tipo spurio.Altri scopi dell’adattamento: perequazione, interpolazione edestrapolazione

Terminologia di regressione

Perche viene denominata regressione lineare?

Famoso articolo di Galton sulle altezze di 928 coppie di padri e figli →

●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

50 60 70 80 90

Dati di Galton sulle altezze di familiari

Altezza del padre

Y = 23.94 + 0.65 X

bisettriceinterpolatrice ottima

Analisi dei residui

Per vedere se vi e un comportamento sistematico nei residui che potrebbesuggerire l’uso di curve interpolatrici di tipo diverso ad esempio

y = α + βx (8)

y = α + βx2 (9)

y = α + β log(x) (10)

E’ ancora possibile trovare la migliore curva interpolatrice nel caso dellaseconda e terza relazione?RIS. Sı! E’ sempre un regressione lineare rispetto ai parametri α e β conla semplice variante che la variabile che funge da variabile indipendente(regressore) e trasformata in una diversa “scala” z = log(x)

Cenni ad ulteriori generalizzazioni

In realta nei problemi del mondo reale i caratteri (le variabili) coinvoltinon sono mai solamente due e l’idea di interpolare con una curva perottenere una spiegazione funzionale di una di esse potra/dovra sfruttarele eventuali informazioni utili in tutte/parte delle altre variabili

y = α + βx + γz

y = β0 + β1x1 + β2x2

y = β0 + β1x1 + β2x2 + ...βkxk

In realta l’espressione ultima puo farci capire come arricchire la classedelle funzioni utilizzabili come relazioni funzionaliAttenzione! Interpretazione del generico coefficiente di regressioneparziale βj

Regressione Polinomiale

y = β0 + β1x + β2x2 + ...βkxk

Vantaggi → l’adattamento migliora

Svantaggi → si complica l’interpretazione e la comprensione dellarelazione funzionale che dipende da un maggior numero di parametri

La regressione come modello statistico-probabilistico

Un modello statistico e rappresentato da una famiglia di possibilidistribuzioni che rappresentano, idealizzando, il meccanismo aleatorio allabase delle nostre osservazioni sperimentali.

{f (y ; θ); θ ∈ Θ}

In che modo formalizziamo la dipendenza di due variabili X e Y ?L’idea generale e quella pensare alla funzione di regressione

µ(x) = E [Y |X = x ]

attraverso una famiglia di funzioni di x che dipendono da uno o piuparametri.Nel caso della regressione lineare semplice sara

µ(x) = α + βx

Il modello di regressione lineare semplice e dunque rappresentato daiseguenti ingredienti: in corrispondenza di una generica osservazione isapendo che Xi = xi (ovvero considerando noto e fissato xi )l’osservazione di Yi non si pensera legata unicamente da una relazionedeterministica con la xi . In effetti se consideriamo un campione dibabmini tutti di eta pari a 21 mesi non ci attendiamo di osservare semprela stessa altezza, ma riteniamo che essa possa aggirarsi intorno ad unvalore medio di riferimento.

La media condizionata µ(xi ) = E [Yi |X = xi ] e proprio tale valore ecostituisce la cosiddetta componente sistematica del modello alla qualeva ad aggiungersi una componente accidentale del tutto aleatoria cherappresenta un ipotetico errore e/o deviazione dalla componentesistematica. La componente accidentale ha un’opportuna distribuzione ditipo normale (legge per eccellenza degli errori accidentali, non sistematici)

componente accidentale

Yi = α + βxi︸︷︷︸+︷︸︸︷Ui

componente sistematica

Yi variabile casuale osservabileUi variabile casuale non osservabileα , β parametri (fissi) incognitixi quantita fissa e notaIpotesi standard del modello di regressione lineare sempliceUi i.i.d. N(0, σ2) da cui segue che

Yi ∼ N(α + βxi , σ2)

Gli strumenti inferenziali del modello di regressione lineare

Stima puntuale dei parametri del modello

Stimatori e valutazione dell’imprecisione delle stime: standard error eintervalli di confidenza per i parametri del modello

Test d’ipotesi per i parametri del modello: significativita deicoefficienti di regressione e p − value

Stima della funzione di regressione in un punto fissato x0 (valoreteorico di riferimento): µ(x0) = E [Y |X = x0]

Previsione di una nuova osservazione Y0 in corrispondenza di unvalore fissato X = x0 della variabile dipendente

Adeguatezza del modello: analisi dei residui

Modello di regressione lineare multipla

Estensione del modello di regressione lineare semplice: cenni agli aspettigeometrici e all’interpretazione dei parametri

Valutazione dell’imprecisione delle stime: standard error e intervallidi confidenza per i parametri del modello

Test d’ipotesi per i parametri del modello: significativita deicoefficienti di regressione e p − value

Stima della funzione di regressione in un punto fissato x0 (valoreteorico di riferimento): µ(x0) = E [Y |X = x0]

Previsione di una nuova osservazione Y0 in corrispondenza di unvalore fissato X = x0 della variabile dipendente

Adeguatezza del modello: analisi dei residui

Scelta del modello: significativita dei coefficienti di regressioneparziale, selezione delle variabili esplicative, procedure step-wise

Modello di regressione lineare semplice

Yi = α + βxi︸︷︷︸+︷︸︸︷Ui

stimatori di massima verosimiglianza e stime dei minimi quadrati diα e β coincidono sotto le ipotesi standard

n∑i=1

Yi − β1

n∑i=1

xi = Y − βx

β =1n

∑ni=1(xi − x)(Yi − Y )1n

∑ni=1(xi − x)2

Stima puntuale dei parametri del modello (1)

Per stimare σ2 si utilizzano i residui

Ei = Yi − Y ∗i = Yi − (α + βxi )

e precisamente

∑ni=1 Ei

n − 2

La quantita a numeratore viene spesso indicata con l’acronimo (Sumof Squared Errors)

SSE =n∑

Gli stimatori hanno una distribuzione che dipende dai parametriincogniti e precisamente

α ∼ N

(α, σ2

∑ni=1 x2

i=1(xi − x)2

)β ∼ N

σ2∑ni=1(xi − x)2

Quando andiamo a sostituire a Yi i valori yi effettivamente osservati eanalogamente facciamo con i valori di xi otteniamo le stime dei parametriLa quantificazione dell’errore commesso da tali stime dipende dalladistribuzione degli stimatori e in particolare dalla loro variabilita ...

=σ2∑n

i=1(xi − x)2

... che, a sua volta verra opportunamente stimata. Generalmente siconsidera la deviazione standard ovvero radice della stima della varianza

σβ =

√σ2∑n

i=1(xi − x)2(standard error)

Stima della funzione di regressione in un punto fissato x0

Ci interessa stimare il valore teorico di riferimento rispetto ad un valoredella variabile dipendente fissato x0 qualsiasi, non necessariamentecorrispondente ai valori osservati xi (i = 1, 2, ..., n) usati per stimare iparametri

µ(x0) = E [Y |X = x0] = α + βx0

N.B. La quantita che vogliamo stimare e ingognita ma e fissata (nonaleatoria)!

Stima della funzione di regressione in un punto fissato x0

Faremo riferimento allo stimatore

µ(x0) = α + βx0

che avra una sua distribuzione

µ(x0) ∼ N

(α + βx0, σ

(x0 − x)2∑ni=1(xi − x)2

))e del quale potremo stimare tanto la variabilita

σµ(x0) =

√σ2

(x0 − x)2∑ni=1(xi − x)2

)quanto utilizzare per derivare l’espressione degli intervalli di confidenza[

µ(x0)− tα/2σµ(x0), µ(x0) + t1−α/2σµ(x0)]

Replicando gli intervalli di confidenza intorno ai valori teorici µ(x0)stimati in corrispondenza di tutti i possibili valori x0 in un certo intervallootteniamo una cosiddetta banda di confidenza intorno alla retta diregressione.

Banda di confidenza

●●

● ●●

●● ●

●●

−2 −1 0 1 2

Previsione di una nuova osservazione Y0 corrispondente ax0

Ci interessa prevedere una quantita aleatoria e non piu un valore fissato.La migliore previsione (nel senso del minimo errore quadratico medio) diuna variabile aleatoria

Y0 ∼ N(µ(x0) = E [Y |X = x0], σ2

)e proprio il suo valore atteso, ossia la media che in questo caso edipendente da x0 (media condizionata) e coincidera numericamente conla stima di µ(x0). Tuttavia, essendo

Y0 = µ(x0) + U0

dovremo tener conto nell’errore di previsione non solo della variabilitadella stima della componente sistematica (in rosso)

µ(x0) ∼ N

(α + βx0, σ

(x0 − x)2∑ni=1(xi − x)2

))ma anche anche la componente σ2 dovuta alla componente accidentaleU0 e dunque ....

Previsione di una nuova osservazione Y0 corrispondente ax0

√σ2

(x0 − x)2∑ni=1(xi − x)2

)e quindi derivare l’espressione degli intervalli di previsione[

Y0 − tα/2σY0, Y0 + t1−α/2σY0

]Replicando gli intervalli di confidenza intorno ai valori teorici Y0 stimati incorrispondenza di tutti i possibili valori x0 in un certo intervallo otteniamouna cosiddetta banda di confidenza intorno alla retta di regressione.

●●

● ●●

●● ●

●●

−2 −1 0 1 2

Test d’ipotesi per i parametri del modello

Consideriamo il parametro di maggiore interesse β.Si fa riferimento alla distribuzione t di Student in quanto

β − βσβ

∼ Tn−2

Per testare

H0 : β = 0

H1 : β 6= 0

Si va a vedere se sostituendo a β il valore ipotizzato sotto l’ipotesi nullaH0 si ottiene un valore della statistica

t = toss =β

che non sia la realizzazione di un evento estremamente improbabile per ladistribuzione sotto H0 ovvero definisco la regione di rifiuto del test come

t < tα/2 oppure t > t1−α/2

−4 −2 0 2 4

, df =

Eventi estremamente improbabili per una T con 5 g.d.l.

Alternativamente si puo considerare il p-value (livello di significativitaosservato)

p = Pr {|T | > toss |H0}dove

σβRegola di decisione per la significativita di β1:

p-value basso (< α) =⇒ evento imporobabile sotto H0 e dunque H0

rifiutata (parametro β significativo ovvero significativamente diversoda 0p-value alto (> α) =⇒ evento non imporobabile sotto H0 e dunquenon ci sono sufficienti evidenze per rifiutare H0 (accettiamo la nonsignificativita del coefficiente)

Adeguatezza del modello: diagnostiche ed analisi deiresidui

Non-linearita

Omoschedasticita dell’errore

Incorrelazione degli errori

Normalita dell’errore

Valori anomali

Per molti di questi aspetti esistono diversi test statistici, ma alcunediagnostiche preliminari possono essere desunte da un’opportuna analisigrafica dei residui.Possiamo avvalerci di R per simulare dati da modelli conformi/difformidalle ipotesi di base per vedere cosa ci si deve attendere e/o cosa puosuccedere.

Diagnostiche

Valori anomali influenti evidenziati attraverso

Distanza di Cook

∑(y∗j − y∗j,(−i)

p ·MSE

Modello di regressione lineare multipla

componente accidentale

Yi = β0 + β1x1i + +β2x2i + ...+ βkxki︸︷︷︸+︷︸︸︷Ui

Per un’adeguata descrizione degli stimatori, delle loro distribuzioni e dellecorrispondenti stime abbiamo bisogno di una notazione matriciale.

Y = Xβ + U

Sulle Ui (componente accidentale) rimangono le stesse ipotesi standard(normalita, omoschedasticita, incorrelazione/indipendenza)

U ∼ N(0, σ2I )

Accenniamo solamente e ci soffermiamo a sottolineare solo alcuni aspettidi rilievo che distinguono il modello di regressione multipla da quellosemplice.

β = (XTX )−1XTY

β ∼ N(β, σ2(XTX )−1

)I valori teorici potranno essere stimati in modo simile al caso semplice

µ(xi1, ..., xik) = yi = β0 + β1xi1 + ...βkxik+

stima della media condizionata (funzione/iperpiano di regressione)Analogamente i residui

ei = yi − yi

in notazione matricialee = Y − X β.

L’interpretazione del singolo coefficiente di regressione parziale βi devetenere conto della presenza delle altre covariate. Rappresental’incremento che la variabile dipendente (y) subisce in corrispondenza diun incremento unitario della covariata xi tenendo costanti tutte le altrecovariate.

Modello di regressione lineare multipla: scelta del modello

In teoria con tante covariate (k) a disposizione abbiamo la possibilita diconsiderare tanti modelli di regressione differenti (2k). Come ciregoliamo?

Significato che il ricercatore attribuisce ai regressori in relazione allavariabile dipendente oggetto di studio

Significativita dei coefficienti di regressione parziale: attenzionequando rimuoviamo (o aggiungiamo) covariate nel modellodobbiamo attenderci valori differenti delle stime (possibili anchecambiamenti di segno) e dunque anche possibili cambiamenti nellaloro significativita

Miglioramento nel SSE dovuto all’utilizzo di uno o piu regressoriaggiuntivi → test F parzialiUtilizzando k regressori ottengo dei residui con i quali calcoloSSE (k). Se agli stessi regressori aggiungo altri p regressori ottengonecessariamente un miglioramento (diminuzione) della somma deiquadrati dei residui. La quantita

SSE (k)− SSE (k + p)

opportunamente standardizzata ci consente di testare lasignificativita complessiva dei coefficienti dei regressori aggiuntiviinclusi nel modello

Fp,n−(k+p+1) =

SSE(k)−SSE(k+p)p

SSE(k+p)n−(k+p+1)

Uso dell’AIC (Akaike1 Information Criterion)In un modello M1(d1) con d1 parametri

AICM1(d1) = −2 max log(Lik)M1 + 2d1

Con il termine −2d1 teniamo conto del numero di parametri,penalizzando modelli con molti parametri. Andiamo a privilegiaremodelli con valore dell’AIC basso.Con AIC e possibile confrontare modelli annidati ma anche modellinon annidati.Se i modelli sono annidati possiamo avvalerci di un test d’ipotesibasato su

−2 max log(Lik)M1 − (−2 max log(Lik)M1 ) ∼ χ2d1−d2

dove d1 e la dimensione del modello piu ricco di parametri (d1 > d2).

1o Asymptotic

Uso del BIC (Bayesian Information Criterion)In un modello M1(d1) con d1 parametri

BICM1(d1) = −2 max log(Lik)M1 + d1 ∗ log(n)

(simile al precedente, con migliori proprieta asintotiche ina lcuni casi)

Uso del Cp di MallowsIn un modello di regressione lineare con p coefficienti di regressione(inclusa dunque l’intercetta)

Cp =SSEp

S2+ 2p − n

doce SSEp e la somma dei quadrati dei residui ottenuta dal modellocon p coefficienti di regressione e la quantita a denominatore S2 euna stima del parametro σ2 ottenuta, indipendentemente dalmodello con p coefficienti (tipicamente con il modello con tutti iregressori)

Si privilegiano i modelli con valori bassi di Cp anche se, nel caso ilmodello con p regressori fosse effettivamente il modello che hagenerato i dati, ci si attende un valore di Cp intorno al valore p.

Scelta del modello

La logica sottostante a tutti i criteri di scelta e la stessa: si cerca ditrovare un compromesso tra

+ MISURA di FIT - COMPLESSITA’ (# parametri del modello)

Diagnostiche

Valori anomali e/o influenti evidenziati attraverso

Residui standardizzati:

e[stand ]i =

yi − y∗iσ√

1− hii

(sono su una scala standard e quindi valori eccezionalmente grandipossono essere quantificati in modo adeguato (±2)Leverage:sono i valori hii che ritroviamo nella formula

y∗i =n∑

con cui si ricostruisce il valore predetto come combinazione lineare diquelli osservatiNel caso semplice p = 2

hii =1

(xi − x)2∑nj=1(xj − x)2

Simulazione dal modello ed alcuni dataset reali

Regressione

1 pomo (tomato.csv)

ANOVADal pacchetto DAAG

1 tomato

●●●

●●

●●●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

●●

19 20 21 22 23 24 25 26

eta’ (in mesi)

●●●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

●●

19 20 21 22 23 24 25 26

Altezza dei bambini vs eta’ (medie condizionate in rosso)

eta’ (in mesi)

x x x xx x

●●●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

●●

19 20 21 22 23 24 25 26

Altezza dei bambini vs eta’ (funzione di regressione − spezzata)

eta’ (in mesi)

x x x xx x

●●●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

●●

19 20 21 22 23 24 25 26

Altezza dei bambini vs eta’ (retta di regressione)

eta’ (in mesi)

xxx xxxxxx x

x xxx xxxx

xxx xx x xx x

xx xxx xxx x xx

x xxxxxxxx x

x xxxxxxx xxxxx xxx x

x xxxxxx x

xx xxxx

x xxxx

xx xx x

xx xxxx

x xx x xxx

xxx xxxx

xxx xxx x

Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di...

Documents

Transcript of Luca Tardella + Maria Brigida Ferraro - genopomii.unina.it · Lezione #02DescrittivaIl modello di...

Modello relazionale Il modello relazionale: strutture e vincoli.

DB - Modello Relazionale 1 DB - Modello relazionale dei dati.

Dal modello ER Al Modello Relazionale - Prof.Accarino modello ER al Modell… · Dal modello ER Al Modello Relazionale Prof. Francesco Accarino IIS “Altiero Spinelli Via Leopardi

DAL MODELLO DELLA PERFEZIONE AL MODELLO DELLA … · 2015-11-04 · 2 Del modello della perfezione al modello della integrazione Amedeo CENCINI Introduzione 1- Modello della perfezione

Curriculum vitae del Dott. Federico Maria Tardella...(MC), con votazione di 58/60. Esperienze di ricerca e attività professionali 2018-oggi Incarico conferito in data 27 marzo 2018,

Modello: Modello Axle + Intervista Muratori Testata ...

Modello - costruzioniedilizucchini.it · Title: Modello Created Date: 20200628221600Z

Il modello corpuscolare e il modello ondulatorio Che cosa è la luce? Di cosa è fatta? Modello corpuscolare Modello corpuscolare: la luce è costituita da.

Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Confronto Modello ISO/OSI e Modello TCP/IP

INFORMATICA - lingue.unich.it · – Modello ISO/OSI – Modello TCP/IP ... LE RETI Modello ISO/OSI

Il modello OSI - antoniosantoro.com modello OSI 2.pdf · Il modello OSI e il modello DARPA. Il modello OSI La comunicazione tra due utenti di una rete di computer implica la risoluzione

Dalla biblioteca modello al modello di rete di biblioteche

La voce del Conero · 2016. 11. 8. · termine della serata, il presidente del Rotary Francesco Tardella ha consegnato al comandante la riproduzione di una antica medaglia, raffigurante

Il modello Relazionale - ing.unipi.ita080066/didattica/BD/3 - Modello relazionale.pdf · Il Modello Relazionale •Il modello Relazionale è il modello logico oggi più usato dai

Progettazione logica relazionaledbdmg.polito.it/wordpress/wp-content/uploads/2019/12/... · Modello ER Modello relazionale Corrispondenza dei concetti principali Modello ER Modello

Modello di Organizzazione Gestione e Controllo...Modello. “Modello di organizzazione, gestione e controllo ai sensi del D. Lgs. 231/2001” o “Modello”: il Modello di organizzazione,

GUIDA ALL INVIO TELEMATI CO DEL MODELLO 5/2012 MODELLO 5 ...€¦ · GUIDA ALL INVIO TELEMATI CO DEL MODELLO 5/2012 MODELLO 5 TELEMATICO La trasmissione telematica del modello 5/2012

Sirio Tardella Direttore Servizio Statistico e Amministrativo Bologna, 25 marzo 2010 Auto usata: mercato dimenticato.

Il modello relazionale Modello relazionaleanselma/psicologia/04DBRelazionali.pdfIl modello relazionale! Modello logico dei dati basato sui concetti di relazione e tabella !Relazione: