Post on 18-Feb-2019
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Strumenti statistici per l’analisi di dati genetici
Luca Tardella + Maria Brigida Ferraro
1email: luca.tardella@uniroma1.it
Lezione #2 – Regressione
04 aprile 2014
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Sommario (I)
La regressione dal punto di vista descrittivo: la nozione diinterpolazione
Descrizione ideale di una relazione tra 2 variabili Y e XVariabile dipendente e variabile dipendenteFormulazione astratta del problema di interpolazione: una famiglia difunzioni, una misura della distanza tra una nuvola di punti ed unafunzione (curva) idealeLa retta di regressione: coefficienti della retta di regressione;interpretazione geometricaProprieta della retta di regressioneNozione di residuoRelazioni tra la regressione e la nozione di correlazioneDecomposizione della variabilita della Y in due componenti: lavariabilita ricostruita dalla retta di regressione e la variabilita residuaGeneralizzazioni: la regressione multipla e la regressione polinomiale(cenni)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Sommario (II)
La regressione dal punto di vista inferenziale nei modelli statistici
Funzione di regressioneIl modello di regressione lineareRuolo delle variabili casuali, parametri, quantita fissate noteStime dei parametri del modello
Differenza di ruolo tra interpolazione e modello di regressione
Modelli di regressione lineare (semplice, multipla) e strumentiinferenziali
Esempio su dati reali (analisi sensoriale e metaboliti)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
La regressione lineare
Particolare approccio allo studio della dipendenzadi un carattere quantitativo Y da un altro carattere quantitativo X :Finora avevamo considerato due tipi di dipendenza:
(i) di Y da X [Y |X ] (o viceversa di X da Y )
(ii) mutua tra i due caratteri X e Y
In (i) si e sempre tentato di qualificare e quantificare la presenza divariazioni sistematiche del carattere Y in concomitanza con variazioni delcarattere X attraverso un indice legato alle distribuzioni (ed eventualisintesi) condizionate di Y |X .Nella regressione lineare si riprende questo approccio e lo si approfondiscecon l’idea di ricostruire un legame funzionale tra i due caratteriquantitativi come strumento per esplicitare una regolarita.Ripartiamo da un esempio particolare in cui X e quantitativo e assumeun numero finito di modalita → Funzione di Regressione
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Esempio(I)
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
19 20 21 22 23 24 25 26
1520
2530
3540
Altezza dei bambini vs eta’
eta’ (in mesi)
alte
zza
(in p
ollic
i)
20 21 22 23 24 25
30.0
30.5
31.0
31.5
32.0
eta’ (in mesi)
alte
zza
(in
pol
lici)
Cerchiamo una funzione che spiega come varia Y al variare di X
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
19 20 21 22 23 24 25 26
1520
2530
3540
Altezza dei bambini vs eta’
eta’ (in mesi)
alte
zza
(in p
ollic
i)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Impostazione del problema di regressione
Cerchiamo una funzione “teorica” f : X → Y x 7→ y = f (x) chesia il piu possibile in grado di rappresentare l’evidenza empiricamostrata nel diagramma (nuvola di punti)
Scegliere una famiglia di funzioni “candidate” f ∈ FProblema di adattamento di una relazione (curva) teorica ad unadistribuzione empirica (problema di interpolazione)
Quale significato attribuisco a tale operazione?
Semplificazione ↔ Interpretazione
Quali funzioni sono candidate ad agevolare l’interpretazione dellarelazione funzionale?
Criterio di semplicita =⇒ facilita di comprensione
come formalizzo l’idea che la curva rossa rappresenta bene la nuvolanera?
Scostamento/distanza tra relazione teorica e realta −→ Criterio deiminimi quadrati
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Criterio dei minimi quadrati
f −→ F (f ) =n∑
i=1
(yi − f (xi ))2
Stabilito il criterio si cerca di risolvere il problema di individuare, se esiste,
inff∈F
F (f )
e nel caso in cui l’inf e raggiunto in corrispondenza di una funzione f ∗,l’estremo inferiore e in effetti un minimo
F (f ∗) = inff∈F
F (f )
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Criterio dei minimi quadrati - possibili famiglie di funzionicandidate
Quali possono essere le famiglie di curve da considerare?
la famiglia di tutte le funzioni reali
F = FT = { tutte le funzioni }
F = FR = { tutte le rette } = {f (x ;α, β), α ∈ <, β ∈ <}
dove f (x ;α, β) = α + βx
F = FRP = { tutte le rette parallele all’asse x } = {f (x ;α), α ∈ <}
dove f (x ;α) = α
OvviamenteFRP ⊂ FR ⊂ FT
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Funzione di Regressione ovveroLinea [Spezzata] delle Medie Condizionate
Se non considero restrizioni al tipo di funzione f (x) (ovvero F e lafamiglia di tutte le funzioni da < → <) allora la soluzione al problema deiminimi quadrati
minf∈F
F (f ) = minf∈F
n∑i=1
(yi − f (xi ))2 −→n∑
i=1
(yi − f ∗(xi ))2
e data dalla funzione
x 7→ f ∗(x) = MEDIA[Y |X = x ]
definita in modo univoco nei soli punti x = xi per qualche unita i
y∗i = f ∗(xi ) = MEDIA[Y |X = xi ]
(se unita con segmenti viene anche denominata spezzata delle medie[condizionate]) → vedi figura
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Regressione lineare o retta di regressione
Scelto il criterio di scostamento (non-adattamento) da minimizzare
F (α, β) =n∑
i=1
(yi − f (xi ;α, β))2 =n∑
i=1
(yi − (α + β xi ))2
soluzione del problema di ottimo
minα,β
F (α, β) = minα,β
n∑i=1
[yi − (α + βxi )]2
=n∑
i=1
[yi − (α∗ + β∗xi )]2
da luogo alla retta di regressione
y = α∗ + β∗x
dove α∗ e β∗ sono i parametri della r. di regressione (r.interpolatrice ottima)
• visualizziamo la retta • interpretiamo i parametri• proprieta della soluzione dei minimi quadrati
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Una precisazione sulle notazioni
Nota che la retta di regressione
y = α∗ + β∗x
e quella particolare retta y = α + β x dove i coefficienti dell’equazionecaratteristica sono quei valori particolari α∗ e β∗ della r. di regressione (r.interpolatrice ottima)In corrispondenza dei valori osservati xi del regressore X si ottengono ivalori teorici y∗i del carattere Y corrispondenti alla retta di regressione
y∗i = α∗ + β∗xi
Posso anche valutare il valore teorico in corrispondenza di un valore x0
non osservato
y∗0 = α∗ + β∗x0
(interpolare/estrapolare dati mancanti, “prevedere” ...)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Soluzione dei minimi quadrati (I)
Soluzioni in α e β del seguente sistema di equazioni
0 =∂
∂αF (α, β) = 2
n∑i=1
[yi − (α + βxi )] (−1) (1)
0 =∂
∂βF (α, β) = 2
n∑i=1
[yi − (α + βxi )] (−xi ) (2)
e quindi moltiplicando entrambe le equazioni per − 12
n∑i=1
yi − αn − βn∑
i=1
xi = ny − nα− nxβ = 0 (3)
n∑i=1
xiyi − αn∑
i=1
xi − βn∑
i=1
x2i =
n∑i=1
xiyi − nxα− βn∑
i=1
x2i = 0 (4)
da cui moltiplicando la prima equazione per − xn e la seconda per 1
notteniamo (→ segue)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Soluzione dei minimi quadrati II
−x y + xα + x2β = 0 (5)
1
n
n∑i=1
xiyi − xα−
(1
n
n∑i=1
x2i
)β = 0 (6)
Sommando le due equazioni(1
n
n∑i=1
xiyi − x y
)−
(1
n
n∑i=1
x2i − x2
)β = 0 (7)
otteniamo la soluzione in β
β∗ =Cov [X ,Y ]
Var [X ]=
∑ni=1(xi − x)(yi − y)∑n
i=1(xi − x)2
e dalla prima equazione (nella versione del lucido precedente)
y − α− βx = 0
sostituendo a β la soluzione β∗ otteniamo
α∗ = y − β∗x
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Come ottenere i coefficienti dei minimi quadrati in R
... e molte altre informazioni collegate
“a mano” usando le formuleusando il comando lm( ... , ...) che restituisce un oggettocomplesso di classe lm acronimo anglosassone per “linear model”ovvero “modello lineare”> y<-height
> x<-age
> obj<-lm(y ~ age)
> attributes(obj)
$names
[1] "coefficients" "residuals" "effects" "rank"
[5] "fitted.values" "assign" "qr" "df.residual"
[9] "xlevels" "call" "terms" "model"
$class
[1] "lm"
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Come visualizzare i dati, la retta di regressione ...
... e altre info utili con R
> plot(x,y,main="Nuvola dei punti")
> abline(obj$coefficients)
> y.valori.teorici<-obj$fitted
> points(x,y.valori.teorici,pch="x",col="red",font=2)
> ## visualizziamo gli scostamenti tra
> ## valore osservato y[i]
> ## e valore teorico y.valori.teorici[i]
> segments(x[1],y[1],x[1],y.valori.teorici[1],col="blue")
> summary(obj)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Interpretazione dei parametri
interpretazione geometrica: α intercetta e β coefficiente angolare
interpretazione in termini di variazioni corrispondenti
campo di variazione
segno dei parametri?
unita di misura
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Proprieta della retta di regressione
in genere si denota con y∗i il valore teorico della variabile dipendenteY in corrispondenza dell’osservazione X = xi previsto dalla relazionefunzionale stabilita dalla retta di regressione ovvero y∗i = α∗ + β∗xi ;il punto (xi , y
∗i ) giace sulla retta
la retta passa per (x , y), il baricentro della nuvola dei punti
la somma dei residui ei = yi − y∗i = yi − (α∗+β∗xi ) e nulla e y∗ = y
caratterizziamo quando β∗ = 0 (anche con esempi grafici)
relazione tra il coefficiente di correlazione e la misura diaccostamento della nuvola dei punti alla “retta” detto coefficiente oindice di determinazione R2
r 2 = R2 = 1−∑n
i=1 e2i∑n
i=1(yi − y)2= 1−
∑ni=1(yi − y∗i )2∑ni=1(yi − y)2
= 1− Dev(E )
Dev(Y )
altre interpretazioni del coefficiente R2
casi notevoli: R2 = 0 e R2 = 1
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Tre quantita importanti nell’interpolazione con la retta diregressione
Dev(Y ∗) =n∑
i=1
(y∗i − y)2
Dev(E ) =n∑
i=1
e2i =
n∑i=1
(yi − y∗i )2
Dev(Y ) =n∑
i=1
(yi − y)2
- sono tre devianze dal significato ben chiaro
- sono strettamente legate tra di loro dalla relazioneDev(Y ) = Dev(Y ∗) + Dev(E )
- consentono di chiarire alcuni aspetti fondamentali dell’operazione diregressione e comprendere meglio alcuni indici come ad esempio ilcoefficiente di correlazione r
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Relazioni fondamentali
1 decomposizione
Dev(Y ) = Dev(Y ∗) + Dev(E )
2 relazione con il coefficiente r
Dev(Y ∗) = r 2Dev(Y )
3 misura di accostamento relativo
R2 =Dev(Y ∗)
Dev(Y )= 1− Dev(E )
Dev(Y )
4 implicazioni geometriche
Dev(E ) = (1− r 2)Dev(Y )
5 interpolazioni con diverse famiglie e miglioramento di accostamento
r 2 = R2 =(0)ΘY |X −(1) ΘY |X
(0)ΘY |X=
Dev(Y )− Dev(E )
Dev(Y )=
Dev(Y ∗)
Dev(Y )
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Asimmetria di ruolo
Sottolineiamo ancora una volta l’asimmetria nel ruolo dei due caratterinello studio della dipendenza.
Asimmetria e nesso di causa-effetto?
In alcuni casi ha meno significato (o non ne ha affatto) parlare diregressione di Y da X (prezzo degli immobili e caratteristichedell’immobile, altezza bambini e tempo) soprattutto in circostanze dicorrelazione spuria (tasso di analfabetismo e emissioni inquinanti in unanazione)
Eta dai tronchi d’albero → numero di cerchi e diametro: in alcuni casipuo avere senso regredire Y rispetto ad X o viceversa X rispetto a Y
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Adattamento di una curva teorica a dati empirici o modelloesplicativo/interpretativo?
Rilevo la regolarita empirica e la semplifico con pochi parametricaratteristici (descrizione)Prima di poter parlare di una vera e propria spiegazione (scientifica) di Ymediante una relazione funzionale con X (induzione) dovrei postulare unmodello con adeguate assunzioni e conseguentemente convalidarlo,escludendo preliminarmente che la relazione registrata sia di tipo spurio.Altri scopi dell’adattamento: perequazione, interpolazione edestrapolazione
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Terminologia di regressione
Perche viene denominata regressione lineare?
Famoso articolo di Galton sulle altezze di 928 coppie di padri e figli →
●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●
50 60 70 80 90
5060
7080
90
Dati di Galton sulle altezze di familiari
Altezza del padre
Alte
zza
del f
iglio
Y = X
Y = 23.94 + 0.65 X
bisettriceinterpolatrice ottima
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Analisi dei residui
Per vedere se vi e un comportamento sistematico nei residui che potrebbesuggerire l’uso di curve interpolatrici di tipo diverso ad esempio
y = α + βx (8)
y = α + βx2 (9)
y = α + β log(x) (10)
E’ ancora possibile trovare la migliore curva interpolatrice nel caso dellaseconda e terza relazione?RIS. Sı! E’ sempre un regressione lineare rispetto ai parametri α e β conla semplice variante che la variabile che funge da variabile indipendente(regressore) e trasformata in una diversa “scala” z = log(x)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Cenni ad ulteriori generalizzazioni
In realta nei problemi del mondo reale i caratteri (le variabili) coinvoltinon sono mai solamente due e l’idea di interpolare con una curva perottenere una spiegazione funzionale di una di esse potra/dovra sfruttarele eventuali informazioni utili in tutte/parte delle altre variabili
y = α + βx + γz
y = β0 + β1x1 + β2x2
y = β0 + β1x1 + β2x2 + ...βkxk
In realta l’espressione ultima puo farci capire come arricchire la classedelle funzioni utilizzabili come relazioni funzionaliAttenzione! Interpretazione del generico coefficiente di regressioneparziale βj
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Regressione Polinomiale
y = β0 + β1x + β2x2 + ...βkxk
Vantaggi → l’adattamento migliora
Svantaggi → si complica l’interpretazione e la comprensione dellarelazione funzionale che dipende da un maggior numero di parametri
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
La regressione come modello statistico-probabilistico
Un modello statistico e rappresentato da una famiglia di possibilidistribuzioni che rappresentano, idealizzando, il meccanismo aleatorio allabase delle nostre osservazioni sperimentali.
{f (y ; θ); θ ∈ Θ}
In che modo formalizziamo la dipendenza di due variabili X e Y ?L’idea generale e quella pensare alla funzione di regressione
µ(x) = E [Y |X = x ]
attraverso una famiglia di funzioni di x che dipendono da uno o piuparametri.Nel caso della regressione lineare semplice sara
µ(x) = α + βx
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
La regressione come modello statistico-probabilistico
Il modello di regressione lineare semplice e dunque rappresentato daiseguenti ingredienti: in corrispondenza di una generica osservazione isapendo che Xi = xi (ovvero considerando noto e fissato xi )l’osservazione di Yi non si pensera legata unicamente da una relazionedeterministica con la xi . In effetti se consideriamo un campione dibabmini tutti di eta pari a 21 mesi non ci attendiamo di osservare semprela stessa altezza, ma riteniamo che essa possa aggirarsi intorno ad unvalore medio di riferimento.
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
La regressione come modello statistico-probabilistico
La media condizionata µ(xi ) = E [Yi |X = xi ] e proprio tale valore ecostituisce la cosiddetta componente sistematica del modello alla qualeva ad aggiungersi una componente accidentale del tutto aleatoria cherappresenta un ipotetico errore e/o deviazione dalla componentesistematica. La componente accidentale ha un’opportuna distribuzione ditipo normale (legge per eccellenza degli errori accidentali, non sistematici)
componente accidentale
Yi = α + βxi︸ ︷︷ ︸+︷︸︸︷Ui
componente sistematica
Yi variabile casuale osservabileUi variabile casuale non osservabileα , β parametri (fissi) incognitixi quantita fissa e notaIpotesi standard del modello di regressione lineare sempliceUi i.i.d. N(0, σ2) da cui segue che
Yi ∼ N(α + βxi , σ2)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Gli strumenti inferenziali del modello di regressione lineare
Stima puntuale dei parametri del modello
Stimatori e valutazione dell’imprecisione delle stime: standard error eintervalli di confidenza per i parametri del modello
Test d’ipotesi per i parametri del modello: significativita deicoefficienti di regressione e p − value
Stima della funzione di regressione in un punto fissato x0 (valoreteorico di riferimento): µ(x0) = E [Y |X = x0]
Previsione di una nuova osservazione Y0 in corrispondenza di unvalore fissato X = x0 della variabile dipendente
Adeguatezza del modello: analisi dei residui
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Modello di regressione lineare multipla
Estensione del modello di regressione lineare semplice: cenni agli aspettigeometrici e all’interpretazione dei parametri
Stima puntuale dei parametri del modello
Valutazione dell’imprecisione delle stime: standard error e intervallidi confidenza per i parametri del modello
Test d’ipotesi per i parametri del modello: significativita deicoefficienti di regressione e p − value
Stima della funzione di regressione in un punto fissato x0 (valoreteorico di riferimento): µ(x0) = E [Y |X = x0]
Previsione di una nuova osservazione Y0 in corrispondenza di unvalore fissato X = x0 della variabile dipendente
Adeguatezza del modello: analisi dei residui
Scelta del modello: significativita dei coefficienti di regressioneparziale, selezione delle variabili esplicative, procedure step-wise
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Stima puntuale dei parametri del modello
Modello di regressione lineare semplice
Yi = α + βxi︸ ︷︷ ︸+︷︸︸︷Ui
componente sistematica
stimatori di massima verosimiglianza e stime dei minimi quadrati diα e β coincidono sotto le ipotesi standard
α =1
n
n∑i=1
Yi − β1
n
n∑i=1
xi = Y − βx
β =1n
∑ni=1(xi − x)(Yi − Y )1n
∑ni=1(xi − x)2
=Sx,Y
S2x
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Stima puntuale dei parametri del modello (1)
Modello di regressione lineare semplice
Per stimare σ2 si utilizzano i residui
Ei = Yi − Y ∗i = Yi − (α + βxi )
e precisamente
σ2 =
∑ni=1 Ei
2
n − 2
La quantita a numeratore viene spesso indicata con l’acronimo (Sumof Squared Errors)
SSE =n∑
i=1
e2i
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Stima puntuale dei parametri del modello (2)
Modello di regressione lineare semplice
Gli stimatori hanno una distribuzione che dipende dai parametriincogniti e precisamente
α ∼ N
(α, σ2
∑ni=1 x2
i
n∑n
i=1(xi − x)2
)β ∼ N
(β,
σ2∑ni=1(xi − x)2
)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Stima puntuale dei parametri del modello (3)
Quando andiamo a sostituire a Yi i valori yi effettivamente osservati eanalogamente facciamo con i valori di xi otteniamo le stime dei parametriLa quantificazione dell’errore commesso da tali stime dipende dalladistribuzione degli stimatori e in particolare dalla loro variabilita ...
σ2β
=σ2∑n
i=1(xi − x)2
... che, a sua volta verra opportunamente stimata. Generalmente siconsidera la deviazione standard ovvero radice della stima della varianza
σβ =
√σ2∑n
i=1(xi − x)2(standard error)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Stima della funzione di regressione in un punto fissato x0
Ci interessa stimare il valore teorico di riferimento rispetto ad un valoredella variabile dipendente fissato x0 qualsiasi, non necessariamentecorrispondente ai valori osservati xi (i = 1, 2, ..., n) usati per stimare iparametri
µ(x0) = E [Y |X = x0] = α + βx0
N.B. La quantita che vogliamo stimare e ingognita ma e fissata (nonaleatoria)!
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Stima della funzione di regressione in un punto fissato x0
Faremo riferimento allo stimatore
µ(x0) = α + βx0
che avra una sua distribuzione
µ(x0) ∼ N
(α + βx0, σ
2
(1
n+
(x0 − x)2∑ni=1(xi − x)2
))e del quale potremo stimare tanto la variabilita
σµ(x0) =
√σ2
(1
n+
(x0 − x)2∑ni=1(xi − x)2
)quanto utilizzare per derivare l’espressione degli intervalli di confidenza[
µ(x0)− tα/2σµ(x0), µ(x0) + t1−α/2σµ(x0)]
Replicando gli intervalli di confidenza intorno ai valori teorici µ(x0)stimati in corrispondenza di tutti i possibili valori x0 in un certo intervallootteniamo una cosiddetta banda di confidenza intorno alla retta diregressione.
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Banda di confidenza
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
02
46
810
x
y
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Previsione di una nuova osservazione Y0 corrispondente ax0
Ci interessa prevedere una quantita aleatoria e non piu un valore fissato.La migliore previsione (nel senso del minimo errore quadratico medio) diuna variabile aleatoria
Y0 ∼ N(µ(x0) = E [Y |X = x0], σ2
)e proprio il suo valore atteso, ossia la media che in questo caso edipendente da x0 (media condizionata) e coincidera numericamente conla stima di µ(x0). Tuttavia, essendo
Y0 = µ(x0) + U0
dovremo tener conto nell’errore di previsione non solo della variabilitadella stima della componente sistematica (in rosso)
µ(x0) ∼ N
(α + βx0, σ
2
(1
n+
(x0 − x)2∑ni=1(xi − x)2
))ma anche anche la componente σ2 dovuta alla componente accidentaleU0 e dunque ....
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Previsione di una nuova osservazione Y0 corrispondente ax0
....
σY0=
√σ2
(1 +
1
n+
(x0 − x)2∑ni=1(xi − x)2
)e quindi derivare l’espressione degli intervalli di previsione[
Y0 − tα/2σY0, Y0 + t1−α/2σY0
]Replicando gli intervalli di confidenza intorno ai valori teorici Y0 stimati incorrispondenza di tutti i possibili valori x0 in un certo intervallo otteniamouna cosiddetta banda di confidenza intorno alla retta di regressione.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
02
46
810
x
y
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Test d’ipotesi per i parametri del modello
Consideriamo il parametro di maggiore interesse β.Si fa riferimento alla distribuzione t di Student in quanto
β − βσβ
∼ Tn−2
Per testare
H0 : β = 0
H1 : β 6= 0
Si va a vedere se sostituendo a β il valore ipotizzato sotto l’ipotesi nullaH0 si ottiene un valore della statistica
t = toss =β
σβ
che non sia la realizzazione di un evento estremamente improbabile per ladistribuzione sotto H0 ovvero definisco la regione di rifiuto del test come
R{
t < tα/2 oppure t > t1−α/2
}
−4 −2 0 2 4
0.0
0.1
0.2
0.3
x
dt(x
, df =
5)
Eventi estremamente improbabili per una T con 5 g.d.l.
Alternativamente si puo considerare il p-value (livello di significativitaosservato)
p = Pr {|T | > toss |H0}dove
T =β
σβRegola di decisione per la significativita di β1:
p-value basso (< α) =⇒ evento imporobabile sotto H0 e dunque H0
rifiutata (parametro β significativo ovvero significativamente diversoda 0p-value alto (> α) =⇒ evento non imporobabile sotto H0 e dunquenon ci sono sufficienti evidenze per rifiutare H0 (accettiamo la nonsignificativita del coefficiente)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Adeguatezza del modello: diagnostiche ed analisi deiresidui
Non-linearita
Omoschedasticita dell’errore
Incorrelazione degli errori
Normalita dell’errore
Valori anomali
Per molti di questi aspetti esistono diversi test statistici, ma alcunediagnostiche preliminari possono essere desunte da un’opportuna analisigrafica dei residui.Possiamo avvalerci di R per simulare dati da modelli conformi/difformidalle ipotesi di base per vedere cosa ci si deve attendere e/o cosa puosuccedere.
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Diagnostiche
Valori anomali influenti evidenziati attraverso
Distanza di Cook
Di =
∑(y∗j − y∗j,(−i)
)2
p ·MSE
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Modello di regressione lineare multipla
componente accidentale
Yi = β0 + β1x1i + +β2x2i + ...+ βkxki︸ ︷︷ ︸+︷︸︸︷Ui
componente sistematica
Per un’adeguata descrizione degli stimatori, delle loro distribuzioni e dellecorrispondenti stime abbiamo bisogno di una notazione matriciale.
Y = Xβ + U
Sulle Ui (componente accidentale) rimangono le stesse ipotesi standard(normalita, omoschedasticita, incorrelazione/indipendenza)
U ∼ N(0, σ2I )
Accenniamo solamente e ci soffermiamo a sottolineare solo alcuni aspettidi rilievo che distinguono il modello di regressione multipla da quellosemplice.
β = (XTX )−1XTY
β ∼ N(β, σ2(XTX )−1
)I valori teorici potranno essere stimati in modo simile al caso semplice
µ(xi1, ..., xik) = yi = β0 + β1xi1 + ...βkxik+
stima della media condizionata (funzione/iperpiano di regressione)Analogamente i residui
ei = yi − yi
in notazione matricialee = Y − X β.
L’interpretazione del singolo coefficiente di regressione parziale βi devetenere conto della presenza delle altre covariate. Rappresental’incremento che la variabile dipendente (y) subisce in corrispondenza diun incremento unitario della covariata xi tenendo costanti tutte le altrecovariate.
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Modello di regressione lineare multipla: scelta del modello
In teoria con tante covariate (k) a disposizione abbiamo la possibilita diconsiderare tanti modelli di regressione differenti (2k). Come ciregoliamo?
Significato che il ricercatore attribuisce ai regressori in relazione allavariabile dipendente oggetto di studio
Significativita dei coefficienti di regressione parziale: attenzionequando rimuoviamo (o aggiungiamo) covariate nel modellodobbiamo attenderci valori differenti delle stime (possibili anchecambiamenti di segno) e dunque anche possibili cambiamenti nellaloro significativita
...
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Modello di regressione lineare multipla: scelta del modello
...
Miglioramento nel SSE dovuto all’utilizzo di uno o piu regressoriaggiuntivi → test F parzialiUtilizzando k regressori ottengo dei residui con i quali calcoloSSE (k). Se agli stessi regressori aggiungo altri p regressori ottengonecessariamente un miglioramento (diminuzione) della somma deiquadrati dei residui. La quantita
SSE (k)− SSE (k + p)
opportunamente standardizzata ci consente di testare lasignificativita complessiva dei coefficienti dei regressori aggiuntiviinclusi nel modello
Fp,n−(k+p+1) =
SSE(k)−SSE(k+p)p
SSE(k+p)n−(k+p+1)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Modello di regressione lineare multipla: scelta del modello
...
Uso dell’AIC (Akaike1 Information Criterion)In un modello M1(d1) con d1 parametri
AICM1(d1) = −2 max log(Lik)M1 + 2d1
Con il termine −2d1 teniamo conto del numero di parametri,penalizzando modelli con molti parametri. Andiamo a privilegiaremodelli con valore dell’AIC basso.Con AIC e possibile confrontare modelli annidati ma anche modellinon annidati.Se i modelli sono annidati possiamo avvalerci di un test d’ipotesibasato su
−2 max log(Lik)M1 − (−2 max log(Lik)M1 ) ∼ χ2d1−d2
dove d1 e la dimensione del modello piu ricco di parametri (d1 > d2).
1o Asymptotic
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Modello di regressione lineare multipla: scelta del modello
Uso del BIC (Bayesian Information Criterion)In un modello M1(d1) con d1 parametri
BICM1(d1) = −2 max log(Lik)M1 + d1 ∗ log(n)
(simile al precedente, con migliori proprieta asintotiche ina lcuni casi)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Modello di regressione lineare multipla: scelta del modello
Uso del Cp di MallowsIn un modello di regressione lineare con p coefficienti di regressione(inclusa dunque l’intercetta)
Cp =SSEp
S2+ 2p − n
doce SSEp e la somma dei quadrati dei residui ottenuta dal modellocon p coefficienti di regressione e la quantita a denominatore S2 euna stima del parametro σ2 ottenuta, indipendentemente dalmodello con p coefficienti (tipicamente con il modello con tutti iregressori)
Si privilegiano i modelli con valori bassi di Cp anche se, nel caso ilmodello con p regressori fosse effettivamente il modello che hagenerato i dati, ci si attende un valore di Cp intorno al valore p.
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Scelta del modello
La logica sottostante a tutti i criteri di scelta e la stessa: si cerca ditrovare un compromesso tra
+ MISURA di FIT - COMPLESSITA’ (# parametri del modello)
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Diagnostiche
Valori anomali e/o influenti evidenziati attraverso
Residui standardizzati:
e[stand ]i =
yi − y∗iσ√
1− hii
(sono su una scala standard e quindi valori eccezionalmente grandipossono essere quantificati in modo adeguato (±2)Leverage:sono i valori hii che ritroviamo nella formula
y∗i =n∑
j=1
hijyj
con cui si ricostruisce il valore predetto come combinazione lineare diquelli osservatiNel caso semplice p = 2
hii =1
n+
(xi − x)2∑nj=1(xj − x)2
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
Simulazione dal modello ed alcuni dataset reali
Regressione
1 pomo (tomato.csv)
ANOVADal pacchetto DAAG
1 tomato
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
*
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
●
●
●
●●●
●●
●●
x
y
Lezione #02 Descrittiva Il modello di regressione Inferenza Diagnostiche Regressione multipla: scelta del modello
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
19 20 21 22 23 24 25 26
1520
2530
3540
Altezza dei bambini vs eta’
eta’ (in mesi)
alte
zza
(in p
ollic
i)
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
19 20 21 22 23 24 25 26
1520
2530
3540
Altezza dei bambini vs eta’ (medie condizionate in rosso)
eta’ (in mesi)
alte
zza
(in
pol
lici)
x x x xx x
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
19 20 21 22 23 24 25 26
1520
2530
3540
Altezza dei bambini vs eta’ (funzione di regressione − spezzata)
eta’ (in mesi)
alte
zza
(in
pol
lici)
x x x xx x
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
19 20 21 22 23 24 25 26
1520
2530
3540
Altezza dei bambini vs eta’ (retta di regressione)
eta’ (in mesi)
alte
zza
(in
pol
lici)
xxx
xxx xxxxxx x
x xxx xxxx
xxx x
xxx xx x xx x
xx xxx xxx x xx
xx x
x xxxxxxxx x
xx x
xx
x xxxxxxx xxxxx xxx x
xx
xx x
x xxxxxx x
xx xxxx
xx
x xxxx
xx xx x
xx xxxx
x xx x xxx
xx
xx xx
xx
xxxx
xxx xxxx
xxx xxx x