Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À...

80
Università degli studi “Roma Tre” Corso di Laurea in Fisica Esperimentazioni di Fisica I Prof. Giuseppe SCHIRRIPA SPAGNOLO Approfondimenti sulla Regressione Lineare Il presente materiale riprende in parte informazioni, idee, trasparenze tratte da varie fonti pubbliche e rielaborate ai fini del corso. Si ringraziano tutti coloro che a loro insaputa hanno consentito la stesura del presente materia. Il materiale è distribuito, in forma gratuita e protetto da password, agli studenti del corso.

Transcript of Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À...

Page 1: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Università degli studi “Roma Tre” Corso di Laurea in Fisica

Esperimentazioni di Fisica IProf. Giuseppe SCHIRRIPA SPAGNOLO

Approfondimentisulla

Regressione Lineare

Il presente materiale riprende in parte informazioni, idee, trasparenze tratte da varie fontipubbliche e rielaborate ai fini del corso.Si ringraziano tutti coloro che a loro insaputa hanno consentito la stesura del presentemateria. Il materiale è distribuito, in forma gratuita e protetto da password, agli studenti delcorso.

Page 2: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Argomento importantissimo

si prega segnalare refusi, parti poco chiare, ecc.

contattare per eventuali chiarimenti

Page 3: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

3

Si parla di dipendenza tra due grandezze/variabili (quantitative)quando è ipotizzabile una relazione, di qualsiasi tipo, tra i valori (piùin generale le modalità) assunti dalle due grandezze/variabili. Larelazione può essere

causale (presenza di causa-effetto): una variazione del valoreassunto da una delle due variabili provoca una conseguentemodificazione del valore dell’altra grandezza/variabilenon identificabile una causa e un effetto: si osserva solo unaassociazione tra i comportamenti/valori assunti dalle duegrandezze/variabili .assente: con si osservano variazioni associazioni tra le duegrandezze/variabili (in questo caso si dicono indipendenti).

ANALISI DELLA DIPENDENZA

Page 4: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

4

È necessario sottolineare che una relazione di causa-effetto non è undato di fatto, ma una ipotesi.

L’attribuzione di causalità è una operazione concettuale che va aldi la dei dati osservati, e anche dell’analisi statistica.L’attribuzione di un nesso causale è sempre una "proiezione"soggettiva: a volte risulta naturale (a torto o a ragione), altre voltemolto problematica.Non è raro confondere la causa con l’effetto.I dati osservati permettono di rilevare solo una associazione ocorrelazione, più o meno forte, tra fenomeni, comportamenti,eventi.

… ANALISI DELLA DIPENDENZA

Page 5: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

5

Se tra due più grandezze si vuole studiare una possibile relazione dicausa-effetto, si utilizzano le tecniche di correlazione per decidere sel'ipotizzata correlazione è reale o semplicemente effetto del caso.Esempio: si somministra un nuovo farmaco ad un certo numero di pazienti.Alcuni di loro guariscono e altri no. Il farmaco è efficace per curare lamalattia? I pazienti sono guariti perché gli è stato somministrato il farmacoo la guarigione è legata ad altri fattori?

Se invece vogliamo prevedere il valore di una variabile sullabase dei valori di un'altra variabile, e dunque se assumiamoche una variabile dipenda da un'altra variabile, allorautilizziamo la regressione.

REGRESSIONE VS. CORRELAZIONE

Page 6: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

In altre parole, nell'ambito delle scienze applicate, si ricorre:

Analisi della correlazione: per misurare l'intensità dell'associazione tradue variabili quantitative, di norma non legate direttamente da causa-effetto, facilmente mediate da almeno una terza variabile, ma checomunque variano congiuntamente.

Analisi della regressione: per sviluppare un modello statistico chepossa essere usato per prevedere i valori di una variabile, dettadipendente o più raramente predetta ed individuata come l'effetto,sulla base dei valori dell'altra variabile, detta indipendente oesplicativa, individuata come la causa.

In entrambe i casi, si ha a che fare con una statistica bivariata (omultivariata) .

… REGRESSIONE VS. CORRELAZIONE

Page 7: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Il termine "regressione" è stato introdotto da Sir Francis Galton,antropologo inglese, nell’articolo:

Galton, F. (1886). Regression towards mediocrity in hereditarystature. The Journal of the Anthropological Institute of Great Britainand Ireland, 15, 246-263.

http://doi.org/10.2307/2841583

"Regressione" si riferiva alla tendenza dei figli ad avere altezze piùprossime alla media rispetto ai genitori.

Oggi il termine regressione è divenuto significato di “relazionefunzionale tra variabili ottenuta con metodi statistici”.

... COS’È LA REGRESSIONE

Page 8: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Riferendoci all’esempio originale di Galton (relazione tra le staturedei genitori e quelle dei figli), la statura del padre e quella dellamadre sono misure delle variabili indipendenti, le stature dei figlisono misure della variabile dipendente.Spesso in ambito scientifico, nell'intorno di un determinato valore, le relazionicausa-effetto possono essere considerate lineare (in generale è quasi semprepossibile scegliere un punto e un intervallo di valori, nell'intorno del punto scelto,così piccolo da poter considerare la relazione lineare (esempio: approssimazione diun tratto di arco con la sua corda).

Quando si ipotizza una relazione lineare, si parla di:

regressione lineare semplice (relazione tra due variabili)

regressione lineare multipla(relazione tra una variabile dipendente e più variabili indipendenti

... COS’È LA REGRESSIONE

Page 9: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

9

Quando parliamo di regressione cosa intendiamo?1. Siamo interessati a una particolare variabile/grandezza che vorremmo

capire meglio o rappresentare con un modello matematico. Esempio:descrivere come varia la posizione di un corpo con il tempo (in altre parolericavare l'equazione oraria. La posizione sarà la variabile risposta ovariabile dipendente. Di solito, la variabile dipendente viene rappresentatadalla lettera y .

2. Abbiamo un insieme di k variabili che pensiamo possano essere utili peraiutarci a prevedere o rappresentare con un modello matematico lavariabile risposta. Esempio: descrivere come cambia la pressione di un gasal variare del volume e della temperatura. La pressione sarà la variabilerisposta o variabile dipendente. Al contrario volume e temperatura sonodette variabili esplicative, o indipendenti . Le variabili indipendenti,generalmente, sono indicate con xa , xb , ecc. (oppure x1 , x2 , ecc.).

...COS’È LA REGRESSIONE

Page 10: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Attualmente, il termine regressione viene impiegato diffusamente quandosi vuole determinare la relazione analitica tra una variabile dipendente euna o più variabili indipendenti. Cioè:

y variabile dipendentexa, xb, xc, xd, ... variabili indipendentiLa variabile dipendente è la variabile il cui valore si intende prevedere.Le variabili indipendenti sono invece le variabili che vengono utilizzate perfare le previsioni (le grandezze misurate).In generale, nella notazione statistica la variabile dipendente viene indicatacon y e quelle indipendenti con x.

Di fatto, la regressione è un metodo statistico per "trovare/confermare" unmodello rappresentativo/previsionale della realtà.

( , , , , )a b c dy x x x xf

... COS’È LA REGRESSIONE

Page 11: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Nell’analisi della regressione semplice o bivariata si ha una solavariabile indipendente sulla quale “regredisce” la variabiledipendente.Si ipotizza che la variabile indipendente “influenzi” o “predica” lavariabile dipendente.

... COS’È LA REGRESSIONE

Page 12: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

12

Ricapitolando

La regressione è una tecnica statistica per studiare lerelazioni tra due o più variabili.Inizialmente affronteremo il problema tra due variabili,

successivamente estenderemo il concetto a più variabili.

Generalmente la relazione consta di: una variabile dipendente o risposta

una o più variabili che dovrebbero spiegare o addiritturadeterminare i valori assunti dalla variabile dipendente;queste ultime sono dette variabili esplicative o predittori ovariabili indipendenti.

…COS’È LA REGRESSIONE

Page 13: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

13

Rappresentazione semplificata della realtà, serve a descrivere in modo"matematico" la realtà osservata. Esso deve essere il più semplice possibile edeve rappresentare i fenomeni in modo analogo a quanto osservato.

Semplificazione della realtà: il modello della discesa di una sfera lungo unpiano inclinato rappresenta gli aspetti “essenziali” e trascura quelli ritenuti“superficiali”. Si può considerare la sfera come un punto materiale e si trascural'attrito tra piano e sfera e tra sfera e aria. Ovviamente, se l'attrito non è"trascurabile", il modello si può "complicare", così come si può complicareconsiderando la sfera come un corpo rigido, ecc.

Analogia della realtà: il modello è una riproduzione della realtà; non è la realtà.

Rappresentazione necessaria della realtà: anche se è semplificato il modello ènecessario per capire la realtà tramite lo studio di relazioni semplici e dimaggiore intellegibilità.

MODELLO STATISTICO

Page 14: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

COSTRUZIONE DEL MODELLO

Page 15: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Prima di affrontare la questione del “modello”, vediamo sotto quale forma sipossono presentare i dati sui quali fare analisi della regressione.Obiettivo della statistica bivariata (o multivariata) è studiare la relazione tradue (o più) variabili. A tale scopo è indispensabile raccogliere"simultaneamente" informazioni sulle variabili oggetto di studio. In tal caso,le n unità statistiche di una popolazione (o campione) sono oggetto dellarilevazione congiunta delle informazioni relative alle due (o più) variabili,necessarie a studiare la possibile relazione tra esse.In generale, il dato bivariato, per ciascuna delle n unità statistiche (le nmisurazioni/osservazioni), sarà espresso dalla coppia di valori (xi, yi), il primovalore riferito alla prima variabile, la grandezza GX, e il secondo valore riferitoalla seconda variabile, la grandezza GY.La serie di dati si presenterà quindi come una coppia di vettori appaiati diuguale dimensione.

RELAZIONE TRA DUEVARIABILI QUANTITATIVE

Page 16: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Pertanto, date due grandezze quantitative GX e GY, osservate/misuratesimultaneamente n volte (n unità statistiche), la serie di n dati bivariatisarà:

… RELAZIONE TRA DUEVARIABILI QUANTITATIVE

Unità Grandezza GX Grandezza GY

1 x1 y1

2 x2 y2

3 x3 y3

⁝ ⁝ ⁝

j xj yj

⁝ ⁝ ⁝

n xn yn

La generica osservazione si indicacon la coppia (xj , yj ), j = 1, 2, …, n.

Data la natura delle due variabili,possiamo sintetizzarle, siaconsiderandole separatamente,attraverso media e scartosperimentale tipo ( , ) e ( , ), siaconsiderandole congiuntamente perstudiare l’esistenza, la forma, ladirezione e, infine, l’intensità dellapossibile relazione che le lega.

Page 17: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

17

Il diagramma di dispersione (scatter plot) fornisce una descrizione visiva,completa e dettagliata della relazione esistente tra due variabili. In altre parole, loscatterplot ci fa capire se esiste una associazione statistica fra due variabiliquantitative. Tuttavia, la sua interpretazione resta soggettiva.

Un grafico a dispersione è unavisualizzazione di dati che mostrai valori di due diverse variabilicome punti. I dati per ciascunpunto sono rappresentati dallasua posizione orizzontale (x) everticale (y) sulla visualizzazione.I grafici a dispersione sono anchenoti come diagrammi adispersione o scatter plot.

DIAGRAMMA DI DISPERSIONE(SCATTER PLOT)

Page 18: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Domande:• Di quanto varia la posizione

all’aumentare del tempo?• La relazione tra le due variabili è

tendenzialmente lineare?

... DIAGRAMMA DI DISPERSIONE(SCATTER PLOT)

Page 19: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

19

Quando tra due variabili c’è una relazione di dipendenza, si può cercare diprevedere il valore di una variabile in funzione del valore assunto dall'altra.

Questo ha significato in senso stretto quando si ipotizza una relazione dicausalità tra la grandezza/variabile su cui si agisce (GX), e la grandezza/variabilesu cui si vuole produrre un effetto (GY).Volendo costruire un modello per prevedere GY in funzione di GX , si pone laquestione di quale relazione funzionale ipotizzare tra i valori x (assunti dallagrandezza/variabile GX) e i valori y assunti dalla grandezza/variabile GY .Il modello più semplice di relazione tra due variabili è quello lineare di primogrado (modello rappresentato da una retta: y = m·x + q) .Una volta determinata la retta, il modello permetterà di stimare il valore dellagrandezza/variabile GY sulla base del valore assunto dalla GX

Per ottenere un buon modello, e quindi delle buone previsioni, occorredeterminare la retta che meglio descrive i punti osservati: in pratica, si tratta dideterminare i due coefficienti m e q che compaiono nell’equazione della retta.

ANALISI DELLA DIPENDENZA:COSTRUZIONE DEL MODELLO - REGRESSIONE LINEARE

Page 20: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Lo studio della relazione tra due variabili, attraverso i modelli diregressione lineare persegue essenzialmente tre obiettivi:1. descrittivo: si definisce il modello di regressione per esprimere

analiticamente la realtà osservata, rappresentandola in manieraverosimile;

2. interpretativo: il modello adottato deve fornire una “buona”interpretazione della realtà osservata e deve mettere in evidenza lerelazioni fra i diversi fenomeni, riconducibili a precise ipotesi dilavoro;

3. previsionale: il modello deve essere in grado di fornire previsionisull’andamento futuro del fenomeno; ovvero, deve essere capace dicalcolare un valore non ancora osservato della grandezza dipendenteGY, in corrispondenza di nuovi valori osservati della grandezzaindipendente GX.

IMPORTANZA DELLARETTA DI REGRESSIONE

Page 21: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

La “forma” di relazione matematica più semplice tra due variabili è laretta (relazione lineare semplice)

dove :• valore stimato della grandezza GY ;• valore empirico di grandezza GX ;• coefficiente angolare della retta);• intercetta della retta.

In presenza di relazione lineare semplice, è necessario stimare duequantità, per determinare e tracciare sul piano, in maniera univoca,la retta approssimante che meglio "si adatta" ai dati sperimentali.

RETTA DI REGRESSIONE

Page 22: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Attraverso il modello di regressione lineare è possibile esprimere i singolivalori osservati 𝑗 della grandezza GY , come funzione lineare dei valoriosservati 𝑗 della grandezza GX . Vale a dire:

In altre parole, i valori osservati 𝑗 della grandezza dipendente GY sonofunzione lineare dei valori osservati 𝑗 della grandezza indipendente GX ,attraverso i due parametri m e q (chiamati coefficienti di regressione), piùuna quantità εj , nota come residuo (o errore). Questa quantità si assumeessere una variabile distribuita normalmente, 𝑗 . Ciò equivale adassumere che gli errori che si commettono esprimendo la relazione tra GX eGY in termini di valore atteso ( ) piuttosto che del corrispondente valoreosservato 𝑗 , in media si annullano. Si ricordi che, mentre i valori osservati 𝑗 sono punti sul piano, i valori attesi sono punti sulla retta. Pertanto, la quantitàεj può essere interpretata come la distanza tra i due punti.

IL MODELLO DI REGRESSIONE SEMPLICE

1,2, ,j j jy m x q j n

Page 23: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

... IL MODELLO DI REGRESSIONE SEMPLICE

Page 24: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

... IL MODELLO DI REGRESSIONE SEMPLICE

Ipotesi: fissata xj , i possibili valori yj sono normalmente distribuiti (convarianza intorno al valore (valore atteso ).

Page 25: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

... IL MODELLO DI REGRESSIONE SEMPLICE

Page 26: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Il grafico di dispersione o scatter plot è un tipo di grafico in cui due variabili di un set di dati sono riportate su uno spazio cartesiano.

SCATTER PLOT E RETTA "APPROSSIMANTE"

Il metodo dei minimi quadrati consiste nell’individuazione della "migliore" retta,passante per la nuvola di punti dello scatter plot.

Page 27: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Se conoscessimo m e q della retta, allora per potremmocalcolarci il valore "vero" del corrispondente

La probabilità di ottenere il valore osservato ,nell'ipotesi che iresidui 𝑗 , è:

IL CRITERIO DEI MINIMI QUADRATI

2

2

2

2

ˆ1( ) exp

22

1exp

22

j

jyy

j j

yy

y yP y

y m x q

Valori sperimentalidistribuiti normalmenteintorno la valore "vero"(atteso) ( ).

Page 28: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Avendo definito

1 1

2

( , , , , ) ( ) ( ) ( )

1exp

22

j n j n

nny

P y y y P y P y P y

S

Pertanto, e la probabilità di ottenere l’insieme di misure y1 , ..., yj , ..., yn

è il prodotto (se le yj misure sono indipendenti) :

2

22

1

nj j

j y

y m x qS

... IL CRITERIO DEI MINIMI QUADRATI

Page 29: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Le migliori stime per le costanti incognite m e q sono quei valori per cuila probabilità P(y1 , ..., yj , ..., yn ) è massima ossia S2 è minima.

2

1

oCi mo inimè:n

j jj

y m x q

Pertanto, il metodo dei minimi quadrati consiste nell’individuazionedella "migliore" retta, passante per la nuvola di punti dello scatter plot.Questa retta è scelta minimizzando la distanza tra i valoriosservati/misurati e i corrispondenti punti della retta.

Il criterio dei minimi quadrati recita che “la somma delle differenze alquadrato, fra i valori osservati/misurati della grandezza dipendenteGY e i valori attesi , ottenuti adattando la retta dei minimi quadrati, èsempre minore della somma delle differenze al quadrato tra i valoriosservati e i valori attesi ottenuti adattando qualsiasi altra retta”.

minima distanza tra punti osservati di GY , e corrispondenti punti sulla retta.

... IL CRITERIO DEI MINIMI QUADRATI

Page 30: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

La retta dei minimi quadrati rende minima la distanza tra ogni puntoosservato di GY, sullo scatter plot, e il corrispondente punto , sullaretta dei minimi quadrati. Formalmente il criterio dei minimi quadrati siesprime come:

Il metodo dei minimi quadrati permette di determinare le due quantità,m e q, fornendo così le stime dei coefficienti di regressione.Stimare i due coefficienti di regressione è di fondamentale importanza,sia dal punto di vista geometrico, che da quello statistico.Dal punto di vista più strettamente statistico, q rappresenta il valoreatteso di GY , , in corrispondenza di un valore osservato diGX ; m esprime l’intensità (col suo valore numerico) e la direzione (colsuo segno) della relazione tra GX e GY .

2 2

1 1

ˆ minimon n

j j jj j

y y y m x q

... IL CRITERIO DEI MINIMI QUADRATI

Page 31: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

La retta dei minimi quadrati rende minima la distanza tra ogni puntoosservato di GY, sullo scatter plot, e il corrispondente punto , sullaretta dei minimi quadrati. Formalmente il criterio dei minimi quadrati siesprime come:

Il metodo dei minimi quadrati permette di determinare le due quantità,m e q, fornendo così le stime dei coefficienti di regressione.Stimare i due coefficienti di regressione è di fondamentale importanza,sia dal punto di vista geometrico, che da quello statistico.Dal punto di vista più strettamente statistico, q rappresenta il valoreatteso di GY , , in corrispondenza di un valore osservato diGX ; m esprime l’intensità (col suo valore numerico) e la direzione (colsuo segno) della relazione tra GX e GY .

2 2

1 1

ˆ minimon n

j j jj j

y y y m x q

... IL CRITERIO DEI MINIMI QUADRATI

Page 32: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

I valori da assegnare a m e q si determinano risolvendo il sistema di dueequazioni in due incognite che si ottiene sviluppando il quadrato entrole parentesi dell’espressione

e derivando le quantità rispetto ai due coefficienti da stimare.

22

1

n

j jj

S y m x q

... IL CRITERIO DEI MINIMI QUADRATI

Page 33: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Il sistema, nelle incognite m e q, ammette una e una sola soluzione.La soluzione del sistema fornisce m e q .

2

1

2

1

1 1

2

1 1 1

2 0

2 0

n

j jj

n

j j jj

n n

j jj j

n n n

j j j jj j j

Sy m x q

q

Sy m x q x

m

y m x n q

x y m x q x

22

1

rendere

minimo

n

j jj

S y m x q

... IL CRITERIO DEI MINIMI QUADRATI

Page 34: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

1 1 1

2

2

1 11 1

2 2

1 1 1 1 1 1 1

2

2

1 1

n n n

j j j jj j j

n nn n

j jj jj jj j

n n n n n n n

j j j j j j j j jj j j j j j j

n n

j jj j

n x y x y

m

n x xy m x n q

x y m x q x y x x x y

q

n x x

Il sistema, nelle incognite m e q, ammette una e una sola soluzione.La soluzione del sistema fornisce m e q .

... IL CRITERIO DEI MINIMI QUADRATI

Page 35: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

1

2 2

1 1 1

2 2

1 1 1 1 1

2 2

1

( )

( )

n

j jj

n n n

j j jj j j

n n n n n

j j j j j j jj j j j j

n

jj

x y n x y

my m x n q x n x

x y m x q x y x x x y

qx n x

1 1

1 1;

N N

j jj j

x x y yN N

si ottiene:Ponendo

... IL CRITERIO DEI MINIMI QUADRATI

Page 36: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

1

1 1 2 22

21

1 1 1

Nn n

j jj j j xy xy

j j Nx xn n n

jij j j j

j j j

x x y yy m x n q s

msx x

x y m x q x

q y m x

y m x q

1 1

1 1;

N N

j jj j

x x y yN N

Alternativamente, molti software (tipo Excel), usano la soluzione:

Importante osservare che:

... IL CRITERIO DEI MINIMI QUADRATI

Page 37: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Incertezza sulla stima di yOgni misura yj è distribuita attorno al suo valore verosecondo una distribuzione gaussiana (ipotesi) con σy parametro chene rappresenta la dispersione. Pertanto, anche gli scarti sonodistribuiti attorno a zero con la stessa larghezza σy . Una buona stimadi σy è quindi:

Ovviamente, avendo utilizzato le costanti m e q ottenute dai datisperimentali, il valore di σy si ottiene dividendo per n − 2 (i gradi dilibertà del sistema).

MINIMI QUADRATI:QUALI SONO LE INCERTEZZE SULLE STIME?

22

1 1

1 1ˆ

2 2

n n

y i i j jj j

y m x q y yn n

Page 38: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Alcune considerazioni sul significato di σy

Rappresenta la distanza media dei punti dalla retta diinterpolazione. Se σy è circa uguale all’incertezza attesa uy , idati sono consistenti con la relazione lineare stabilita seinvece σy è molto più grande di uy ci sono motivi perdubitare della relazione lineare da cui dovrebbero esserelegate le variabili x e y .

... MINIMI QUADRATI:QUALI SONO LE INCERTEZZE SULLE STIME?

Page 39: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Incertezze sulle costanti m e qLe costanti m e q ricavate sono state ricavate dai dati sperimentali equindi le incertezze su m e q sono date dalla propagazione degli errori intermini di σy

I risultati qui ottenuti derivano dall’ipotesi che le misure di y abbianotutte la stessa incertezza σy e che le incertezze delle misure di x sianotrascurabili.Se non si verificano queste ipotesi, ad esempio le incertezze sulle misuredi y non sono tutte uguali, il metodo dei minimi quadrati si deveimplementare in modo differente.

... MINIMI QUADRATI:QUALI SONO LE INCERTEZZE SULLE STIME?

2

1

2 2

2 2

1 1 1 1

;

n

jj

m qn n n n

j j j jj j j j

xn

n x x n x x

Page 40: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Ricavi o parametri m e q è possibile costruire la retta che "meglio" approssima lanuvola dei punti dello Scatter plot. Si possono determinare le seguenti varianze:

VARIANZE DEL MODELLO

2

2

2

2

1

22

2

1

2

1

2

ˆ

1

1

ˆ

ˆ

1

1

1

1

Varianza regr

V

Varianza dei res

n

i

arianza tot

s

ess :

du

ale

s

i:

io e

:

s y

n

regre

e

ssione j

n

total

n

residui j

jj

j

j

j

y

y yn

yn

y yn

y

Page 41: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

... IL COEFFICIENTE DI DETERMINAZIONE R2

Per valutare la bontà del modello si introduce il coefficiente dideterminazione R² rapporto tra la varianza della regressione e lavarianza totale della variabile dipendente ( ):

R² misura la frazione di varianza (o di devianza) della grandezza GYspiegata dal modello ricavato tramite regressione lineare.R² si può anche scrivere come:

2

212

2 2

1

ˆn

jregressione j

ntotale

jj

y y

Ry y

2 2 2 22

2 2 21regressione totale residui residui

totale totale totale

R

Page 42: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

... IL COEFFICIENTE DI DETERMINAZIONE R2

R² assume valori compresi tra 0 e 1.

Vale 1 quando il modello spiega completamente la varianza della y:i residui sono tutti nulli, cioè i punti sono perfettamente allineati.

Vale 0 quando la varianza descritta dal modello è nulla. Questoaccade quando la retta di regressione risulta parallela all’asse x,cioè:

2

1

ˆ ˆ 0n

j jj

y y y y

Page 43: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

... IL COEFFICIENTE DI DETERMINAZIONE R2

Per calcolare R² è necessario calcolare tutti gli 𝑗 stimati per ogni yj

osservato, e tutti gli scarti tra i valori stimati 𝑗 e .

2 2

2 21 12

2 22 2

1 1

ˆ ˆ

1 1

n n

j j jregressione j jresidui

n ntotale totale

j jj j

y y y y

Ry y y y

Page 44: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

REGRESSIONE LINEARE SEMPLICE EXCEL

Page 45: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

IL COEFFICIENTE DI DETERMINAZIONE R2

Il coefficiente di determinazione R² (solo per il modello lineare diprimo grado cioè per la retta di regressione) è uguale al quadrato delcoefficiente di correlazione r²

Quindi il quadrato del coefficiente di correlazione ci fornisce lafrazione di varianza spiegata dal modello di regressione, senzanecessità di calcolare i residui e nemmeno i valori 𝑗 stimati.

22

2 12 2

2 2

1 1

N

i ixy xy i

N Nx y x y

i ii i

x x y yr r

x x y y

y

Page 46: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

2 2

21 12

2 2 2

1 1

2222 22 2

1 2 22 2 2 2 22

1

2

ˆ

( )

n n

j jj j

n n

j jj j

n

jj xy xy xyx x

ny x y x y x y

jj

xy

x

y

y

m

y m x qm x q y m x q m x q

Ry y y y

m x x

m ry y

Dimostrazione R2 = r2

Page 47: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

… ANALISI DELLA DIPENDENZAAPPLICABILITÀ DI UN MODELLO (LINEARE)

Quando R² è basso significa che il modello lineare non riesce adescrivere adeguatamente il fenomeno, non si adatta bene ai dati, equindi anche le nostre previsioni saranno poco affidabili.

Quando R² è elevato, molto prossimo a 1, il modello lineare descrivebene i dati empirici. La capacità descrittiva del modello è dunquebuona, almeno relativamente ai dati osservati.

Page 48: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

MINIMI QUADRATI PESATI

I risultati ottenuti in precedenza derivano dall’ipotesi che le misureeffettuate sulla grandezza GY abbiano tutte la stessa incertezza uy = σy

e che le incertezze delle misure sulla grandezza GX siano trascurabili.

Facciamo adesso l'ipotesi che le le incertezze non siano tutteuguali. In questo caso si ricorrere al metodo dei minimi quadratipesati.

2

22

1j

nj j

j y

y m x qS

u

In questo caso, la quantità da minimizzare diventa:

Rimane valida l'ipotesi che le incertezze sulle misurazioni della grandezza GX siano molto più precise e accurate della "migliore" misurazione eseguita sulla grandezza GY.

Page 49: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

2

22

1

( )

j

nj j

j y

y m x qS

u

Attenzione:il valore di DEVE essere sperimentale non ricavato come varianza sperimentale 22

1

1( )

2

n

y j jj

s y m x qn

NO !

Incertezza al quadrato della misurazione yj

Parametri ricavati dalla regressione

... MINIMI QUADRATI PESATI

Page 50: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Anche in questo caso il sistema, nelle incognite m e q, ammette una euna sola soluzione.

2

1

2

1

2 0

2 0

n

j j j jj

n

j j jj

Sw y m x q x

m

Sw y m x q

q

2

2

222

1 1

1j

j

yn n

j j

j j jj jy

jwu

y m x qS w y m x q

u

... MINIMI QUADRATI PESATI

Page 51: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

La soluzione del sistema

1 1 1 1

22

1 1 1

2

1 1 1 1

22

1 1 1

n n n n

j j j j j j j jj j j j

n n n

j j j j jj j j

n n n n

j j j j j j j j jj j j j

n n n

j j j j jj j j

w w x y w x w y

mw w x w x

w x w y w x w x y

qw w x w x

... MINIMI QUADRATI PESATI

2

1con

j

jy

wu

2

1

2

1

2 0

2 0

n

j j j jj

n

j j jj

Sw y m x q x

m

Sw y m x q

q

Page 52: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

La soluzione alternativadel sistema

1

2

1

n

j j w j wj

n

j j wj

w w

w x x y y

mw x x

q y m x

... MINIMI QUADRATI PESATI

1

1

1

1

con

n

j jj

w n

jj

n

j jj

n

jj

w

w x

xw

w y

yw

2

1

2

1

2 0

2 0

n

j j j jj

n

j j jj

Sw y m x q x

m

Sw y m x q

q

Page 53: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Le incertezze,sui parametri ricavati,

sono:

1

22

1 1 1

2

1

22

1 1 1

n

jy j

m n n n

j j j j jj j j

n

j jy j

q n n n

j j j j jj j j

w

n w w x w x

w x

n w w x w x

... MINIMI QUADRATI PESATI

2

1

2

1

2 0

2 0

n

j j j jj

n

j j jj

Sw y m x q x

m

Sw y m x q

q

Page 54: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

ln ; ; ln

exp

v y a A b B

y B A x v a x b

Se abbiamo a che fare con due grandezze x e y legate tra di loro da unarelazione di tipo non lineare, tale relazione può in molti casi esserefacilmente linearizzata mediante semplici cambiamenti di variabili.Alcuni esempi:

La conversione da non lineare a lineare è spesso di utilità non solo perpoter applicare l’adattamento coi minimi quadrati ma anche per verificarefacilmente per via grafica la relazione fra le due grandezze fisiche.

;h

h

h v x y u

y A B x u A B v

costante;

... MINIMI QUADRATI PESATI

Page 55: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

exp( ) ln ln

j

j j

j yv y

y B x v y x B

udvu u

dy y

Alla funzione linearizzata si può applicare la regressione lineare.Attenzione: volendo essere rigorosi, bisogna considerare che lalinearizzazione modifica le incertezze. Per chiarire meglio il concetto,facciamo un esempio.Vogliamo linearizzare ad esempio la funzione tramitel'uso dei logaritmi, è da tener presente che se i valori misurati sonotutti ugualmente incerti, i valori u =ln(y ) non lo sono. Infatti:

... MINIMI QUADRATI PESATI

Page 56: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

NOTA IMPORTANTE:

Excel non implementa il metodo dei minimi quadrati pesati.A breve verrà caricata sul sito una scheda Excel che implementa i minimi quadrati pesati.Tale scheda implementerà anche il confronto con i minimi quadrati "semplici".

Page 57: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

57

Comunque, se le misurazioni sono distribuite "normalmente" attornoai valori attesi μxj e μyj con deviazione standard σxj e

σyj , la probabilità che si realizzi il risultato sperimentaletrovato, nell'ipotesi dell'indipendenza delle singole determinazioni( xj , yj ), è pari a:

2 2

2 21

2

1

1 1exp exp

2 22 2

1 1exp

22j

j j

j jj j

j

n j j

j

n n

yj

x y

x yx y

x

x yP

MINIMI QUADRATI: INCERTEZZA SU x E y

Page 58: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

58

Con

2 2

2 22

2 21 1

i i

j j j j

j

n nj i

j jj jj

x xx x y x

yx

x yS w x w y

2 2 2 2

1 1 1 1j j

j j j j

yy y

xx x

w wu u

e

2 2

2 21

2

1

1 1exp exp

2 22 2

1 1exp

22j

j j

j jj j

j

n j j

j

n n

yj

x y

x yx y

x

x yP

... MINIMI QUADRATI: INCERTEZZA SU x E y

Page 59: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

59

2

1

1 1exp

22j j

n n

yj

x

P

è massima quando

2 22

1i j j j

n

j jj

x x y xS w x w y

è minima

In questo caso, rendere minimo il parametro S 2, generalmente,richiede calcoli complessi e spesso realizzabili soltanto tramite codicidi calcolo numerici. Pertanto, per evitare questa procedura, quando èpossibile, si effettua una delle due misurazione con accuratezza eprecisione molto maggiore dell'altra.

... MINIMI QUADRATI: INCERTEZZA SU x E y

Page 60: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

La Regressione lineare multipla rappresenta una estensione delmodello di regressione semplice.

Questa tecnica è utilizzata per studiare le variazioni di una variabiledipendente, in funzione di più variabili indipendenti.

L’obiettivo è costruire un modello che approssimi i dati meglio delmodello di regressione lineare semplice.

REGRESSIONE LINEARE MULTIPLA

Page 61: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Y

2X

1X

La regressione lineare semplice parte dauna variabile indipendente, “x” perottenere:

0 1 1 2 2 ... n ny x x x

La regressione lineare multipla parte da più variabileindipendente, “x1, x2, …, xn” per ottenere:

y m x b Regressione lineare multiplacon due variabile indipendente,“x1, x2”.La linea diventa un piano.

… REGRESSIONE LINEARE MULTIPLA

0 1 1 2 2y x x

Page 62: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Consideriamo un esperimento nel quale siano state acquisite n coppie divalori ( xj , yj ) di due grandezze fisiche GX e GY tra le quali si ipotizza cheesista una relazione funzionale:

Y = f ( X | Λ ) (il modello rappresentativo dei dati)La funzione f, oltre che dalla grandezza X, dipenderà da un certo numero diparametri Λ : {λk} ; ad esempio, se la relazione funzionale è lineare avremo f ( X | λ1 , λ2 ) = λ1 X + λ2

quadratica avremo f ( X | λ1 , λ2 , λ3 ) = λ1 X 2 + λ2 X + λ3

esponenziale avremo f ( X | λ1 , λ2 ) = λ1 exp ( λ2⸱X )

ecc.

REGRESSIONE NON LINEARE

Page 63: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

somma S 2 degli scarti quadrati tra il valore sperimentale e quelloprevisto dal modello (il valore atteso) diviso per la varianza di yj ( ).

63

La stima migliore dei parametri incogniti è quella che minimizza lagrandezza:

2

22

1

( |

j

Nj j

j y

y f xS

u

... REGRESSIONE NON LINEARE

Page 64: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

64

2

1

2

2

2

0

0

0K

S

S

S

Per ottenere la stima dei parametri Λ si deve trovareil minimo dell'espressione S 2 vista come funzionedei parametri. Ovvero, bisogna risolvere il sistema:

K rappresenta il numero dei parametri dadeterminare.In generali, con Λ0 si indica la soluzione del sistema(i parametri determinati) Λ0 = {λ1o , λ2o , … , λPo} .

... REGRESSIONE NON LINEARE

2

22

1

( |

j

Nj j

j y

y f xS

u

Page 65: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Regressione tramite minimi quadrati tradati sperimentali e polinomio di 5 grado.

... REGRESSIONE NON LINEARE

Page 66: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

REGRESSIONE LINEARE SEMPLICE EXCEL

Page 67: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

VERIFICA DELLA BONTÀ DEL MODELLO

Una volta stimati i parametri del modello, vogliamo sapere in chemisura il modello si adatta ai dati.Nel seguito considereremo cinque "misure" di adattamento(goodness of fit) del modello ai dati:

il Residual Standard Error (RSE) (σy );il coefficiente di determinazione (R2);analisi dei residui;il chi-quadro (2)il t-testF-test

.

Page 68: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

VERIFICA DELLA BONTÀ DEL MODELLORESIDUAL STANDARD ERROR (RSE)

La stima di è detta Residual Standard Error (RSE), e

"misura" la distanza media tra i valori stimati e quelli osservati.RSE può essere interpretato come una stima di quanto i valori dellagrandezza GY si discostano, in media, dal vero (ed ignoto) determinatotramite regressione.Più piccolo è RSE, migliore è l'adattamento del modello ricavato dallaregressione ai dati.RSE è una misura assoluta della bontà di adattamento; dipendedall'ordine di grandezza dei valori della grandezza GY .Per questo motivo è difficile stabilire se il valore osservato per RSE indichi un adattamento accettabile ai dati.

Page 69: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

VERIFICA DELLA BONTÀ DEL MODELLOCOEFFICIENTE DI DETERMINAZIONE R2

Il coefficiente di determinazione R2, esprime la dispersione dei dati intorno allaregressione lineare.R2, apparentemente, è uno stimatore idoneo a valutare la bontà del modello diregressione.Se R2 è vicino (molto vicino ) a 1, la regressione lineare fornisce un buon modello.

Page 70: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Più la retta stimata passa "vicino" ai dati osservati, più elevato è R2 .

... VERIFICA DELLA BONTÀ DEL MODELLOCOEFFICIENTE DI DETERMINAZIONE R2

Page 71: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Se R2 è vicino (molto vicino ) a 1, la regressione lineare fornisce unbuon modello.Sempre vero? No!Spesso, il solo calcolo del coefficiente di correlazione può trarre ininganno; è sempre opportuno osservare bene, prima il diagramma didispersione. Spesso, infatti, un valore di R2 elevato può nascondere lapresenza di dati anomali, oppure la presenza di una relazione nonlineare (ad esempio parabolica) oppure la presenza, nei dati, di due opiù sottogruppi nei quali la tendenza dei dati è in direzione oppostama che, una volta aggregati, creano una relazione spuria opposta aquella “realmente” calcolata.

... VERIFICA DELLA BONTÀ DEL MODELLOCOEFFICIENTE DI DETERMINAZIONE R2

Page 72: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Presenza dato anomalo: basso R2 ma "ottimo" andamento lineare.

... VERIFICA DELLA BONTÀ DEL MODELLOCOEFFICIENTE DI DETERMINAZIONE R2

Page 73: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Un altro metodo, per la verifica della bontà del modello dellaregressione, è quello dell'analisi dei residui, ovvero della distribuzionedelle differenza (scarti-residui) tra i valori effettivi dei punti x-y e quellideterminati dalla retta di regressione. I valori dei residui vengonostandardizzati-normalizzati in maniera tale da variare attorno allo zeroed assumere valori corrispondenti a probabilità di Z normalestandardizzata. Pertanto valori di residui pari o superiori a ±2, quindicorrispondenti a probabilità molto basse (inferiori al 5%), devonoessere presenti in numero molto limitato.

VERIFICA DELLA BONTÀ DEL MODELLOANALISI DEI RESIDUI

Page 74: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

In un buon modello diregressione i valori deiresidui si collocano inuna fascia ristrettaattorno ai valorideterminati dalla retta diregressione, i residui sidistribuiscono inoltre conuna distribuzionenormale gaussianasimmetrica attorno aivalori della retta diregressione.

... VERIFICA DELLA BONTÀ DEL MODELLOANALISI DEI RESIDUI

Page 75: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Modello buono: residui in una fascia ristretta ed uniforme

... VERIFICA DELLA BONTÀ DEL MODELLOANALISI DEI RESIDUI

valo

ri de

i res

idui

stan

dard

izza

ti

valori della retta di regressione previsti

Page 76: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

In un modello non buono ivalori dei residuistandardizzati spaziano inuna fascia molto ampliacon molti casi cheeccedono i valori ±2.

valo

ri de

i res

idui

sta

ndar

dizz

ati

valori della retta di regressione previsti

... VERIFICA DELLA BONTÀ DEL MODELLOANALISI DEI RESIDUI

Page 77: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

In un modello non buono di regressione i valori dei residuistandardizzati risentono di una tendenza ad aumentare, diminuire ovariare in funzione dei valori della y prevista dalla regressione (equindi anche della avariabile x).

valo

ri de

i res

idui

stan

dard

izza

ti

valori della retta di regressione previsti

... VERIFICA DELLA BONTÀ DEL MODELLOANALISI DEI RESIDUI

Page 78: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Modello non buono: residui in una fascia troppo ampiae con netta tendenza

... VERIFICA DELLA BONTÀ DEL MODELLOANALISI DEI RESIDUI

valo

ri de

i res

idui

stan

dard

izza

ti

valori della retta di regressione previsti

Page 79: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

Modello non buono: residui con netta tendenza

... VERIFICA DELLA BONTÀ DEL MODELLOANALISI DEI RESIDUI

valo

ri de

i res

idui

stan

dard

izza

ti

valori della retta di regressione previsti

Page 80: Approfondimento - Regressione lineare - Regressione... · ¾Z v Ì ] } v u o ] ( ] o o o U À ] À ] v u } } K^dZh /KE >DK >>K

VERIFICA DELLA BONTÀ DEL MODELLO

Una volta stimati i parametri del modello, vogliamo sapere in chemisura il modello si adatta ai dati.Nel seguito considereremo cinque "misure" di adattamento(goodness of fit) del modello ai dati:

il Residual Standard Error (RSE) (σy );il coefficiente di determinazione (R2);analisi dei residui;il chi-quadro (2)il t-testF-test

.

verranno spiegati nella prossima lezione di approfondimento