Relazioni statistiche: regressione e...

9
Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica o fra due Mutabili statistiche. È di notevole interesse perché permette di individuare legami fra fenomeni diversi. Tale e può essere effettuato sia sull’intera popolazione statistica, sia su un campione estratto da essa. Esistono metodi diversi per la ricerca della connessione secondo che si vogliano esaminare i legami fra due variabili, oppure fra due mutabili, oppure fra una variabile e una mutabile. In statistica è più importante lo studio della connessione fra due variabili, studio che si può effettuare o ricercando se una variabile è dipendente dall’altra, oppure se si influenzano reciprocamente. Funzione di Regressione E’ la funzione che esprime il legame di dipendenza dì una variabile dall’altra è molto utile perché permette di valutare, entro i limiti dell’intervallo dei dati rilevati, il valore della variabile dipendente al variare della variabile indipendente. Ad esempio, se di un bene, non di prima necessità, sì sono rilevate, al variare del prezzo, le relative quantità domandate, si può determinare, mediante il metodo dei minimi quadrati, la funzione della domanda che esprime il legame fra il prezzo e la quantità domandata dai consumatori e quindi il produttore ha la possibilità di prevedere, per un prezzo prefissato, la corrispondente quantità di bene domandata. La funzione più utilizzata, soprattutto se i dati rilevati sono numerosi, è la funzione lineare; sì parla allora di regressione lineare. Se invece fra le due variabili non esiste un legame di dipendenza di una variabile dall’altra si possono verificare i seguenti casi: esse possono influenzarsi reciprocamente, cioè esiste fra loro una correlazione. possono essere entrambe dipendenti da un’altra grandezza possono essere indipendenti. Il confronto fra due variabili si effettua solo se fra esse esiste un legame logico, perché la meccanica applicazione delle diverse tecniche può portare a risultati assurdi. Correlazione fra due variabili La correlazione si misura mediante indici ed esprime la «forza», o «intensità», del loro legame. Fra i vari indici introdotti il più importante e il più utile è il coefficiente di correlazione lineare. Talvolta l’analisi della correlazione precede lo studio della regressione, in quanto una variabile viene confrontata con varie altre per vedere quelle più connesse fra loro. Correlazione fra due mutabili o fra una variabile e una mutabile Il loro grado di correlazione è dato da alcuni indici di cui il più importante è quello di Pearson.

Transcript of Relazioni statistiche: regressione e...

Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica o fra due Mutabili statistiche. È di notevole interesse perché permette di individuare legami fra fenomeni diversi. Tale e può essere effettuato sia sull’intera popolazione statistica, sia su un campione estratto da essa.

Esistono metodi diversi per la ricerca della connessione secondo che si vogliano esaminare i legami fra due variabili, oppure fra due mutabili, oppure fra una variabile e una mutabile.

In statistica è più importante lo studio della connessione fra due variabili, studio che si può effettuare o ricercando se una variabile è dipendente dall’altra, oppure se si influenzano reciprocamente.

Funzione di Regressione E’ la funzione che esprime il legame di dipendenza dì una variabile dall’altra è molto utile perché permette di valutare, entro i limiti dell’intervallo dei dati rilevati, il valore della variabile dipendente al variare della variabile indipendente. Ad esempio, se di un bene, non di prima necessità, sì sono rilevate, al variare del prezzo, le relative quantità domandate, si può determinare, mediante il metodo dei minimi quadrati, la funzione della domanda che esprime il legame fra il prezzo e la quantità domandata dai consumatori e quindi il produttore ha la possibilità di prevedere, per un prezzo prefissato, la corrispondente quantità di bene domandata.

La funzione più utilizzata, soprattutto se i dati rilevati sono numerosi, è la funzione lineare; sì parla allora di regressione lineare.

Se invece fra le due variabili non esiste un legame di dipendenza di una variabile dall’altra si possono verificare i seguenti casi:

• esse possono influenzarsi reciprocamente, cioè esiste fra loro una correlazione. • possono essere entrambe dipendenti da un’altra grandezza • possono essere indipendenti.

Il confronto fra due variabili si effettua solo se fra esse esiste un legame logico, perché la meccanica applicazione delle diverse tecniche può portare a risultati assurdi.

Correlazione fra due variabili La correlazione si misura mediante indici ed esprime la «forza», o «intensità», del loro legame. Fra i vari indici introdotti il più importante e il più utile è il coefficiente di correlazione lineare. Talvolta l’analisi della correlazione precede lo studio della regressione, in quanto una variabile viene confrontata con varie altre per vedere quelle più connesse fra loro.

Correlazione fra due mutabili o fra una variabile e una mutabile Il loro grado di correlazione è dato da alcuni indici di cui il più importante è quello di Pearson.

Regressione lineare Siano X e Y due variabili statistiche (oppure, come si preferisce dire, sia data una variabile statistica doppia di cui X e Y sono le componenti), consideriamo le coppie (xi, yi) dei valori associati; se il numero delle coppie non è grande, si usa una Tabella a semplice entrata, altrimenti una Tabella a doppia entrata.

Per prima cosa occorre fare una rappresentazione grafica mediante un diagramma, che rappresenta le coppie dei valori rilevati (xi, yi); si ottiene così un diagramma a dispersione.

Sia Y la variabile dipendente e X la variabile indipendente. Se esiste una relazione lineare, i punti si distribuiscono vicino a una retta, come nei primi due schemi qui riportati di diagrammi a dispersione; se invece i punti sono molto dispersi, come nel terzo schema, non esiste alcuna relazione.

Retta di regressione di Y rispetto a X Si ottiene applicando il Metodo dei minimi quadrati:

Il coefficiente di regressione b1 indica di quanto varia laY al variare di una unità di X e se Y è crescente o decrescente. Se, per esempio, b1 valesse 10, al crescere di una unità di X, la Y crescerebbe di 10 unità, mentre se b1 valesse 0,5, al crescere di una unità di X, la Y crescerebbe di mezza unità.

Retta di regressione di X rispetto a Y Si può anche determinare, se ha senso logico, la retta di regressione di X rispetto a Y, che ha equazione (ottenuta dalla precedente scambiando X con Y):

Le rette di regressione possono anche essere scritte nel modo seguente, sostituendo ad a1 e a2 le loro espressioni:

da cui si deduce che entrambe passano per il punto ( ( )yx; baricentro della distribuzione, le cui coordinate sono le medie aritmetiche, rispettivamente dei valori di X e dei valori di Y.

Le due rette di regressione coincidono quando tutti i punti del diagramma a dispersione appartengono a una retta, invece quanto maggiore è la dispersione, tanto maggiore è l’angolo formato dalle due rette.

Caso estremo si ha quando b1 = b2 = 0; le rette, allora, hanno equazione yy = e xx = e sono, quindi, parallele agli assi cartesiani.

È però importante notare che la condizione b1 = b2 = 0, in generale, non indica che le due variabili X e Y sono indipendenti, ma piuttosto indica che non esiste regressione lineare, ossia che le due variabili non sono linearmente dipendenti, potrebbero però essere legate da una relazione di tipo parabolico, o di tipo esponenziale ecc. (Vedi esempi 1,2,3).

Correlazione fra due variabili L’analisi della correlazione fra due variabili conduce a misurare la forza, o l’intensità, del legame fra le due variabili. Si misura mediante l’indice di Bravais-Pearson detto “Indice di correlazione lineare”

Tale indice può essere espresso mediante la covarianza fra X ed Y (varianza congiunta) la varianza di X e la varianza di y. Sostituendo si ottiene:

Se tutti i punti giacciono su una retta parallela all’asse delle ascisse, o parallela all’asse delle ordinate l’indice r assume la forma indeterminata 0/0 perché si annullano numeratore e denominatore.

Relazione fra r e i coefficienti angolari delle rette di regressione b1 e b2

Questa relazione ci permette di dimostrare facilmente che se le due rette di regressione coincidono il coefficiente r vale + 1 oppure meno – 1. Infatti in tal caso risulta 12 /1 bb =

Varianza spiegata e Varianza non spiegata

Elevando a quadrato e sommando, per gli n punti si ottiene:

Poiché si dimostra sostituendo che l’ultima sommatoria è nulla

= Varianza attribuibile alla relazione che sussiste fra X ed Y. Viene detta Varianza spiegata. E’ calcolata come differenza dalla retta di regressione dal valore medio.

= E’ detta varianza non spiegata in quanto non è imputabile alla relazione fra X ed Y ma ad altri fattori.

Coefficiente di determinazione

Esempio

Esempio

Esempio Calcolare il coefficiente di correlazione lineare fra le variabili X e Y della Tabella dell’esercizio 3 .