ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE:...

81
ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1 / 36

Transcript of ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE:...

Page 1: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

ESPLORAZIONE DEI DATI CON SINTESINUMERICHE: RELAZIONI TRA VARIABILI

1 / 36

Page 2: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.

Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

2 / 36

Page 3: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.

Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

2 / 36

Page 4: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.

Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

2 / 36

Page 5: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

2 / 36

Page 6: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra

qualitativa.

3 / 36

Page 7: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche

• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra

qualitativa.

3 / 36

Page 8: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative

• i casi in cui una variabile sia categorica e l’altraqualitativa.

3 / 36

Page 9: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra

qualitativa.

3 / 36

Page 10: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili: variabile risposta evariabile esplicativa

Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente).

Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

La variabile esplicativa:

a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

4 / 36

Page 11: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili: variabile risposta evariabile esplicativa

Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

La variabile esplicativa:

a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

4 / 36

Page 12: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili: variabile risposta evariabile esplicativa

Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

La variabile esplicativa:

a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

4 / 36

Page 13: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili: variabile risposta evariabile esplicativa

Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

La variabile esplicativa:

a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

4 / 36

Page 14: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili: variabile risposta evariabile esplicativa

Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

La variabile esplicativa:

a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

4 / 36

Page 15: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili categoriche

Per confrontare due variabili categoriche si consideranodelle tabelle di frequenza a doppia entrata dette tabelle dicontingenza.

Una tabella di contingenza è una forma di sintesi usata pervisualizzare simultaneamente due variabil categoriche. Lesue righe elencano le categorie di una delle due variabili,mentre le sue colonne elencano le categorie dell’altra. Ognicella della tabella contiene il numero di osservazioni che,nel campione, sono da riferirsi a una determinata combi-nazione di categorie delle due variabili qualitative.

5 / 36

Page 16: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili categoriche

Per confrontare due variabili categoriche si consideranodelle tabelle di frequenza a doppia entrata dette tabelle dicontingenza.Una tabella di contingenza è una forma di sintesi usata pervisualizzare simultaneamente due variabil categoriche. Lesue righe elencano le categorie di una delle due variabili,mentre le sue colonne elencano le categorie dell’altra. Ognicella della tabella contiene il numero di osservazioni che,nel campione, sono da riferirsi a una determinata combi-nazione di categorie delle due variabili qualitative.

5 / 36

Page 17: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza

YX y1 y2 · · · yj · · · yk Totale rigax1 n11 n12 · · · n1j · · · n1k ∑

kj=1 n1j

x2 n21 n22 · · · n2j · · · n2k ∑kj=1 n2j

......

... · · ·... · · ·

...xi ni1 ni2 · · · nij · · · nik ∑

kj=1 nij

......

... · · ·... · · ·

...xr nr1 nr2 · · · nrj · · · nrk ∑

kj=1 nrj

Totale col ∑ri=1 ni1 ∑

ri=1 ni2 ∑

ri=1 nij ∑

ri=1 nik n

6 / 36

Page 18: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza

PesticidiTipo agricoltura Si No Totale riga

Biologica 29 98 127Tradizionale 19485 7086 26571Totale col 19514 7184 26698

7 / 36

Page 19: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: proporzionicondizionate

PesticidiTipo agricoltura Si No Totale prop. Totale riga

Biologica 0.23 0.77 1 127Tradizionale 0.73 0.27 1 26571

Calcolo le proporzioni per riga, ad esempio nella prima cella abbiamo29/127 = 0.23.Questo ci permette di confrontare le proporzioni di Pesticidi usati neidue tipi di agricoltura. Siccome consideriamo un tipo di agricoltura pervolta nel calcolo della proporzione si parla di proporzione condizionataper riga.

8 / 36

Page 20: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: proporzionicondizionate

Per confrontare le proporzioni condizionate si usa un diagramma abarre particolare, detto a barre accostate.

9 / 36

Page 21: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: proporzionicondizionate

Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.

Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.

10 / 36

Page 22: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: proporzionicondizionate

Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.

Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.

10 / 36

Page 23: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: proporzionicondizionate

Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.

10 / 36

Page 24: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: proporzionicondizionate per colonna

Vediamo come sarebbe la tabella se decidessimo di fis-sare le colonne.

PesticidiTipo agricoltura Si No

Biologica 0.0015 0.014Tradizionale 0.9985 0.986Totale prop. 1 1

Totale colonna 19514 7184

11 / 36

Page 25: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: indipendenza

Se la percentuale condizionata si presenta in modo marcata-mente diverso tra righe (se stiamo condizionando per riga) ocolonne (se stiamo condizionando per colonna), individuiamoun’associazione tra variabili categoriche.

Se la percentuale condizionata è molto simile tra righe (se sti-amo condizionando per riga) o colonne (se stiamo condizio-nando per colonna), individuiamo una situazione di indipendenza.

Esempio Se ipotizzassimo l’indipendenza la tabella delle pro-porzioni condizionate potrebbe essere del tipo:

PesticidiTipo agricoltura Si No Totale prop. Totale riga

Biologica 0.40 0.60 1 127Tradizionale 0.40 0.60 1 26571

12 / 36

Page 26: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: indipendenza

Se la percentuale condizionata si presenta in modo marcata-mente diverso tra righe (se stiamo condizionando per riga) ocolonne (se stiamo condizionando per colonna), individuiamoun’associazione tra variabili categoriche.

Se la percentuale condizionata è molto simile tra righe (se sti-amo condizionando per riga) o colonne (se stiamo condizio-nando per colonna), individuiamo una situazione di indipendenza.

Esempio Se ipotizzassimo l’indipendenza la tabella delle pro-porzioni condizionate potrebbe essere del tipo:

PesticidiTipo agricoltura Si No Totale prop. Totale riga

Biologica 0.40 0.60 1 127Tradizionale 0.40 0.60 1 26571

12 / 36

Page 27: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: indipendenza

Se la percentuale condizionata si presenta in modo marcata-mente diverso tra righe (se stiamo condizionando per riga) ocolonne (se stiamo condizionando per colonna), individuiamoun’associazione tra variabili categoriche.

Se la percentuale condizionata è molto simile tra righe (se sti-amo condizionando per riga) o colonne (se stiamo condizio-nando per colonna), individuiamo una situazione di indipendenza.

Esempio Se ipotizzassimo l’indipendenza la tabella delle pro-porzioni condizionate potrebbe essere del tipo:

PesticidiTipo agricoltura Si No Totale prop. Totale riga

Biologica 0.40 0.60 1 127Tradizionale 0.40 0.60 1 26571

12 / 36

Page 28: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Tabella di contingenza: indipendenzaGrafico a barre accostate nel caso in cui si ipotizzi indipendenza trauso di pesticidi e tipo di agricoltura.

13 / 36

Page 29: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: graficodi dispersione

Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.

In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.

Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.

14 / 36

Page 30: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: graficodi dispersione

Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.

In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.

Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.

14 / 36

Page 31: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: graficodi dispersione

Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.

In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.

Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.

14 / 36

Page 32: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: graficodi dispersione

Supponiamo di voler disegnare il grafico di dispersione relativoalla relazione che lega il volume e il diametro del tronco di undataset di 31 alberi di ciliegio. Scegliamo di spiegare il volumein base al diametro.

15 / 36

Page 33: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:positiva e negativa

Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

non sono associate se lo scatterplot non evidenzianessun andamento particolare.

Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.

16 / 36

Page 34: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:positiva e negativa

Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

non sono associate se lo scatterplot non evidenzianessun andamento particolare.

Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.

16 / 36

Page 35: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:positiva e negativa

Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

non sono associate se lo scatterplot non evidenzianessun andamento particolare.

Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.

16 / 36

Page 36: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:positiva e negativa

Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

non sono associate se lo scatterplot non evidenzianessun andamento particolare.

Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.

16 / 36

Page 37: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:positiva e negativa

Osserviamo le seguenti associazioni:

17 / 36

Page 38: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:covarianza e correlazione lineare

Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:

• La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.

• L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.

Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.

18 / 36

Page 39: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:covarianza e correlazione lineare

Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:

• La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.

• L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.

Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.

18 / 36

Page 40: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:covarianza e correlazione lineare

Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:

• La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.

• L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.

Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.

18 / 36

Page 41: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

(x1,y1),(x2,y2), . . . ,(xn,yn)

• Covarianza della popolazione

Cov(x,y) = σxy =∑

ni=1(xi −µx)(yi −µy)

Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

• Varianza campionaria

Cov(x,y) = sxy =∑

ni=1(xi − x)(yi − y)

n−1con x media campionaria di x e y media campionariadi y.

19 / 36

Page 42: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

(x1,y1),(x2,y2), . . . ,(xn,yn)

• Covarianza della popolazione

Cov(x,y) = σxy =∑

ni=1(xi −µx)(yi −µy)

N

con µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

• Varianza campionaria

Cov(x,y) = sxy =∑

ni=1(xi − x)(yi − y)

n−1con x media campionaria di x e y media campionariadi y.

19 / 36

Page 43: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

(x1,y1),(x2,y2), . . . ,(xn,yn)

• Covarianza della popolazione

Cov(x,y) = σxy =∑

ni=1(xi −µx)(yi −µy)

Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

• Varianza campionaria

Cov(x,y) = sxy =∑

ni=1(xi − x)(yi − y)

n−1con x media campionaria di x e y media campionariadi y.

19 / 36

Page 44: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

(x1,y1),(x2,y2), . . . ,(xn,yn)

• Covarianza della popolazione

Cov(x,y) = σxy =∑

ni=1(xi −µx)(yi −µy)

Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

• Varianza campionaria

Cov(x,y) = sxy =∑

ni=1(xi − x)(yi − y)

n−1con x media campionaria di x e y media campionariadi y.

19 / 36

Page 45: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

(x1,y1),(x2,y2), . . . ,(xn,yn)

• Covarianza della popolazione

Cov(x,y) = σxy =∑

ni=1(xi −µx)(yi −µy)

Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

• Varianza campionaria

Cov(x,y) = sxy =∑

ni=1(xi − x)(yi − y)

n−1

con x media campionaria di x e y media campionariadi y.

19 / 36

Page 46: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

(x1,y1),(x2,y2), . . . ,(xn,yn)

• Covarianza della popolazione

Cov(x,y) = σxy =∑

ni=1(xi −µx)(yi −µy)

Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

• Varianza campionaria

Cov(x,y) = sxy =∑

ni=1(xi − x)(yi − y)

n−1con x media campionaria di x e y media campionariadi y.

19 / 36

Page 47: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Covarianza

Possiamo interpretare la covarianza come segue:

• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

20 / 36

Page 48: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Covarianza

Possiamo interpretare la covarianza come segue:

• Cov(x,y)> 0: relazione lineare positiva

• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

20 / 36

Page 49: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Covarianza

Possiamo interpretare la covarianza come segue:

• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa

• Cov(x,y) = 0: assenza di relazione lineare

20 / 36

Page 50: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Covarianza

Possiamo interpretare la covarianza come segue:

• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

20 / 36

Page 51: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: indicedi correlazione

L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

• Coefficiente di correlazione della popolazione

ρ =σxy

σxσy

• Coefficiente di correlazione campionaria

r =sxy

sxsy

21 / 36

Page 52: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: indicedi correlazione

L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

• Coefficiente di correlazione della popolazione

ρ =σxy

σxσy

• Coefficiente di correlazione campionaria

r =sxy

sxsy

21 / 36

Page 53: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: indicedi correlazione

L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

• Coefficiente di correlazione della popolazione

ρ =σxy

σxσy

• Coefficiente di correlazione campionaria

r =sxy

sxsy

21 / 36

Page 54: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: indicedi correlazione

L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

• Coefficiente di correlazione della popolazione

ρ =σxy

σxσy

• Coefficiente di correlazione campionaria

r =sxy

sxsy

21 / 36

Page 55: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: indicedi correlazione

L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

• Coefficiente di correlazione della popolazione

ρ =σxy

σxσy

• Coefficiente di correlazione campionaria

r =sxy

sxsy

21 / 36

Page 56: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazione

Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due

variabili quanto più il suo valore si avvicina a −1• Si ha una relazione lineare debole tra le due variabili

quanto più il suo valore si avvicina a 0.

22 / 36

Page 57: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazione

Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

• L’indice di correlazione varia sempre tra −1 e 1

• Si ha una relazione linerae positiva forte tra le duevariabili quanto più il suo valore si avvicina a 1

• Si ha una relazione lineare negativa forte tra le duevariabili quanto più il suo valore si avvicina a −1

• Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.

22 / 36

Page 58: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazione

Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

variabili quanto più il suo valore si avvicina a 1

• Si ha una relazione lineare negativa forte tra le duevariabili quanto più il suo valore si avvicina a −1

• Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.

22 / 36

Page 59: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazione

Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due

variabili quanto più il suo valore si avvicina a −1

• Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.

22 / 36

Page 60: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazione

Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due

variabili quanto più il suo valore si avvicina a −1• Si ha una relazione lineare debole tra le due variabili

quanto più il suo valore si avvicina a 0.

22 / 36

Page 61: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative: indicedi correlazione

Interpretiamo il coefficiente di correlazione:

23 / 36

Page 62: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazioneConsideriamo nuovamente i dati sui ciliegi:

si può misurare che la correlazione tra le due variabili è paria 0.967, per cui risulta chiaro che esiste una relazione linearepositiva molto forte tra le due variabili.

24 / 36

Page 63: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.

Consideriamo il grafico seguente

Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.

25 / 36

Page 64: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.Consideriamo il grafico seguente

Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.

25 / 36

Page 65: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.Consideriamo il grafico seguente

Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.

25 / 36

Page 66: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:regressione lineare

Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.

Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.

L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.

26 / 36

Page 67: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:regressione lineare

Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.

Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.

L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.

26 / 36

Page 68: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Associazione fra variabili quantitative:regressione lineare

Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.

Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.

L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.

26 / 36

Page 69: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare

Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:

y = a+bx

• il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate

• il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.

27 / 36

Page 70: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare

Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:

y = a+bx

• il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate

• il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.

27 / 36

Page 71: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare

Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:

y = a+bx

• il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate

• il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.

27 / 36

Page 72: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare

I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:

y = a+bx.

L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

28 / 36

Page 73: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare

I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:

y = a+bx.

L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

28 / 36

Page 74: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare

I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:

y = a+bx.

L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

28 / 36

Page 75: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare

I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:

y = a+bx.

L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

28 / 36

Page 76: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare: interpretazione deicoefficienti

Consideriamo l’esempio sugli alberi di ciliegio. Supponiamo divoler studiare come la misura del Diametro (in pollici) del troncoinfluenzi il suo Volume (in piedi). La variabile dipendente sarà al-lora y = Volume, mentre la variabile indipendente x = Diametro.L’equazione della retta di regressione stimata per questo prob-lema risulta

y =−36.943+5.066x

29 / 36

Page 77: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare: interpretazione deicoefficienti

Consideriamo l’esempio sugli alberi di ciliegio.

• Il valore stimato per l’intercetta ci dice che quando ilDiametro è pari a 0 il Volume previsto misura −36.943piedi. In questo caso avere un diametro nullo non ha alcunsenso, per cui l’intercetta non da nessuna informazioneinterpretativa.

• La pendenza stimata è pari a 5.066, positiva, per cui larettaha un andamento crescente. Possiamo dire che perogni aumento di un pollice del diametro il volume aumentadi 5.066 piedi.

30 / 36

Page 78: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare: interpretazione deicoefficienti

Consideriamo l’esempio sugli alberi di ciliegio.

• Il valore stimato per l’intercetta ci dice che quando ilDiametro è pari a 0 il Volume previsto misura −36.943piedi. In questo caso avere un diametro nullo non ha alcunsenso, per cui l’intercetta non da nessuna informazioneinterpretativa.

• La pendenza stimata è pari a 5.066, positiva, per cui larettaha un andamento crescente. Possiamo dire che perogni aumento di un pollice del diametro il volume aumentadi 5.066 piedi.

30 / 36

Page 79: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare: interpretazione deicoefficienti

Consideriamo l’esempio sugli alberi di ciliegio.

y =−36.943+5.066x

supponiamo di voler predire il valore del Volume per un diametropari a 14.

Se la retta descrive correttamente la relazione tra levariabili allora

yx=14 =−36.943+5.066×14 = 33.981

per cui si prevede che per un diametro di 14 pollici si abbia unvolume di 33.981 piedi.

31 / 36

Page 80: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Regressione lineare: interpretazione deicoefficienti

Consideriamo l’esempio sugli alberi di ciliegio.

y =−36.943+5.066x

supponiamo di voler predire il valore del Volume per un diametropari a 14.Se la retta descrive correttamente la relazione tra levariabili allora

yx=14 =−36.943+5.066×14 = 33.981

per cui si prevede che per un diametro di 14 pollici si abbia unvolume di 33.981 piedi.

31 / 36

Page 81: ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

Ricapitolazione: esercizio.

Sia dato un campione di osservazioni sulla misurazione del di-ametro del tronco (in cm) e del raggio della chioma (in m) per10 pini bianchi. Si vuole studiare se la misura del diametro deltronco influenzi il raggio della chioma. Si considera quindi lavariabile esplicativa x= diametro e la risposta y= raggio chioma.I dati rilevati sono i seguenti:

x 5.0 12.7 7.6 17.8 5.1 15.2 10.2 22.9 20.3 10.1

y 0.91 1.83 1.22 2.18 1.22 2.30 1.70 2.74 2.65 1.52

Disegnare il diagramma di dispersione, calcolare covarianza,correlazione e interpretarla.

32 / 36