ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i...

59
ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: INDICI DI POSIZIONE 1 / 33

Transcript of ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i...

Page 1: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

ESPLORAZIONE DEI DATI CON SINTESINUMERICHE: INDICI DI POSIZIONE

1 / 33

Page 2: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Interpretare la deviazione standard: regolaempirica

Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)

• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)

• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)

2 / 33

Page 3: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Interpretare la deviazione standard: regolaempirica

Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)

• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)

• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)

2 / 33

Page 4: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Interpretare la deviazione standard: regolaempirica

Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)

• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)

• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)

2 / 33

Page 5: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Interpretare la deviazione standard: regolaempirica

Per distribuzioni a campana, sono visualizzate le percentu-ali approssimative di osservazioni che cadono in 1,2 e 3deviazioni standard dalla media.

3 / 33

Page 6: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Interpretare la deviazione standard: regolaempirica: esempio

Si consideri un campione di animali in un parco e si sup-ponga che la loro longevità abbia una distribuzione cam-panulare con media campionaria 13.1 anni e deviazionestandard 1.5 anni.• Qual è l’intervallo di tempo di vita all’interno del quale

si comprendono il 68% degli animali?• Qual è l’intervallo di tempo all’interno del quale si

comprendono il 95% degli animali?• Qual è l’intervallo di tempo all’interno del quale cade

il 99.7% delle osservazioni?

4 / 33

Page 7: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione

Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.

• La mediana è una misura di posizione, che divide ladistribuzione dei dati ordinati, individua dunque laposizione centrale.

• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

5 / 33

Page 8: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione

Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.• La mediana è una misura di posizione, che divide la

distribuzione dei dati ordinati, individua dunque laposizione centrale.

• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

5 / 33

Page 9: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione

Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.• La mediana è una misura di posizione, che divide la

distribuzione dei dati ordinati, individua dunque laposizione centrale.

• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.

5 / 33

Page 10: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: percentili

Esiste una grande famiglia di misure di posizione dette per-centili.

Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.

6 / 33

Page 11: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: percentili

Esiste una grande famiglia di misure di posizione dette per-centili.Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.

6 / 33

Page 12: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: percentili

Esiste una grande famiglia di misure di posizione dette per-centili.Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.

6 / 33

Page 13: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.

I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Page 14: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Page 15: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Page 16: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Page 17: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.

• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.

• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).

• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.

7 / 33

Page 18: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

• Posizione primo quartile

0.25(n+1)

• Posizione secondo quartile

0.50(n+1)

• Posizione terzo quartile

0.75(n+1)

con n il numero di valori osservati.

8 / 33

Page 19: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

• Posizione primo quartile

0.25(n+1)

• Posizione secondo quartile

0.50(n+1)

• Posizione terzo quartile

0.75(n+1)

con n il numero di valori osservati.

8 / 33

Page 20: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.

• Posizione primo quartile

0.25(n+1)

• Posizione secondo quartile

0.50(n+1)

• Posizione terzo quartile

0.75(n+1)

con n il numero di valori osservati.8 / 33

Page 21: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Calcolo dei quartili: esercizio

In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.

−12 −5 2 2 0 −3 5

Calcolare primo e terzo quartile.

9 / 33

Page 22: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Calcolo dei quartili: esercizioIn sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.Ordiniamo i dati:

−12 −5 −3 0 2 2 5

con n = 7.

• Posizione primo quartile

0.25(8) = 2⇒ Q1 =−5

• Posizione terzo quartile

0.75(8) = 6⇒ Q3 = 2

Calcolare primo e terzo quartile.

10 / 33

Page 23: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Calcolo dei quartili: esercizioIn sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.Ordiniamo i dati:

−12 −5 −3 0 2 2 5

con n = 7.

• Posizione primo quartile

0.25(8) = 2⇒ Q1 =−5

• Posizione terzo quartile

0.75(8) = 6⇒ Q3 = 2

Calcolare primo e terzo quartile.10 / 33

Page 24: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Calcolo dei quartili: esercizio

In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.Calcolare primo e terzo quartile delle 20 misurazioni:

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

11 / 33

Page 25: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Calcolo dei quartili: esercizioDati ordinati:

0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340

dove n = 20.

• Posizione primo quartile

0.25(21) = 5.25⇒ Q1 = 135

• Posizione terzo quartile

0.75(21) = 15.75⇒ Q3 = 205.

Prendiamo il valor medio tra i due valori attorno alla posizione.

12 / 33

Page 26: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Calcolo dei quartili: esercizioDati ordinati:

0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340

dove n = 20.

• Posizione primo quartile

0.25(21) = 5.25⇒ Q1 = 135

• Posizione terzo quartile

0.75(21) = 15.75⇒ Q3 = 205.

Prendiamo il valor medio tra i due valori attorno alla posizione.

12 / 33

Page 27: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Calcolo dei quartili: esercizioDati ordinati:

0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340

dove n = 20.

• Posizione primo quartile

0.25(21) = 5.25⇒ Q1 = 135

• Posizione terzo quartile

0.75(21) = 15.75⇒ Q3 = 205.

Prendiamo il valor medio tra i due valori attorno alla posizione.12 / 33

Page 28: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

La differenza interquartile è la distanza tra il terzo e il primoquartile:

IQR = Q3−Q1

Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

13 / 33

Page 29: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

La differenza interquartile è la distanza tra il terzo e il primoquartile:

IQR = Q3−Q1

Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

13 / 33

Page 30: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.

La differenza interquartile è la distanza tra il terzo e il primoquartile:

IQR = Q3−Q1

Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.

13 / 33

Page 31: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

Qual e la differenza interquartile per il contenuto di sodionei 20 cereali?

IQR = Q3−Q1 = 205−135 = 70

14 / 33

Page 32: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

Qual e la differenza interquartile per il contenuto di sodionei 20 cereali?

IQR = Q3−Q1 = 205−135 = 70

14 / 33

Page 33: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

Si costruiscono due soglie che determinano tali valori.

Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

15 / 33

Page 34: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

Si costruiscono due soglie che determinano tali valori.

Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

15 / 33

Page 35: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.

Si costruiscono due soglie che determinano tali valori.

Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.

15 / 33

Page 36: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Altre misure di variabilità: differenzainterquartile

Dai dati sui cereali da colazione abbiamo calcolato cheQ1 = 135, Q3 = 205 e IQR = 70, per quanto visto in prece-denza avremo che i potenziali outlier sono quei valori al disotto della soglia

Q1−1.5× IQR = 130−1.5×70 = 135−105 = 30

e al di sopra della soglia

Q3+1.5× IQR = 205+1.5×70 = 205+105 = 310

In questo caso quindi i potenziali outlier sono 0 e 340.

16 / 33

Page 37: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Grafici di variabilità

Abbiamo quindi introdotto 5 diverse misure di posizioneche ci permettono di sintetizzare la tendenza centrale ela variabilità di una distribuzione. Possiamo rappresentarequesta sintesi con un grafico della forma:

Un grafico di questo tipo é detto boxplot.

17 / 33

Page 38: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Grafici di variabilità

Abbiamo quindi introdotto 5 diverse misure di posizioneche ci permettono di sintetizzare la tendenza centrale ela variabilità di una distribuzione. Possiamo rappresentarequesta sintesi con un grafico della forma:

Un grafico di questo tipo é detto boxplot.

17 / 33

Page 39: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Grafici di variabilità

Come si disegna un boxplot?

• Si disegna una scatola dal primo quartile Q1 al terzoquartile Q3.

• Si traccia un segmento verticale nella scatola incorrispondenza della mediana

• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

18 / 33

Page 40: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Grafici di variabilità

Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

quartile Q3.

• Si traccia un segmento verticale nella scatola incorrispondenza della mediana

• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

18 / 33

Page 41: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Grafici di variabilità

Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

quartile Q3.• Si traccia un segmento verticale nella scatola in

corrispondenza della mediana

• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

18 / 33

Page 42: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Grafici di variabilità

Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo

quartile Q3.• Si traccia un segmento verticale nella scatola in

corrispondenza della mediana• Si disegna un segmento orizzontale dalla sinistra

della scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.

18 / 33

Page 43: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Grafici di variabilità

19 / 33

Page 44: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Boxplot

20 / 33

Page 45: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.

Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.Il boxplot ci permette di individuare potenziali outlier.

21 / 33

Page 46: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.

Il boxplot ci permette di individuare potenziali outlier.

21 / 33

Page 47: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.Il boxplot ci permette di individuare potenziali outlier.

21 / 33

Page 48: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Boxplot e istogramma

22 / 33

Page 49: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Boxplot e istogramma

23 / 33

Page 50: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Boxplot e istogramma

24 / 33

Page 51: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Calcolo dei quartili: esercizio

In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.

−12 −5 2 2 0 −3 5

Cacolare range interquartile e disegnare il boxplot.

25 / 33

Page 52: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Dati

26 / 33

Page 53: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.

Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

27 / 33

Page 54: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.

Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

27 / 33

Page 55: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.

Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

27 / 33

Page 56: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

27 / 33

Page 57: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative

28 / 33

Page 58: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche

• i casi in cui entrambe le variabili siano quantitative

28 / 33

Page 59: ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i valori osservati più alti e più bassi e calcola il campo di variazione del 50%

Relazioni fra variabili

Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative

28 / 33