ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i...
Transcript of ESPLORAZIONE DEI DATI CON SINTESI …...Questa misura considera la variazione dei dati eliminando i...
ESPLORAZIONE DEI DATI CON SINTESINUMERICHE: INDICI DI POSIZIONE
1 / 33
Interpretare la deviazione standard: regolaempirica
Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)
• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)
• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)
2 / 33
Interpretare la deviazione standard: regolaempirica
Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)
• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)
• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)
2 / 33
Interpretare la deviazione standard: regolaempirica
Supponiamo che la distribuzione dei dati sia unimodale eapprossimativamente simmetrica con una forma a cam-pana, allora vale la seguente regola empirica• il 68% delle osservazioni cade nell’intervallo(x̄− s, x̄+ s)
• il 95% delle osservazioni cade nell’intervallo(x̄−2s, x̄+2s)
• il 99.7% delle osservazioni cade nell’intervallo(x̄−3s, x̄+3s)
2 / 33
Interpretare la deviazione standard: regolaempirica
Per distribuzioni a campana, sono visualizzate le percentu-ali approssimative di osservazioni che cadono in 1,2 e 3deviazioni standard dalla media.
3 / 33
Interpretare la deviazione standard: regolaempirica: esempio
Si consideri un campione di animali in un parco e si sup-ponga che la loro longevità abbia una distribuzione cam-panulare con media campionaria 13.1 anni e deviazionestandard 1.5 anni.• Qual è l’intervallo di tempo di vita all’interno del quale
si comprendono il 68% degli animali?• Qual è l’intervallo di tempo all’interno del quale si
comprendono il 95% degli animali?• Qual è l’intervallo di tempo all’interno del quale cade
il 99.7% delle osservazioni?
4 / 33
Misure di posizione
Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.
• La mediana è una misura di posizione, che divide ladistribuzione dei dati ordinati, individua dunque laposizione centrale.
• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.
5 / 33
Misure di posizione
Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.• La mediana è una misura di posizione, che divide la
distribuzione dei dati ordinati, individua dunque laposizione centrale.
• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.
5 / 33
Misure di posizione
Le misure di posizione forniscono il punto in cui i dati ven-gono separati in due parti. Una certa percentuale delle os-servazioni cade prima del punto individuato e la restanteoltre.• La mediana è una misura di posizione, che divide la
distribuzione dei dati ordinati, individua dunque laposizione centrale.
• Anche il massimo e il minimo valore osservati sonodelle misure di posizione.
5 / 33
Misure di posizione: percentili
Esiste una grande famiglia di misure di posizione dette per-centili.
Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.
6 / 33
Misure di posizione: percentili
Esiste una grande famiglia di misure di posizione dette per-centili.Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.
6 / 33
Misure di posizione: percentili
Esiste una grande famiglia di misure di posizione dette per-centili.Il p-simo percentile è il valore tale che lascia alla sua sinistra ilp% delle osservazioni e alla sua destra il restante (1−p)%.
6 / 33
Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.
I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.
• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.
• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).
• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.
7 / 33
Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.
• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.
• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).
• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.
7 / 33
Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.
• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.
• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).
• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.
7 / 33
Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.
• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.
• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).
• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.
7 / 33
Misure di posizione: quartiliNelle applicazioni pratiche esistono 3 percentili più utilizzati dettiquartili.I quartili dividono la sequenza ordinata dei dati in 4 segmenticontenenti lo stesso numero di valori.
• Il primo quartile, Q1, è il valore che lascia alla sua sinistra25% e alla sua destra il 75%.
• Il secondo quartile, Q2, coincide con la mediana (50%sono minori, 50% sono maggiori).
• Il terzo quartile, Q3, è il valore tale che il 75% delleosservazioni sono minori e 25% sono maggiori di esso.
7 / 33
Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.
• Posizione primo quartile
0.25(n+1)
• Posizione secondo quartile
0.50(n+1)
• Posizione terzo quartile
0.75(n+1)
con n il numero di valori osservati.
8 / 33
Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.
• Posizione primo quartile
0.25(n+1)
• Posizione secondo quartile
0.50(n+1)
• Posizione terzo quartile
0.75(n+1)
con n il numero di valori osservati.
8 / 33
Misure di posizione: calcolare i quartiliUn quartile si trova determinando il valore della sua po-sizione nella sequenza ordinata dei dati osservati.
• Posizione primo quartile
0.25(n+1)
• Posizione secondo quartile
0.50(n+1)
• Posizione terzo quartile
0.75(n+1)
con n il numero di valori osservati.8 / 33
Calcolo dei quartili: esercizio
In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.
−12 −5 2 2 0 −3 5
Calcolare primo e terzo quartile.
9 / 33
Calcolo dei quartili: esercizioIn sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.Ordiniamo i dati:
−12 −5 −3 0 2 2 5
con n = 7.
• Posizione primo quartile
0.25(8) = 2⇒ Q1 =−5
• Posizione terzo quartile
0.75(8) = 6⇒ Q3 = 2
Calcolare primo e terzo quartile.
10 / 33
Calcolo dei quartili: esercizioIn sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.Ordiniamo i dati:
−12 −5 −3 0 2 2 5
con n = 7.
• Posizione primo quartile
0.25(8) = 2⇒ Q1 =−5
• Posizione terzo quartile
0.75(8) = 6⇒ Q3 = 2
Calcolare primo e terzo quartile.10 / 33
Calcolo dei quartili: esercizio
In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.Calcolare primo e terzo quartile delle 20 misurazioni:
0 340 70 140 200 180 210 150 100 130
140 180 190 160 290 50 220 180 200 210
11 / 33
Calcolo dei quartili: esercizioDati ordinati:
0 50 70 100 130 140 140 150 160 180
180 180 190 200 200 210 210 220 290 340
dove n = 20.
• Posizione primo quartile
0.25(21) = 5.25⇒ Q1 = 135
• Posizione terzo quartile
0.75(21) = 15.75⇒ Q3 = 205.
Prendiamo il valor medio tra i due valori attorno alla posizione.
12 / 33
Calcolo dei quartili: esercizioDati ordinati:
0 50 70 100 130 140 140 150 160 180
180 180 190 200 200 210 210 220 290 340
dove n = 20.
• Posizione primo quartile
0.25(21) = 5.25⇒ Q1 = 135
• Posizione terzo quartile
0.75(21) = 15.75⇒ Q3 = 205.
Prendiamo il valor medio tra i due valori attorno alla posizione.
12 / 33
Calcolo dei quartili: esercizioDati ordinati:
0 50 70 100 130 140 140 150 160 180
180 180 190 200 200 210 210 220 290 340
dove n = 20.
• Posizione primo quartile
0.25(21) = 5.25⇒ Q1 = 135
• Posizione terzo quartile
0.75(21) = 15.75⇒ Q3 = 205.
Prendiamo il valor medio tra i due valori attorno alla posizione.12 / 33
Altre misure di variabilità: differenzainterquartile
I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.
La differenza interquartile è la distanza tra il terzo e il primoquartile:
IQR = Q3−Q1
Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.
13 / 33
Altre misure di variabilità: differenzainterquartile
I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.
La differenza interquartile è la distanza tra il terzo e il primoquartile:
IQR = Q3−Q1
Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.
13 / 33
Altre misure di variabilità: differenzainterquartile
I quartili possono essere utilizzati per definire una nuovamisura di variabilità detta range o differenza interquartile.
La differenza interquartile è la distanza tra il terzo e il primoquartile:
IQR = Q3−Q1
Questa misura considera la variazione dei dati eliminandoi valori osservati più alti e più bassi e calcola il campo divariazione del 50% centrale dei dati. Per questa ragionenon è influenzata dalla presenza di outlier.
13 / 33
Altre misure di variabilità: differenzainterquartile
In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.
0 340 70 140 200 180 210 150 100 130
140 180 190 160 290 50 220 180 200 210
Qual e la differenza interquartile per il contenuto di sodionei 20 cereali?
IQR = Q3−Q1 = 205−135 = 70
14 / 33
Altre misure di variabilità: differenzainterquartile
In 20 marche di cereali è stato analizzato il contenuto di so-dio in mg in una porzione standard, secondo quanto codi-ficato dal National Labelling and educational Act.
0 340 70 140 200 180 210 150 100 130
140 180 190 160 290 50 220 180 200 210
Qual e la differenza interquartile per il contenuto di sodionei 20 cereali?
IQR = Q3−Q1 = 205−135 = 70
14 / 33
Altre misure di variabilità: differenzainterquartile
Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.
Si costruiscono due soglie che determinano tali valori.
Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.
15 / 33
Altre misure di variabilità: differenzainterquartile
Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.
Si costruiscono due soglie che determinano tali valori.
Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.
15 / 33
Altre misure di variabilità: differenzainterquartile
Esiste una regola che, attraverso l’uso del range interquar-tile, permette di identificare i potenziali outlier in un dataset.
Si costruiscono due soglie che determinano tali valori.
Un valore più basso di Q1− 1.5× IQR o più alto di Q3+1.5× IQR viene considerato un potenziale outlier.
15 / 33
Altre misure di variabilità: differenzainterquartile
Dai dati sui cereali da colazione abbiamo calcolato cheQ1 = 135, Q3 = 205 e IQR = 70, per quanto visto in prece-denza avremo che i potenziali outlier sono quei valori al disotto della soglia
Q1−1.5× IQR = 130−1.5×70 = 135−105 = 30
e al di sopra della soglia
Q3+1.5× IQR = 205+1.5×70 = 205+105 = 310
In questo caso quindi i potenziali outlier sono 0 e 340.
16 / 33
Grafici di variabilità
Abbiamo quindi introdotto 5 diverse misure di posizioneche ci permettono di sintetizzare la tendenza centrale ela variabilità di una distribuzione. Possiamo rappresentarequesta sintesi con un grafico della forma:
Un grafico di questo tipo é detto boxplot.
17 / 33
Grafici di variabilità
Abbiamo quindi introdotto 5 diverse misure di posizioneche ci permettono di sintetizzare la tendenza centrale ela variabilità di una distribuzione. Possiamo rappresentarequesta sintesi con un grafico della forma:
Un grafico di questo tipo é detto boxplot.
17 / 33
Grafici di variabilità
Come si disegna un boxplot?
• Si disegna una scatola dal primo quartile Q1 al terzoquartile Q3.
• Si traccia un segmento verticale nella scatola incorrispondenza della mediana
• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.
18 / 33
Grafici di variabilità
Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo
quartile Q3.
• Si traccia un segmento verticale nella scatola incorrispondenza della mediana
• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.
18 / 33
Grafici di variabilità
Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo
quartile Q3.• Si traccia un segmento verticale nella scatola in
corrispondenza della mediana
• Si disegna un segmento orizzontale dalla sinistradella scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.
18 / 33
Grafici di variabilità
Come si disegna un boxplot?• Si disegna una scatola dal primo quartile Q1 al terzo
quartile Q3.• Si traccia un segmento verticale nella scatola in
corrispondenza della mediana• Si disegna un segmento orizzontale dalla sinistra
della scatola fino alla piu piccola osservazione chenon sia un potenziale outlier. Un altro segmentoorizzontale va dalla destra della scatola fino alla piugrande osservazione che non sia un potenzialeoutlier. I potenziali outlier vengono mostratiseparatamente.
18 / 33
Grafici di variabilità
19 / 33
Boxplot
20 / 33
Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.
Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.Il boxplot ci permette di individuare potenziali outlier.
21 / 33
Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.
Il boxplot ci permette di individuare potenziali outlier.
21 / 33
Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco laforma di una distribuzione.Un boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogramma.Il boxplot ci permette di individuare potenziali outlier.
21 / 33
Boxplot e istogramma
22 / 33
Boxplot e istogramma
23 / 33
Boxplot e istogramma
24 / 33
Calcolo dei quartili: esercizio
In sette città in Canada il 14 gennaio 2006 sono state reg-istrate le seguenti temperature.
−12 −5 2 2 0 −3 5
Cacolare range interquartile e disegnare il boxplot.
25 / 33
Dati
26 / 33
Relazioni fra variabili
Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.
Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.
27 / 33
Relazioni fra variabili
Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.
Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.
27 / 33
Relazioni fra variabili
Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.
Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.
27 / 33
Relazioni fra variabili
Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.
27 / 33
Relazioni fra variabili
Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:
• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative
28 / 33
Relazioni fra variabili
Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:
• i casi in cui entrambe le variabili siano categoriche
• i casi in cui entrambe le variabili siano quantitative
28 / 33
Relazioni fra variabili
Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:
• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative
28 / 33