Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La...

49
Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello La forma della distribuzione di frequenza ottenuta a livello empirico è analizzabile anche tramite specifici indici. Tra empirico è analizzabile anche tramite specifici indici. Tra questi i più usati riguardano l’asimmetria della distribuzione questi i più usati riguardano l’asimmetria della distribuzione (Skewness) e lo schiacciamento della stessa (Curtosi). (Skewness) e lo schiacciamento della stessa (Curtosi). Skewness Skewness Rappresenta lo spostamento del vertice Rappresenta lo spostamento del vertice della distribuzione dall’asse della distribuzione dall’asse centrale: verso sinistra per valori di centrale: verso sinistra per valori di Skewness positivi e verso destra in Skewness positivi e verso destra in concomitanza di valori negativi. concomitanza di valori negativi. Si considera una distribuzione come Si considera una distribuzione come perfettamente normale quando presenta perfettamente normale quando presenta un valore di 0 relativamente alla un valore di 0 relativamente alla Skewness; nonostante questo alcuni Skewness; nonostante questo alcuni autori, data la potenza dei test autori, data la potenza dei test utilizzati per calcolarla, utilizzati per calcolarla, suggeriscono di considerare suggeriscono di considerare accettabili valori di asimmetria accettabili valori di asimmetria compresi tra 0,5 e -0,5 per una buona compresi tra 0,5 e -0,5 per una buona normalità e tra 1 e -1 per una quasi normalità e tra 1 e -1 per una quasi normalità. normalità. Curtosi Curtosi La curtosi rappresenta invece lo La curtosi rappresenta invece lo schiacciamento della campana della schiacciamento della campana della distribuzione, in generale un valori distribuzione, in generale un valori di curtosi negativo indica una di curtosi negativo indica una distribuzione “più schiacciata” verso distribuzione “più schiacciata” verso il basso rispetto alla normale, che il basso rispetto alla normale, che viene definita viene definita platicurtica. platicurtica. Un valore di Un valore di curtosi positivo invece indica una curtosi positivo invece indica una distribuzione “più appuntita” rispetto distribuzione “più appuntita” rispetto alla normale, che viene definita alla normale, che viene definita leptocurtica leptocurtica . . 3 1 2 2 1 3 1 ) ( ) ( = = = N x x N x x N i i N i i β Indice di Indice di asimmetria asimmetria di Pearson di Pearson 2 1 2 1 4 2 ) ( ) ( = = = N x x N x x N i i N i i β Indice di Indice di curtosi di curtosi di Pearson Pearson

Transcript of Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La...

Page 1: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

C – Indici di Asimmetria e CurtosiC – Indici di Asimmetria e Curtosi

•- Fonti bibliografiche

La forma della distribuzione di frequenza ottenuta a livello empirico è La forma della distribuzione di frequenza ottenuta a livello empirico è analizzabile anche tramite specifici indici. Tra questi i più usati analizzabile anche tramite specifici indici. Tra questi i più usati riguardano l’asimmetria della distribuzione (Skewness) e lo riguardano l’asimmetria della distribuzione (Skewness) e lo schiacciamento della stessa (Curtosi).schiacciamento della stessa (Curtosi).SkewnessSkewness

Rappresenta lo spostamento del vertice Rappresenta lo spostamento del vertice della distribuzione dall’asse centrale: della distribuzione dall’asse centrale: verso sinistra per valori di Skewness verso sinistra per valori di Skewness positivi e verso destra in concomitanza positivi e verso destra in concomitanza di valori negativi.di valori negativi.

Si considera una distribuzione come Si considera una distribuzione come perfettamente normale quando perfettamente normale quando presenta un valore di 0 relativamente presenta un valore di 0 relativamente alla Skewness; nonostante questo alla Skewness; nonostante questo alcuni autori, data la potenza dei test alcuni autori, data la potenza dei test utilizzati per calcolarla, suggeriscono di utilizzati per calcolarla, suggeriscono di considerare accettabili valori di considerare accettabili valori di asimmetria compresi tra 0,5 e -0,5 per asimmetria compresi tra 0,5 e -0,5 per una buona normalità e tra 1 e -1 per una buona normalità e tra 1 e -1 per una quasi normalità.una quasi normalità.

CurtosiCurtosi

La curtosi rappresenta invece lo La curtosi rappresenta invece lo schiacciamento della campana della schiacciamento della campana della distribuzione, in generale un valori di distribuzione, in generale un valori di curtosi negativo indica una curtosi negativo indica una distribuzione “più schiacciata” verso il distribuzione “più schiacciata” verso il basso rispetto alla normale, che viene basso rispetto alla normale, che viene definita definita platicurtica. platicurtica. Un valore di Un valore di curtosi positivo invece indica una curtosi positivo invece indica una distribuzione “più appuntita” rispetto distribuzione “più appuntita” rispetto alla normale, che viene definita alla normale, che viene definita leptocurticaleptocurtica. .

3

1

2

2

1

3

1

)()(

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−

=∑∑==

N

xx

N

xxN

ii

N

ii

βIndice di Indice di

asimmetria asimmetria di Pearsondi Pearson

2

1

2

1

4

2

)()(

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−

=∑∑==

N

xx

N

xxN

ii

N

ii

βIndice di Indice di curtosi di curtosi di PearsonPearson

Page 2: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

D – Indici complessivi di NormalitàD – Indici complessivi di Normalità

•- Fonti bibliografiche

Esistono infine alcuni test statistici che consentono di Esistono infine alcuni test statistici che consentono di valutare se la distribuzione è normale. Tra questi di valutare se la distribuzione è normale. Tra questi di particolare rilievo, anche perché proposti nei più diffusi particolare rilievo, anche perché proposti nei più diffusi software statistici, sono il test di software statistici, sono il test di Kolmogorov Smirnov Kolmogorov Smirnov ed il test di ed il test di Shapiro-Wilk.Shapiro-Wilk. Se il test statistico che viene Se il test statistico che viene condotto su tali indici risulta significativo si deve condotto su tali indici risulta significativo si deve rifiutare l’ipotesi nulla che la distribuzione in oggetto sia rifiutare l’ipotesi nulla che la distribuzione in oggetto sia normale.normale.

Page 3: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

I quattro step precedentemente illustrati sono I quattro step precedentemente illustrati sono implementati su SPSS e raggiungibili attraverso la implementati su SPSS e raggiungibili attraverso la

voce voce analyze analyze della barra degli strumenti.della barra degli strumenti.

Esempio di calcolo degli indicatori di normalità su alcune variabilirelative ai punteggi ottenuti alle

scale cliniche del MMPI-II, da un campione di soggetti sani.

Analisi della Distribuzione UnivariataAnalisi della Distribuzione Univariata

•- Fonti bibliografiche

Page 4: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 5: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 6: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 7: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Scala LScala L

Scala L

75,070,065,060,055,050,045,040,035,0

Histogram

Frequency

30

20

10

0

Std. Dev = 8,61

Mean = 48,0

N = 78,00

Normal Q-Q Plot of Scala L

Observed Value

807060504030

Expected Normal

3

2

1

0

-1

-2

-3

Detrended Normal Q-Q Plot of Scala L

Observed Value

807060504030

Dev from Normal

1,0

,8

,6

,4

,2

0,0

-,2

-,4

78N =

Scala L

80

70

60

50

40

30

5542

Page 8: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Scala FScala F

Scala F

95,090,085,080,075,070,065,060,055,050,045,040,0

Histogram

Frequency

20

10

0

Std. Dev = 11,27

Mean = 55,1

N = 78,00

Normal Q-Q Plot of Scala F

Observed Value

10090807060504030

Expected Normal

3

2

1

0

-1

-2

-3

Detrended Normal Q-Q Plot of Scala F

Observed Value

10090807060504030

Dev from Normal

2,0

1,5

1,0

,5

0,0

-,5

78N =

Scala F

110

100

90

80

70

60

50

40

30

186056

65

Page 9: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Scala KScala K

Scala K

70,065,060,055,050,045,040,035,030,0

Histogram

Frequency

16

14

12

10

8

6

4

2

0

Std. Dev = 9,53

Mean = 47,5

N = 78,00

Normal Q-Q Plot of Scala K

Observed Value

80706050403020

Expected Normal

3

2

1

0

-1

-2

-3

Detrended Normal Q-Q Plot of Scala K

Observed Value

80706050403020

Dev from Normal

,3

,2

,1

0,0

-,1

-,2

78N =

Scala K

80

70

60

50

40

30

20

Page 10: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Indici di Asimmetria, Curtosi e Normalità UnivariataIndici di Asimmetria, Curtosi e Normalità Univariata

Tests of Normality

,119 78 ,008 ,952 78 ,005

,116 78 ,011 ,902 78 ,000

,070 78 ,200* ,975 78 ,132

Scala L

Scala F

Scala K

Statistic df Sig. Statistic df Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

This is a lower bound of the true significance.*.

Lilliefors Significance Correctiona.

Descriptive Statistics

78 ,689 ,272 ,361 ,538

78 1,295 ,272 2,093 ,538

78 ,162 ,272 -,812 ,538

78

Scala L

Scala F

Scala K

Valid N (listwise)

Statistic Statistic Std. Error Statistic Std. Error

N Skewness Kurtosis

Page 11: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

I valori anomali, o Outlier, sono quei casi che in una presentano valori estremamente elevati o estremamente bassi rispetto al resto della distribuzione.

Per individuare tali outlier univariati è possibile standardizzare i punteggi relativi ala variabile in esame e calcolare una distribuzione delle frequenze, solitamente si considerano come valori anomali quei punteggi che corrispondono ad un punteggio Z maggiore di 3 in valore assoluto (Tabachnick e Fidell, 1989). In ogni caso è sempre necessario considerare la distribuzione nella sua interezza, anche perchè dati infrequenti non sempre sono anche “anomali”.

Per concludere, i valori anomali sono in grado di influenzare molti indicatori, come la media, la deviazione standard, l’asimmetria e la curtosi. Essi sono in grado quindi di influenzare anche gli indici di associazione tra variabili come avviene con il coefficiente di correlazione di Pearson.

Outlier Univariati Outlier Univariati

•- Fonti bibliografiche

Page 12: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

In presenza di casi anomali univariati che influenzano i risultati delle analisi è possibile utilizzare degli estimatori dei parametri che risultano meno influenzati dalla presenza ditali valori. Ad esempio, la mediana e la moda spesso possono risultare più affidabili della media. Sono inoltre disponibili alcune statistiche che risultano “robuste” alla presenza di tali valori, come ad esempio la media trimmed che viene calcolata eliminando il 5% dei casi con punteggi più elevati e più bassi.

Outlier Univariati Outlier Univariati

•- Fonti bibliografiche

Page 13: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

Nel nostro esempio risulta opportuno, almeno per le Nel nostro esempio risulta opportuno, almeno per le variabili relative alla scala L ed alla scala F che non variabili relative alla scala L ed alla scala F che non

raggiungono i requisiti di normalità, esaminare in prima raggiungono i requisiti di normalità, esaminare in prima istanza la presenza di outlier univariati. Sebbene esista la istanza la presenza di outlier univariati. Sebbene esista la

possibilità di visualizzare i valori estremi, uno degli possibilità di visualizzare i valori estremi, uno degli strumenti più funzionali a questo scopo risulta il Box Plot strumenti più funzionali a questo scopo risulta il Box Plot

fornito da SPSSfornito da SPSS

Visualizzazione dei valori anomaliRelativamente a tre variabili

Ottenute dalle scale di controlloDell’MMPI-II

Outlier univariatiOutlier univariati

•- Fonti bibliografiche

Page 14: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 15: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

M-Estimators

47,22 46,91 47,33 46,88

53,25 52,55 53,31 52,54

47,16 47,15 47,28 47,15

Scala L

Scala F

Scala K

Huber'sM-Estimator

aTukey'sBiweight

bHampel's

M-Estimatorc

Andrews'Wave

d

The weighting constant is 1,339.a.

The weighting constant is 4,685.b.

The weighting constants are 1,700, 3,400, and 8,500c.

The weighting constant is 1,340*pi.d.

Page 16: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Analisi dei Box Plot per l’individuazione degli Analisi dei Box Plot per l’individuazione degli OutlierOutlier

78N =

Scala L

80

70

60

50

40

30

5542

78N =

Scala F

110

100

90

80

70

60

50

40

30

186056

65

78N =

Scala K

80

70

60

50

40

30

20

Tests of Normality

,119 78 ,008 ,952 78 ,005

,116 78 ,011 ,902 78 ,000

,070 78 ,200* ,975 78 ,132

Scala L

Scala F

Scala K

Statistic df Sig. Statistic df Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

This is a lower bound of the true significance.*.

Lilliefors Significance Correctiona.

Descriptive Statistics

78 ,689 ,272 ,361 ,538

78 1,295 ,272 2,093 ,538

78 ,162 ,272 -,812 ,538

78

Scala L

Scala F

Scala K

Valid N (listwise)

Statistic Statistic Std. Error Statistic Std. Error

N Skewness Kurtosis

Page 17: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

Un primo passo per raggiungere una distribuzione Un primo passo per raggiungere una distribuzione adeguatamente normale nei propri dati, requisito adeguatamente normale nei propri dati, requisito necessario alle successive analisi, risulta quello di necessario alle successive analisi, risulta quello di

considerare i dati anomali come errori di misurazione e/o considerare i dati anomali come errori di misurazione e/o campionamento. campionamento.

In questo senso, quando questi sono pochi, può essere In questo senso, quando questi sono pochi, può essere opportuno eliminarli dall’analisi e ricalcolare gli indici di opportuno eliminarli dall’analisi e ricalcolare gli indici di

normalità. normalità.

Outlier univariatiOutlier univariati

•- Fonti bibliografiche

Eliminazione dei casi anomali individuati e

confronto degli indici di normalità prima e dopo

tale resezione.

Page 18: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Analisi dei Box Plot per l’individuazione degli Analisi dei Box Plot per l’individuazione degli OutlierOutlier

78N =

Scala L

80

70

60

50

40

30

5542

78N =

Scala F

110

100

90

80

70

60

50

40

30

186056

65

Descriptive Statistics

78 ,689 ,272 ,361 ,538

78 1,295 ,272 2,093 ,538

78 ,162 ,272 -,812 ,538

78

Scala L

Scala F

Scala K

Valid N (listwise)

Statistic Statistic Std. Error Statistic Std. Error

N Skewness Kurtosis

72N =

Scala L

80

70

60

50

40

30

71N =

Scala F

80

70

60

50

40

30

Descriptive Statistics

71 ,337 ,285 -,382 ,563

71 ,404 ,285 -,736 ,563

71 ,150 ,285 -,749 ,563

71

Scala L

Scala F

Scala K

Valid N (listwise)

Statistic Statistic Std. Error Statistic Std. Error

N Skewness Kurtosis

Outlier eliminati 2

Outlier eliminati 5

Page 19: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

--

Trasformazioni sui dati (Normalizzazione)Trasformazioni sui dati (Normalizzazione)

•- Fonti bibliografiche

Al fine di rendere normale la distribuzione di una variabile, oltre all’eliminazione quando possibili dei valori anomali, sono state proposte diverse tecniche.

Alcune di esse agiscono senza alterare le proprietà metriche (es., il livello di misurazione) delle variabili originali, altre invece portano a modificazioni più consistenti di tali proprietà.

Le prime risultano più adeguate in condizioni di Non-normalità “Moderata” (Valori di asimmetria e curtosi compresi tra |.5| e |1|.)

Le seconde sono spesso necessarie nei casi di forte violazione della normalità (Valori di asimmetria e curtosi maggiori di |1|.)

Page 20: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

--

Trasformazioni sui dati (Normalizzazione)Trasformazioni sui dati (Normalizzazione)

*: Nell’effettuare le trasformazioni in caso di asimmetria negativa è necessario utilizzare una *: Nell’effettuare le trasformazioni in caso di asimmetria negativa è necessario utilizzare una costante (k) di solito uguale a 1 + il valore più elevato presente nella distribuzione originale.costante (k) di solito uguale a 1 + il valore più elevato presente nella distribuzione originale.

L’asimmetria o semilimitazione laterale della distribuzione del carattere statistico sotto esame può essere ridotta tramite opportune trasformazioni operate direttamente sui dati. Si distinguono generalmente quattro condizioni:

Asimmetria PositivaAsimmetria Positiva Asimmetria NegativaAsimmetria NegativaModerataModerata ElevataElevata ModerataModerata ElevataElevata

Trasformazione Trasformazione in Reciprocoin Reciproco

XX

1* =

X*= Nuova variabile

Trasformazione Trasformazione Logaritmica o Logaritmica o

Radice Radice QuadrataQuadrata

XX

XLogX

=

=*

10* )(

Trasformazione Trasformazione in Reciprocoin Reciproco

Trasformazione Trasformazione Logaritmica o Logaritmica o

Radice Radice QuadrataQuadrata

XKX

−=

1*

XKX

XKLogX

−=

−=*

10* )(

Page 21: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

Trasformazione logaritmica sui dati grezzi di un carattere Trasformazione logaritmica sui dati grezzi di un carattere statistico distribuito in maniera quesi-normale, statistico distribuito in maniera quesi-normale,

presentando una non-normalità moderata ed una presentando una non-normalità moderata ed una semilimitazione a sinistra.semilimitazione a sinistra.

Esempio di trasformazione dei datiDa esempio precedente per

Scale L e FRiduzione di una asimmetria

moderata positiva

Trasformazioni sui datiTrasformazioni sui dati

•- Fonti bibliografiche

Page 22: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 23: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 24: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 25: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 26: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 27: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Scala L

75,070,065,060,055,050,045,040,035,0

Histogram

Frequency

30

20

10

0

Std. Dev = 8,61

Mean = 48,0

N = 78,00

Scala F

95,090,085,080,075,070,065,060,055,050,045,040,0

Histogram

Frequency

20

10

0

Std. Dev = 11,27

Mean = 55,1

N = 78,00

L_TRASF

,263

,250

,238

,225

,213

,200

,188

Histogram

Frequency

20

10

0

Std. Dev = ,02

Mean = ,223

N = 71,00

Distribuzioni Grezze, con valori anomali e dati Distribuzioni Grezze, con valori anomali e dati non trasformatinon trasformati

Distribuzioni dopo eliminazione dei dati anomali Distribuzioni dopo eliminazione dei dati anomali e trasformazione logaritmica del punteggio.e trasformazione logaritmica del punteggio.

Asimmetria Asimmetria positiva positiva

ModerataModerata

Asimmetria Asimmetria positiva positiva

ModerataModerata

OutliersOutliers OutliersOutliers

F_TRASF

1,8501,8251,8001,7751,7501,7251,7001,6751,6501,6251,600

Histogram

Frequency

16

14

12

10

8

6

4

2

0

Std. Dev = ,07

Mean = 1,720

N = 71,00

Page 28: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

--

Analisi della “Linearità della relazione”Analisi della “Linearità della relazione”

•- Fonti bibliografiche

Molte analisi statistiche richiedono, oltre alla normalità della distribuzione del carattere statistico sotto indagine, che le relazione tra i punteggi siano di tipo lineare.

Se la relazione tra due variabili X e Y è lineare, allora la variazione nei punteggi in Y attesa in concomitantanza di una variazione nei punteggi di X è costante per tutti i valori di X.

Spesso la non linearità della relazione tra due variabili e la non normalità delle distribuzioni delle stesse sono fenomeni collegati.

Spesso i tentativi di “normalizzare” la distribuzione di un carattere statistico sotto esame tendono a provocare una “linearizzazione” delle relazioni che il carattere ha con le altre variabili.

La linearità può essere rilevata tramite il diagramma di dispersione (Scatterplot) che rappresenta le distribuzioni congiunte delle due variabili.

Page 29: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

Esempio di analisi della linearità Esempio di analisi della linearità

della relazione tra due variabili, della relazione tra due variabili,

produzione dello Scatterplotproduzione dello Scatterplot

Creazione ed analisi dello ScatterplotCreazione ed analisi dello Scatterplot

•- Fonti bibliografiche

Page 30: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 31: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 32: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 33: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 34: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

La distribuzione normale multivariata rappresenta una La distribuzione normale multivariata rappresenta una generalizzazione della normale univariata quando il numero di generalizzazione della normale univariata quando il numero di variabili che vengono prese in considerazione è maggiore di 1. variabili che vengono prese in considerazione è maggiore di 1.

Considerando il caso di due variabili X e Y, se le distribuzioni dei Considerando il caso di due variabili X e Y, se le distribuzioni dei valori di Y per ogni valore dato di X sono di forma normale, e si valori di Y per ogni valore dato di X sono di forma normale, e si verifica anche il contrario, allora la distribuzione congiunta di X verifica anche il contrario, allora la distribuzione congiunta di X e Y viene definita normale bivariata.e Y viene definita normale bivariata.

La distribuzione normale bivariata risulta essere una condizione La distribuzione normale bivariata risulta essere una condizione particolarmente desiderabile almeno per due motivi:particolarmente desiderabile almeno per due motivi:

A- Questa distribuzione ha la proprietà di rendere la regressione A- Questa distribuzione ha la proprietà di rendere la regressione di Y su X lineare.di Y su X lineare.

B- Essa determina che gli scarti quadratici delle Y per ciascuna X B- Essa determina che gli scarti quadratici delle Y per ciascuna X siano effettivamente identici (Omoschedasticità).siano effettivamente identici (Omoschedasticità).

Normalità MultivariataNormalità Multivariata

•- Fonti bibliografiche

Page 35: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

Se abbiamo più di due variabili, l’universo determinato dalle Se abbiamo più di due variabili, l’universo determinato dalle loro distribuzioni congiunte rappresenterà una situazione più loro distribuzioni congiunte rappresenterà una situazione più complicata, e difficilmente rappresentabile a livello grafico. Si complicata, e difficilmente rappresentabile a livello grafico. Si parlerà in questo caso di parlerà in questo caso di Normalità Multivariata Normalità Multivariata in riferimento in riferimento alla assunzione che riguarda l’insieme delle variabili che alla assunzione che riguarda l’insieme delle variabili che vengono considerate in analisi.vengono considerate in analisi.

Se consideriamo un insieme di Se consideriamo un insieme di pp variabili, la distribuzione variabili, la distribuzione multivariata delle multivariata delle pp variabili è normale se: variabili è normale se:

-Tutte le distribuzioni univariate sono normali,Tutte le distribuzioni univariate sono normali,

-Le distribuzioni congiunte di tutte le coppie di variabili sono Le distribuzioni congiunte di tutte le coppie di variabili sono normali,normali,

-Tutte le combinazioni lineari delle variabili sono normali.Tutte le combinazioni lineari delle variabili sono normali.

La normalità multivariata è una proprietà particolarmente La normalità multivariata è una proprietà particolarmente rilevante. Infatti se essa viene rispettata le relazioni tra le rilevante. Infatti se essa viene rispettata le relazioni tra le variabili considerate sono sicuramente lineari, ed i modelli di variabili considerate sono sicuramente lineari, ed i modelli di analisi preposti a valutare gli indici di associazione, di analisi preposti a valutare gli indici di associazione, di conseguenza, affidabili.conseguenza, affidabili.

Normalità MultivariataNormalità Multivariata

•- Fonti bibliografiche

Page 36: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

Si definisce innanzi tutto la distanza generalizzata o distanza di Si definisce innanzi tutto la distanza generalizzata o distanza di Mahalanobis (Mahalanobis (DDii

22) ) come la distanza del vettore dei punteggi di come la distanza del vettore dei punteggi di un soggetto (Xun soggetto (Xii) dal centroide del campione (X) dal centroide del campione (Xmm), ponderata per ), ponderata per la covarianza tra le varibili.la covarianza tra le varibili.

Normalità MultivariataNormalità Multivariata

•- Fonti bibliografiche

S

XXD mii

22 )( −=

La distanza di Mahalanobis può essere utilizzata per La distanza di Mahalanobis può essere utilizzata per diagnosticare la presenza di outlier, o valori anomali, diagnosticare la presenza di outlier, o valori anomali, multivariati. Questi rappresentano combinazioni di punteggi multivariati. Questi rappresentano combinazioni di punteggi delle singole variabili che risultano particolarmente “strani”, delle singole variabili che risultano particolarmente “strani”, appunto “anomali” rispetto al resto dei valori delle variabili. appunto “anomali” rispetto al resto dei valori delle variabili. Non si tratta quindi di casi che necessariamente presentano Non si tratta quindi di casi che necessariamente presentano valori estremi su una o più variabili. valori estremi su una o più variabili.

Distanza di Distanza di MahalanobisMahalanobis

Page 37: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Se la distribuzione delle variabili è normale multivariata e il Se la distribuzione delle variabili è normale multivariata e il numero dei casi meno il numero delle variabili è maggiore di 25, numero dei casi meno il numero delle variabili è maggiore di 25, allora i valori della distanza generalizzata seguono la allora i valori della distanza generalizzata seguono la distribuzione del chi quadrato. Di fatto si può sfruttare questa distribuzione del chi quadrato. Di fatto si può sfruttare questa proprietà per costruire un test di normalità multivariata nel proprietà per costruire un test di normalità multivariata nel modo seguente:modo seguente:

A- Si ordinano i valori A- Si ordinano i valori DDii2 2 per ogni soggetto dal più basso al più per ogni soggetto dal più basso al più

alto.alto.

B- Si calcola per ogni B- Si calcola per ogni DDii22 il corrispondente punteggio percentile il corrispondente punteggio percentile

nella distribuzione nella distribuzione χχ22..

C- Si costruisce il grafico dei due valori di punteggi C- Si costruisce il grafico dei due valori di punteggi DDii22 e e χχ2 2 (Q-Q (Q-Q

Plot), se la distribuzione è normale multivariata le due Plot), se la distribuzione è normale multivariata le due serie di punteggi formano un grafico che ha un serie di punteggi formano un grafico che ha un andamento lineare.andamento lineare.

Pre Processing dei dati Modulo 1.2

Normalità MultivariataNormalità Multivariata

•- Fonti bibliografiche

Q-Q PlotQ-Q Plot

Page 38: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Per esaminare l’ipotesi di normalità multivariata Mardia (1970) Per esaminare l’ipotesi di normalità multivariata Mardia (1970) ha sviluppato dei coefficienti di curtosi e di asimmetria ha sviluppato dei coefficienti di curtosi e di asimmetria multivariata. Se la distribuzione delle multivariata. Se la distribuzione delle pp variabili è normale variabili è normale multivariata, e se il campione è sufficientemente ampio (almeno multivariata, e se il campione è sufficientemente ampio (almeno 50 soggetti*) il coefficiente di curtosi multivariata di Mardia 50 soggetti*) il coefficiente di curtosi multivariata di Mardia dovrebbe essere minore o uguale a dovrebbe essere minore o uguale a p(p+2).p(p+2).

Tramite i valori della distanza di Mahalanobis è possibile Tramite i valori della distanza di Mahalanobis è possibile calcolare questo coefficiente nel modo seguente:calcolare questo coefficiente nel modo seguente:

Pre Processing dei dati Modulo 1.2

Normalità MultivariataNormalità Multivariata

•- Seber, 1984

Coefficinte di Curtosi Multivariata di Coefficinte di Curtosi Multivariata di MardiaMardia

∑=

=N

i

i

N

DK

1

22 )(

Page 39: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

Calcolo delle distanze di Mahalanobis e produzione del Q-Calcolo delle distanze di Mahalanobis e produzione del Q-Q plot per il test di normalità multivariata. Q plot per il test di normalità multivariata.

Calcolo del coefficiente di curtosi di Mardia.Calcolo del coefficiente di curtosi di Mardia.

Normalità MultivariataNormalità Multivariata

•- Fonti bibliografiche

Dopo aver in precedenza Dopo aver in precedenza testato la normalità delle testato la normalità delle distribuzioni delle scala L, F distribuzioni delle scala L, F e K, si testa l’ipotesi di e K, si testa l’ipotesi di normalità multivariata della normalità multivariata della distribuzione congiunta distribuzione congiunta delle tre variabili. delle tre variabili.

Page 40: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 41: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 42: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.
Page 43: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

--

Il Q-Q plot per la verifica della normalità bivariataIl Q-Q plot per la verifica della normalità bivariata

•- Fonti bibliografiche

Page 44: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

--

--

-

Il Q-Q plot per la verifica della normalità bivariataIl Q-Q plot per la verifica della normalità bivariata

•- Fonti bibliografiche

Page 45: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

Rif. Outliers multivariati

--

Outliers MultivariatiOutliers Multivariati

•- Fonti bibliografiche

Page 46: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

--

--

-

Outliers MultivariatiOutliers Multivariati

•- Fonti bibliografiche

Page 47: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

--

MulticollinearitàMulticollinearità

•- Fonti bibliografiche

Page 48: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Pre Processing dei dati Modulo 1.2

--

--

-

MulticollinearitàMulticollinearità

•- Fonti bibliografiche

Page 49: Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.