Analisi in Componenti Principali e Analisi Dei Cluster

ANALISI IN COMPONENTI PRINCIPALI E ANALISI DEI CLUSTER APPLICATA ALLO STUDIO DELLE RELAZIONI INTERPERSONALI DI 31 STUDENTI DELLA SCUOLA SECONDARIA DI I GRADO


Docente:

Prof.Enrico CiavolinoTesina a cura di:

Serena BiancoFrancesca LacerenzaCodruta Terbea

UNIVERSIT DEL SALENTO

FACOLT DI SCIENZE DELLA FORMAZIONE, SCIENZE POLITICHE E SOCIALI

Corso Di Laurea Magistrale in Metodologia dellIntervento Psicologico


A cura di: Serena Bianco; Codruta Terbea; Francesca Lacerenza

INDICE

1. ANALISI IN COMPONENTI PRINCIPALI (ACP)1.1. Introduzione21.2. Descrizione del caso studio e delle variabili21.3. Il processo di analisi31.4. Interpretazione dei dati e conclusioni14

2. ANALISI DEI CLUSTER2.1. Introduzione152.2. Descrizione del caso studio e delle variabili152.3. Il processo di analisi162.4. Misure di distanza192.5. Creazione dei clusters212.6. Interpretazione dei dati e conclusioni29

Bibliografia30

1. ANALISI IN COMPONENTI PRINCIPALI (ACP)

1.1. INTRODUZIONE

LAnalisi in Componenti Principali (ACP) una tecnica di analisi statistica fattoriale che mira a ridurre la dimensionalit dello spazio del fenomeno che stiamo studiando, riducendolo ad uno spazio di due (massimo) tre dimensioni, per migliorare linterpretabilit del fenomeno stesso. Ci possibile estraendo nuove variabili latenti che sintetizzano la variabilit complessiva dei dati; tali variabili latenti sono definite componenti principali proprio perch riescono a spiegare gran parte della variabilit complessiva del fenomeno. LACP applicabile esclusivamente su dati quantitativi. Vengono utilizzate matrici di n righe e p colonne - dove per riga ci sono gli individui e per colonna le variabili.

1.2. DESCRIZIONE DEL CASO STUDIO E DELLE VARIABILI

Il caso studio che prenderemo in esame fa parte di un progetto che si posto lobiettivo di: analizzare la percezione che gli studenti hanno della qualit delle loro relazioni con il mondo dei pari e con il mondo adulto; esplorare il rapporto tra qualit percepita delle relazioni e valutazioni di profitto ottenute nel primo semestre, nellipotesi che la prima variabile organizzi le forme e la qualit della partecipazione degli studenti al setting formativo e conseguentemente i loro risultati.Per rilevare la qualit delle relazioni interpersonali, percepita dagli studenti coinvolti dallindagine, stato utilizzato Il TRI (Test delle Relazioni Interpersonali, di Bruce Bracken). Si tratta di uno strumento normato su un vasto campione nazionale di bambini e adolescenti di et compresa fra i 9 e i 19 anni e frequentemente utilizzato in ambito psicopedagogico. Lo strumento si compone di 5 scale, che valutano separatamente le relazioni con coetanei, coetanee, madre, padre e insegnanti. I dati grezzi di ciascuna scala vengono trasformati in 5 indici sintetici e in un Indice Globale delle Relazioni (IGR) - espressi in punteggi standard - grazie al riferimento alle tabelle contenute nel manuale di siglatura del test, che tengono conto dellet e del sesso del rispondente. La siglatura permette di ottenere 5 indici sintetici e un Indice Globale delle Relazioni (IGR). LIGR viene espresso anche in punti T, sempre attraverso le tabelle.La tabella seguente presenta le classificazioni dei punteggi ottenibili al TRI, che descrivono la percezione della qualit delle relazioni lungo un continuum che va dal positivo al negativo.

Tab. Classificazione delle relazioni interpersonali nelle diverse fasce di punteggi standard

Fasce di punteggioClassificazione

Sopra 125Relazioni estremamente positive

111-125Relazioni positive

90-110Relazioni nella norma

76-89Relazioni negative

Sotto 76Relazioni estremamente negative

Applicheremo lanalisi in componenti principali su otto variabili (la relazione con: madre, padre, coetanei, coetanee, insegnanti; lIGR; il punteggio espresso in punti T; la media dei voti), relative a 31 studenti frequentanti la scuola secondaria di I grado di Monteroni (LE). Per garantire la privacy, il nome dello studente stato sostituito da un codice numerico (da 1 a 31), lo stesso riportato sul test da lui compilato.Come abbiamo gi accennato per quanto riguarda gli scopi dellACP, si cercher di ridurre la variabilit complessiva estraendo nuove componenti principali capaci di descrivere in modo pi sintetico il fenomeno indagato.

Di seguito presentato il dataset sul quale verr effettuata lanalisi:

STUDENTIMADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI TMEDIA VOTI

194901101028897486,5

298106921028597487,3

3971029993104102516,5

4899784938582387,5

510196101979499495,9

69085113877985407,4

7727369768265274,9

810311293908497485,8

975831021127582386,5

108383901019886416,3

117911211411097104537,5

129094799010485406,1

13928668999373325,3

1488911051098694468,1

159910210599104104537,5

169610412010397107557,4

179910710699107106546,7

18949072699772315,7

1991100981089399498,8

20788191759669294,7

2191771131198495475,8

22858595989687417,1

237575767010265275,8

249695881069796476,7

25839096859784396,3

2610210096818890436,3

2710610512773111106546

288166871019576346,2

2992951199095100506,3

3095941011009095477,2

319795108107111109568,4

1.3. IL PROCESSO DI ANALISI

Dopo aver salvato il dataset in formato .csv, lo carichiamo in RStudio:

> Data.set.ACP View(Data.set.ACP)

Definiamo un oggetto X equivalente al dataset completo, meno la prima colonna che contiene esclusivamente il numero delenco degli studenti perci non partecipa allanalisi:

> X View(X)

MADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI TMEDIA.VOTI

194901101028897486,5

298106921028597487,3

3971029993104102516,5

4899784938582387,5

510196101979499495,9

69085113877985407,4

7727369768265274,9

810311293908497485,8

975831021127582386,5

108383901019886416,3

117911211411097104537,5

129094799010485406,1

13928668999373325,3

1488911051098694468,1

159910210599104104537,5

169610412010397107557,4

179910710699107106546,7

18949072699772315,7

1991100981089399498,8

20788191759669294,7

2191771131198495475,8

22858595989687417,1

237575767010265275,8

249695881069796476,7

25839096859784396,3

2610210096818890436,3

2710610512773111106546

288166871019576346,2

2992951199095100506,3

3095941011009095477,2

319795108107111109568,4

Calcoliamo la media aritmetica per ogni colonna, per ottenere una prima sintesi delle otto variabili; arrotondiamo alla terza cifra decimale:

> medie View(round(medie,3))

row.namesX

1MADRE90.677

2PADRE92.613

3COETANEI97.323

4COETANEE94.968

5INSEGNANTI94.000

6IGR90.581

7PUNTI.T43.710

8MEDIA.VOTI 6.597

Costruiamo ora una matrice contenente le medie di colonna ripetute per le 31 osservazioni:

> M Xm Xc View(round(Xc,3))

MADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI.TMEDIA.VOTI

13.323-2.61312.6777.032-66.4194.29-0.097

27.32313.387-5.3237.032-96.4194.290.703

36.3239.3871.677-1.9681011.4197.29-0.097

4-1.6774.387-13.323-1.968-9-8.581-5.710.903

510.3233.3873.6772.03208.4195.29-0.697

6-0.677-7.61315.677-7.968-15-5.581-3.710.803

7-18.677-19.613-28.323-18.968-12-25.581-16.71-1.697

812.32319.387-4.323-4.968-106.4194.29-0.797

9-15.677-9.6134.67717.032-19-8.581-5.71-0.097

10-7.677-9.613-7.3236.0324-4.581-2.71-0.297

11-11.67719.38716.67715.032313.4199.290.903

12-0.6771.387-18.323-4.96810-5.581-3.71-0.497

131.323-6.613-29.3234.032-1-17.581-11.71-1.297

14-2.677-1.6137.67714.032-83.4192.291.503

158.3239.3877.6774.0321013.4199.290.903

165.32311.38722.6778.032316.41911.290.803

178.32314.3878.6774.0321315.41910.290.103

183.323-2.613-25.323-25.9683-18.581-12.71-0.897

190.3237.3870.67713.032-18.4195.292.203

20-12.677-11.613-6.323-19.9682-21.581-14.71-1.897

210.323-15.61315.67724.032-104.4193.29-0.797

22-5.677-7.613-2.3233.0322-3.581-2.710.503

23-15.677-17.613-21.323-24.9688-25.581-16.71-0.797

245.3232.387-9.32311.03235.4193.290.103

25-7.677-2.613-1.323-9.9683-6.581-4.71-0.297

2611.3237.387-1.323-13.968-6-0.581-0.71-0.297

2715.32312.38729.677-21.9681715.41910.29-0.597

28-9.677-26.613-10.3236.0321-14.581-9.71-0.397

291.3232.38721.677-4.96819.4196.29-0.297

304.3231.3873.6775.032-44.4193.290.603

316.3232.38710.67712.0321718.41912.291.803

Per avere una misura iniziale del rapporto tra le otto variabili, costruiamo la matrice delle devianze/codevianze (Xc'Xc). Si tratta di una matrice diagonale e simmetrica, caratterizzata dal fatto che gli elementi sulla diagonale maggiore (che va da sinistra a destra) rappresentano la codevianza delle variabili con se stesse (quindi la devianza), mentre gli elementi al di sopra e al di sotto della diagonale maggiore costituiscono la codevianza fra le differenti variabili e sono identici fra loro (infatti solitamente gli elementi al di sopra della diagonale si possono omettere).

> cod View(round(cod,3))

row.namesMADREPADRECOETANEICOETANEEINSEGN.IGRPUNTI.TMEDIA.VOTI

1MADRE2386.7742081.1291498.226203.677668.0002349.8061551.09756.268

2PADRE2081.1293907.3552166.871570.613794.0003307.9682196.516137.661

3COETANEI1498.2262166.8716768.7742079.323468.0004511.1943023.903186.632

4COETANEE203.677570.6132079.3235028.968-680.0002541.5811714.710207.297

5INSEGNANTI668.000794.000468.000-680.0002428.0001114.000738.00014.400

6IGR2349.8063307.9684511.1942541.5811114.0004937.5483296.226218.458

7PUNTI.T1551.0972196.5163023.9031714.710738.0003296.2262202.387145.971

8MEDIA.VOTI56.268137.661186.632207.29714.400218.458145.97127.730

Dato che la codevianza (come la devianza) risente dellinfluenza della numerosit del campione, preferibile utilizzare la covarianza. Dividiamo la matrice centrata per 1/radq(n-1); poi calcoliamo la covarianza come Xcn'Xcn. La divisione indicata utilizzata quando abbiamo un campione con bassa numerosit, come nel nostro caso.

> Xcn cov View(round(cov,3))

row.namesMADREPADRECOETANEICOETANEEINSEGN.IGRPUNTI.TMEDIA.VOTI

1MADRE79.55969.37149.9416.78922.26778.32751.7031.876

2PADRE69.371130.24572.22919.02026.467110.26673.2174.589

3COETANEI49.94172.229225.62669.31115.600150.373100.7976.221

4COETANEE6.78919.02069.311167.632-22.66784.71957.1576.910

5INSEGNANTI22.26726.46715.600-22.66780.93337.13324.6000.480

6IGR78.327110.266150.37384.71937.133164.585109.8747.282

7PUNTI.T51.70373.217100.79757.15724.600109.87473.4134.866

8MEDIA.VOTI1.8764.5896.2216.9100.4807.2824.8660.924

La covarianza risolve il problema relativo alla numerosit campionaria, ma presenta il limite di dipendere sempre dallunit di misura impiegata. Per ottenere una misura a-dimensionale, calcoliamo la deviazione standard (sd) relativa alle colonne, ottenuta come radice quadrata della covarianza.

> sigma View(round(sigma,3))

row.namesX

1MADRE8.920

2PADRE11.413

3COETANEI15.021

4COETANEE12.947

5INSEGNANTI8.996

6IGR12.829

7PUNTI.T8.568

8MEDIA.VOTI0.961

Successivamente creiamo la matrice delle deviazioni standard (come fatto in precedenza per la matrice delle medie):

> SD SD Z View(round(Z,3))


10.068-0.0420.1540.099-0.1220.0910.091-0.018

20.1500.214-0.0650.099-0.1830.0910.0910.134

30.1290.1500.020-0.0280.2030.1630.155-0.018

4-0.0340.070-0.162-0.028-0.183-0.122-0.1220.172

50.2110.0540.0450.0290.0000.1200.113-0.132

6-0.014-0.1220.191-0.112-0.304-0.079-0.0790.153

7-0.382-0.314-0.344-0.267-0.244-0.364-0.356-0.322

80.2520.310-0.053-0.070-0.2030.0910.091-0.151

9-0.321-0.1540.0570.240-0.386-0.122-0.122-0.018

10-0.157-0.154-0.0890.0850.081-0.065-0.058-0.056

11-0.2390.3100.2030.2120.0610.1910.1980.172

12-0.0140.022-0.223-0.0700.203-0.079-0.079-0.094

130.027-0.106-0.3560.057-0.020-0.250-0.250-0.246

14-0.055-0.0260.0930.198-0.1620.0490.0490.285

150.1700.1500.0930.0570.2030.1910.1980.172

160.1090.1820.2760.1130.0610.2340.2410.153

170.1700.2300.1050.0570.2640.2190.2190.020

180.068-0.042-0.308-0.3660.061-0.264-0.271-0.170

190.0070.1180.0080.184-0.0200.1200.1130.418

20-0.259-0.186-0.077-0.2820.041-0.307-0.313-0.360

210.007-0.2500.1910.339-0.2030.0630.070-0.151

22-0.116-0.122-0.0280.0430.041-0.051-0.0580.096

23-0.321-0.282-0.259-0.3520.162-0.364-0.356-0.151

240.1090.038-0.1130.1560.0610.0770.0700.020

25-0.157-0.042-0.016-0.1410.061-0.094-0.100-0.056

260.2320.118-0.016-0.197-0.122-0.008-0.015-0.056

270.3140.1980.361-0.3100.3450.2190.219-0.113

28-0.198-0.426-0.1250.0850.020-0.208-0.207-0.075

290.0270.0380.263-0.0700.0200.1340.134-0.056

300.0880.0220.0450.071-0.0810.0630.0700.115

310.1290.0380.1300.1700.3450.2620.2620.342

In questa maniera abbiamo standardizzato i dati e i valori ottenuti sono diventati adimensionali, non essendo pi influenzati dallunit di misura. Abbiamo eliminato leffetto della metrica, in modo da poter confrontare i dati tra di loro.

A questo punto costruiamo la matrice di correlazione (R) pre-moltiplicando la matrice Z (centrata e standardizzata) per il suo trasposto (R=Z'Z). La matrice di correlazione ha tutti 1 sulla diagonale maggiore e le correlazioni al di fuori della diagonale. La somma degli elementi sulla diagonale maggiore si chiama traccia e rappresenta la varianza totale, ovvero la misura della variabilit complessiva del fenomeno (che in questo caso pari a 8).

> R View(round(R,3))

row.namesMADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI.TMEDIA.VOTI

1MADRE1.0000.6810.3730.0590.2770.6840.6770.219

2PADRE0.6811.0000.4210.1290.2580.7530.7490.418

3COETANEI0.3730.4211.0000.3560.1150.7800.7830.431

4COETANEE0.0590.1290.3561.000-0.1950.5100.5150.555

5INSEGNANTI0.2770.2580.115-0.1951.0000.3220.3190.055

6IGR0.6840.7530.7800.5100.3221.0001.0000.590

7PUNTI.T0.6770.7490.7830.5150.3191.0001.0000.591

8MEDIA.VOTI0.2190.4180.4310.5550.0550.5900.5911.000

Ora possiamo effettuare lAnalisi in Componenti Principali (ACP), con lo scopo di massimizzare la variabilit spiegata e di minimizzare quella residua.Attraverso il comando eigen, otteniamo una lista di due elementi: gli autovalori (eig$values), che rappresentano la variabilit spiegata del fenomeno; gli autovettori (eig$vectors), che rappresentano la variabilit residua.

> eig lambda round(lambda,3)

[1] 4.444 1.470 0.748 0.600 0.432 0.270 0.036 0.000

Rapportando ogni (lambda) alla varianza totale, data dalla traccia della matrice di correlazione R, si ottiene la quota di varianza spiegata da ciascuna componente rispetto alla variabilit totale.

> varexp round(varexp,3)

[1] 55.552 18.379 9.345 7.499 5.397 3.377 0.447 0.004

Calcolando la varianza spiegata cumulata, determiniamo la quota di varianza spiegata da pi componenti - sempre rispetto alla variabilit totale:

> var_cum round(var_cum,3)

[1] 55.552 73.931 83.276 90.775 96.172 99.549 99.996 100.000

Illustriamo la variabilit spiegata dalle diverse componenti con un diagramma a barre degli autovalori (scree-plot).

> barplot(lambda,main="Scree-plot autovalori",xlab="n.componenti",ylab="lambda",col="turquoise3")

Ora dobbiamo scegliere tra le otto componenti quelle che spiegano la maggior parte del fenomeno indagato. Una parte dei dati a disposizione verr tralasciata, ma si otterr una descrizione pi sintetica e utile del fenomeno.

La scelta delle componenti pu essere fatta secondo tre diversi criteri:

Quota di varianza spiegata sul totale: la soglia convenzionale utilizzata quella dell80%; facendo riferimento alla varianza spiegata cumulata, nel nostro caso le prime 3 componenti spiegano l83,276% della variabilit complessiva dei dati.

Scelta delle componenti che spiegano una varianza superiore a quella spiegata da ogni singola variabile originaria: poich ogni variabile originaria ha varianza=1, si scelgono le CP i cui autovalori risultano > 1. Nel caso studio, la condizione risulta soddisfatta dalle prime due componenti (la prima ha = 4,444; la seconda ha = 1,470).

Valutazione dello scree-plot: vengono scelte le componenti precedenti al punto in cui c una caduta evidente dello scree-plot, dunque della varianza spiegata da ciascun fattore. In questo caso, lo stacco netto avviene fra la prima e la seconda componente, per cui dovrebbe essere scelta solo la prima CP.

Nel caso preso in esame, i tre criteri non combaciano; valutiamo con attenzione come ottenere una migliore interpretabilit del fenomeno. Sembra opportuno scegliere le prime 2 componenti dato che: in relazione al primo criterio, esse spiegano il 73,931% della variabilit totale dunque una quota piuttosto significativa; in relazione al secondo criterio, sono le sole componenti con autovalore maggiore di 1; in relazione al terzo criterio, il salto massimo nello scree-plot si trova tra le prime due componenti in quanto la prima spiega gi il 55,552% della variabilit complessiva; tuttavia la seconda spiega il 18,379%, che comunque una quota troppo rilevante per poter essere esclusa dallanalisi.

Estraiamo ora gli autovettori u dalloggetto eig.

> u View(round(u,3))

V1V2V3V4V5V6V7V8

1-0.3340.365-0.4390.1330.3380.6130.2340.012

2-0.3730.253-0.3160.344-0.248-0.6420.3240.005

3-0.364-0.1200.039-0.745-0.3370.0880.4190.003

4-0.239-0.6080.1370.1150.625-0.1720.3490.002

5-0.1460.5410.7830.0570.171-0.0230.1980.003

6-0.4690.0080.018-0.1040.097-0.079-0.491-0.716

7-0.4690.0020.023-0.1110.098-0.088-0.5130.698

8-0.314-0.3550.2700.520-0.5220.4000.0210.003

Ora calcoliamo le componenti principali, moltiplicando gli autovettori per la matrice standardizzata:

> CP View(round(CP,3))

V1V2V3V4V5V6V7V8

1-0.149-0.123-0.094-0.1450.0500.045-0.015-0.001

2-0.231-0.089-0.2260.193-0.002-0.026-0.0130.001

3-0.2730.2180.0530.0180.058-0.049-0.042-0.005

40.138-0.120-0.1190.242-0.1360.0180.0270.002

5-0.1820.116-0.135-0.0770.1520.021-0.024-0.005

60.079-0.210-0.164-0.119-0.2560.1870.0200.001

70.908-0.036-0.075-0.037-0.046-0.080-0.1230.003

8-0.1730.164-0.4170.0620.044-0.108-0.0220.002

90.263-0.512-0.087-0.116-0.019-0.1120.028-0.003

100.185-0.0740.172-0.0090.100-0.034-0.0180.004

11-0.405-0.1880.146-0.001-0.135-0.3300.0240.002

120.1680.2120.1110.1430.090-0.0600.0040.001

130.4610.065-0.0770.1640.267-0.0130.0840.003

14-0.165-0.3470.0150.066-0.0870.0670.0120.000

15-0.4260.1050.1020.0700.0080.038-0.0040.006

16-0.511-0.0350.019-0.083-0.053-0.0250.0170.005

17-0.4450.2110.0850.0080.078-0.0790.0110.000

180.4880.364-0.0880.154-0.0450.0800.023-0.001

19-0.331-0.2390.0870.248-0.1140.046-0.004-0.005

200.6490.1850.053-0.192-0.057-0.0910.060-0.005

21-0.045-0.345-0.067-0.2920.2690.0560.0080.003

220.099-0.1080.1500.032-0.0260.0440.001-0.005

230.7520.1940.2430.021-0.1350.018-0.0080.005

24-0.131-0.0050.0130.1280.1770.000-0.017-0.005

250.2070.0710.091-0.044-0.104-0.0540.002-0.005

26-0.0220.190-0.2780.027-0.0620.0810.003-0.002

27-0.4560.5390.020-0.281-0.0970.0600.0270.002

280.465-0.1810.216-0.0630.1370.1300.003-0.001

29-0.2130.063-0.017-0.244-0.074-0.018-0.027-0.001

30-0.158-0.094-0.0640.035-0.0070.068-0.0090.005

31-0.5490.0060.3330.0940.0280.122-0.0310.000

Calcoliamo il FACTOR PATTERN o matrice dei pesi, che costituita dalle correlazioni tra le variabili originarie (x) e le nuove componenti principali (CP) o variabili latenti e rappresenta il contributo di ciascuna variabile nel determinare le componenti principali. Un peso elevato indica che la variabile influisce molto sulla componente, quindi questa spiega buona parte della varianza totale attribuibile a quella variabile.

> FP View(round(FP,3))

row.namesV1V2V3V4V5V6V7V8

1MADRE-0.7050.443-0.3800.1030.2220.3190.0440.000

2PADRE-0.7870.307-0.2730.266-0.163-0.3340.0610.000

3COETANEI-0.767-0.1450.034-0.577-0.2210.0460.0790.000

4COETANEE-0.504-0.7370.1190.0890.411-0.0900.0660.000

5INSEGNANTI-0.3070.6560.6770.0440.112-0.0120.0380.000

6IGR-0.9890.0100.015-0.0800.064-0.041-0.093-0.013

7PUNTI.T-0.9880.0030.020-0.0860.064-0.046-0.0970.013

8MEDIA.VOTI-0.661-0.4310.2330.403-0.3430.2080.0040.000

Selezioniamo le prime 2 CP, come abbiamo precedentemente stabilito, e studiamo le correlazioni fra le variabili originarie e le due nuove variabili latenti ottenute.

> FP4ax View(round(FP4ax,3))

row.namesV1V2

1MADRE-0.7050.443

2PADRE-0.7870.307

3COETANEI-0.767-0.145

4COETANEE-0.504-0.737

5INSEGNANTI-0.3070.656

6IGR-0.9890.010

7PUNTI.T-0.9880.003

8MEDIA.VOTI-0.661-0.431

Adesso rappresentiamo le variabili nello spazio Rn, tracciando il cerchio delle correlazioni con le prime due CP.

> par()$pty

[1] "m"

> par(pty="s")

> plot(FP[,1:2],xlab="CP1",ylab="CP2",type="n",xlim=c(-1,1),ylim=c(-1,1))

> variabili text(FP[,1],FP[,2],labels=variabili)

> abline(h=0,v=0)

> install.packages(plotrix)

> library("plotrix", lib.loc="C:/Users/Asus/Documents/R/win-library/3.0")

> draw.circle(0,0,c(-1,0,1),border="turquoise3")

> for(j in 1:8)

+ arrows(0,0,FP[j,1],FP[j,2],length=0.1)

I punti/vettori sono rappresentati su un piano cartesiano i cui due assi sono intestati alle CP scelte. Le coordinate dei punti sono date dalle correlazioni della variabile con le due CP rappresentate.

Cerchio delle correlazioni assi CP1 e CP2

Interpretiamo i fattori considerando la correlazione di ciascuna variabile con l'asse. Maggiore la lunghezza della freccia e la vicinanza all'asse, maggiore la correlazione con il fattore. Gli angoli tra punti-variabile possono essere interpretati come correlazioni tra le stesse.

Rappresentiamo ora le unit statistiche o individui nello spazio Rp, cio la posizione dei 31 studenti allinterno dello spazio fattoriale delle variabili, mediante un grafico i cui due assi sono intestati alle due CP scelte e i punti/vettori relativi vengono tracciati usando - come ascissa e ordinata - i corrispondenti elementi delle CP.

> plot(CP[,1:2],xlab="CP1",ylab="CP2",type="n",xlim=c(-1.5,1.5),ylim=c(-1.5,1.5))

> STUDENTI text(CP[,1],CP[,2],labels=STUDENTI)

> abline(h=0,v=0,lty=2,lwd=1.5)

Posizione degli individui (studenti) sui primi due fattori

Infine costruiamo una rappresentazione congiunta degli individui e delle variabili, per capire come si posizionano individui e variabili rispetto ai due fattori.

> biplot(CP[,1:2],FP[,1:2],xlim=c(-1,1), ylim=c(-1,1),xlab="CP1",ylab= "CP2",main="Biplot individui-variabili")

> draw.circle(0,0, c(-1,0,1),border=" turquoise3")

> abline(h=0,v=0,lty=2,lwd=1.5)

Dato che la variabile coetanei non risulta ben rappresentata, preferibile escluderla dallanalisi. Rielaboriamo il grafico, senza la variabile coetanei per poter procedere allinterpretazione dei risultati.

> FP.senza.coetanei FP FP4ax FP4ax

row.names V1 V2 [1,] "MADRE" "-0.705" " 0.443"[2,] "PADRE" "-0.787" " 0.307"[3,] "COETANEE" "-0.504" "-0.737"[4,] "INSEGNANTI" "-0.307" " 0.656"[5,] "IGR" "-0.989" " 0.010"[6,] "PUNTI.T" "-0.988" " 0.003"[7,] "MEDIA.VOTI" "-0.661" "-0.431"

1.4. INTERPRETAZIONE DEI RISULTATI E CONCLUSIONI

Il test esamina le relazioni in 3 principali contesti di esperienza: le relazioni interpersonali con i pari, le relazioni familiari e le relazioni scolastiche.CP1- fattori extra-familiariCP2. Fattori intra-familiari

2. ANALISI DEI CLUSTER

2.1. INTRODUZIONE Lanalisi dei cluster una tecnica statistica fattoriale che ha come obiettivo quello di creare dei gruppi, che racchiudano i diversi elementi del fenomeno oggetto di studio, che risultino al contempoil pi possibile: omogenei al loro interno; il pi possibile differenti gli uni dagli altri.Questoperazione viene effettuata al fine di offrire una descrizione pi sintetica e globale del fenomeno stesso.Le tecniche di clustering si basano su misure relative alla somiglianza tra gli elementi. In molti approcci questa similarit, o meglio, dissimilarit, concepita in termini di distanza in uno spazio multidimensionale.La bont delle analisi ottenute dagli algoritmi di clustering dipende molto dalla scelta della metrica, e quindi da com calcolata la distanza. Tale analisi si compone di 4 fasi: Scelta delle variabili; Rilevazione dei dati; Elaborazione dei dati; Verifica e utilizzo dei risultati.Il cluster una volta ottenuto, utile se: Abbastanza numeroso Chiaramente identificabile Stabile Redditizio Facilmente raggiungibileVi sono inoltre alcune caratteristiche peculiari della cluster analysis: robustezza (affinch si possano rilevare i dati anomali); scalabilit (osservazione di grandi database); osservabilit di variabili differenti (qualitative, quantitative); variabili con ruoli diversi (attive e passive).

Indici di Dissimilarit: una misura del grado di dissimilarit, ovvero di diversit tra i e j.Il tipo di indice dipende dal tipo di variabile, ma di solito soddisfa i seguenti requisiti: 0 =0 =

2.2. DESCRIZIONE DEL CASO E STUDIO DELLE VARIABILILanalisi del cluster verr effettuata a partire dal data set gi utilizzato per lanalisi in componenti principali (ACP).Sono stati tuttavia presi in considerazione esclusivamente 31 osservazioni, messi in relazione con le variabili precedenti.

XMADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI. TMEDIA. VOTI

110.068-0.0420.1540.099-0.1220.0910.091-0.018

220.1500.214-0.0650.099-0.1830.0910.0910.134

330.1290.1500.020-0.0280.2030.1630.155-0.018

44-0.0340.070-0.162-0.028-0.183-0.122-0.1220.172

550.2110.0540.0450.0290.0000.1200.113-0.132

66-0.014-0.1220.191-0.112-0.304-0.079-0.0790.153

77-0.382-0.314-0.344-0.267-0.244-0.364-0.356-0.322

880.2520.310-0.053-0.070-0.2030.0910.091-0.151

99-0.321-0.1540.0570.240-0.386-0.122-0.122-0.018

1010-0.157-0.154-0.0890.0850.081-0.065-0.058-0.056

1111-0.2390.3100.2030.2120.0610.1910.1980.172

1212-0.0140.022-0.223-0.0700.203-0.079-0.079-0.094

13130.027-0.106-0.3560.057-0.020-0.250-0.250-0.246

1414-0.055-0.0260.0930.198-0.1620.0490.0490.285

15150.1700.1500.0930.0570.2030.1910.1980.172

16160.1090.1820.2760.1130.0610.2340.2410.153

17170.1700.2300.1050.0570.2640.2190.2190.020

18180.068-0.042-0.308-0.3660.061-0.264-0.271-0.170

19190.0070.1180.0080.184-0.0200.1200.1130.418

2020-0.259-0.186-0.077-0.2820.041-0.307-0.313-0.360

21210.007-0.2500.1910.339-0.2030.0630.070-0.151

2222-0.116-0.122-0.0280.0430.041-0.051-0.0580.096

2323-0.321-0.282-0.259-0.3520.162-0.364-0.356-0.151

24240.1090.038-0.1130.1560.0610.0770.0700.020

2525-0.157-0.042-0.016-0.1410.061-0.094-0.100-0.056

26260.2320.118-0.016-0.197-0.122-0.008-0.015-0.056

27270.3140.1980.361-0.3100.3450.2190.219-0.113

2828-0.198-0.426-0.1250.0850.020-0.208-0.207-0.075

29290.0270.0380.263-0.0700.0200.1340.134-0.056

30300.0880.0220.0450.071-0.0810.0630.0700.115

31310.1290.0380.1300.1700.3450.2620.2620.300

2.3. IL PROCESSO DI ANALISICostruiamo loggetto X, che corrisponde al data set privato della prima colonna, contenente le denominazioni dei.MADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI. TMEDIA. VOTI

10.068-0.0420.1540.099-0.1220.0910.091-0.018

20.1500.214-0.0650.099-0.1830.0910.0910.134

30.1290.1500.020-0.0280.2030.1630.155-0.018

4-0.0340.070-0.162-0.028-0.183-0.122-0.1220.172

50.2110.0540.0450.0290.0000.1200.113-0.132

6-0.014-0.1220.191-0.112-0.304-0.079-0.0790.153

7-0.382-0.314-0.344-0.267-0.244-0.364-0.356-0.322

80.2520.310-0.053-0.070-0.2030.0910.091-0.151

9-0.321-0.1540.0570.240-0.386-0.122-0.122-0.018

10-0.157-0.154-0.0890.0850.081-0.065-0.058-0.056

11-0.2390.3100.2030.2120.0610.1910.1980.172

12-0.0140.022-0.223-0.0700.203-0.079-0.079-0.094

130.027-0.106-0.3560.057-0.020-0.250-0.250-0.246

14-0.055-0.0260.0930.198-0.1620.0490.0490.285

150.1700.1500.0930.0570.2030.1910.1980.172

160.1090.1820.2760.1130.0610.2340.2410.153

170.1700.2300.1050.0570.2640.2190.2190.020

180.068-0.042-0.308-0.3660.061-0.264-0.271-0.170

190.0070.1180.0080.184-0.0200.1200.1130.418

20-0.259-0.186-0.077-0.2820.041-0.307-0.313-0.360

210.007-0.2500.1910.339-0.2030.0630.070-0.151

22-0.116-0.122-0.0280.0430.041-0.051-0.0580.096

23-0.321-0.282-0.259-0.3520.162-0.364-0.356-0.151

240.1090.038-0.1130.1560.0610.0770.0700.020

25-0.157-0.042-0.016-0.1410.061-0.094-0.100-0.056

260.2320.118-0.016-0.197-0.122-0.008-0.015-0.056

270.3140.1980.361-0.3100.3450.2190.219-0.113

28-0.198-0.426-0.1250.0850.020-0.208-0.207-0.075

290.0270.0380.263-0.0700.0200.1340.134-0.056

300.0880.0220.0450.071-0.0810.0630.0700.115

310.1290.0380.1300.1700.3450.2620.2620.300

Poich la misura della distanza fra le righe risente dellunit di misura, lanalisi non verr effettuata sulla matrice x, ma su una nuova matrice Z, standardizzata:> Z View(round(Z,3))


10.373-0.2290.8430.542-0.6680.4980.499-0.094

20.8221.173-0.3560.542-1.0020.4980.4990.750

30.7070.8230.109-0.1541.1120.8930.849-0.094

4-0.1860.384-0.887-0.154-1.002-0.669-0.6680.961

51.1560.2970.2460.1590.0000.6570.619-0.727

6-0.077-0.6671.046-0.614-1.665-0.433-0.4320.856

7-2.093-1.719-1.884-1.462-1.336-1.994-1.950-1.783

81.3811.699-0.290-0.384-1.1120.4980.499-0.833

9-1.759-0.8420.3121.314-2.114-0.669-0.668-0.094

10-0.860-0.842-0.4880.4650.444-0.356-0.317-0.305

11-1.3101.6991.1121.1610.3341.0461.0850.961

12-0.0770.122-1.222-0.3841.112-0.433-0.432-0.516

130.148-0.579-1.9500.312-0.110-1.370-1.369-1.361

14-0.301-0.1410.5091.084-0.8870.2680.2691.589

150.9320.8230.5090.3121.1121.0461.0850.961

160.5970.9981.5110.6190.3341.2821.3200.856

170.9321.2610.5750.3121.4461.2001.2000.117

180.373-0.229-1.687-2.0050.334-1.447-1.484-0.939

190.0380.6470.0441.007-0.1100.6570.6192.328

20-1.419-1.018-0.422-1.5440.224-1.682-1.714-1.994

210.038-1.3681.0461.856-1.1120.3450.384-0.833

22-0.636-0.667-0.1540.2350.224-0.280-0.3170.539

23-1.759-1.543-1.419-1.9280.887-1.994-1.950-0.833

240.5970.209-0.6190.8540.3340.4220.3840.117

25-0.860-0.229-0.088-0.7720.334-0.515-0.547-0.305

261.2710.647-0.088-1.079-0.668-0.044-0.082-0.305

271.7211.0851.977-1.6981.8891.2001.200-0.622

28-1.085-2.332-0.6850.4650.110-1.140-1.133-0.411

290.1480.2091.440-0.3840.1100.7340.734-0.305

300.4820.1220.2460.389-0.4440.3450.3840.645

310.7070.2090.7120.9311.8891.4351.4351.673

Mettiamo in luce ora il fatto che lanalisi deve essere effettuata sulle righe e, nel caso specifico, sulle 31 osservazioni, presenti nella prima colonna del dataset:> rownames(Z) d d d

Tabella 1 distanza euclidea (GUARDA IL FILE DI WORD)

Calcoliamo ora la distanza di Manhattan:> d_m d_m d_m

Tabella 2 distanza di Man.(GUARDA IL FILE DI WORD)

2.5. CREAZIONE DEI CLUSTERIniziamo quindi a raggruppare le osservazioni, vi sono diversi legami che possono creare dei cluster, e quelli maggiormente utilizzati sono i seguenti:1) LEGAME SINGOLO: la distanza tra due gruppi determinata dalla distanza minore esistente fra i rispettivi elementi dei gruppi, esso risulta essere nella composizione dei cluster molto veloce, con lunico svantaggio che si riscontra nella formazione dei gruppi filiformi, ovvero troppo omogenei tra loro.=min()

2) LEGAME COMPLETO: la distanza tra due gruppi determinata dalla distanza maggiore esistente fra i rispettivi elementi dei gruppi, esso risulta essere pi lento rispetto al lega singolo, e definisce dei gruppi omogenei allinterno ed eterogenei allesterno.=max()

3) LEGAME MEDIO: la distanza tra i due gruppi determinate dalla media aritmetica delle distanze fra tutti gli elementi dei gruppi stessi.

Procediamo con il metodo del legame singolo, questo metodo denominato anche del salto minimo, che sta a significare che la distanza tra i due gruppi data dalla minore delle distanze tra i rispettivi elementi.hc_s n n_clus d_fus_s

Effettuiamo infine le stesse operazioni con il metodo del legame medio:hc_a

Analisi in Componenti Principali e Analisi Dei Cluster

Documents

Transcript of Analisi in Componenti Principali e Analisi Dei Cluster