Analisi in Componenti Principali e Analisi Dei Cluster
Transcript of Analisi in Componenti Principali e Analisi Dei Cluster
ANALISI IN COMPONENTI PRINCIPALI E ANALISI DEI CLUSTER APPLICATA ALLO STUDIO DELLE RELAZIONI INTERPERSONALI DI 31 STUDENTI DELLA SCUOLA SECONDARIA DI I GRADO
ANALISI IN COMPONENTI PRINCIPALI E ANALISI DEI CLUSTER APPLICATA ALLO STUDIO DELLE RELAZIONI INTERPERSONALI DI 31 STUDENTI DELLA SCUOLA SECONDARIA DI I GRADO
Docente:
Prof.Enrico CiavolinoTesina a cura di:
Serena BiancoFrancesca LacerenzaCodruta Terbea
UNIVERSIT DEL SALENTO
FACOLT DI SCIENZE DELLA FORMAZIONE, SCIENZE POLITICHE E SOCIALI
Corso Di Laurea Magistrale in Metodologia dellIntervento Psicologico
ANALISI IN COMPONENTI PRINCIPALI E ANALISI DEI CLUSTER APPLICATA ALLO STUDIO DELLE RELAZIONI INTERPERSONALI DI 31 STUDENTI DELLA SCUOLA SECONDARIA DI I GRADO
A cura di: Serena Bianco; Codruta Terbea; Francesca Lacerenza
INDICE
1. ANALISI IN COMPONENTI PRINCIPALI (ACP)1.1. Introduzione21.2. Descrizione del caso studio e delle variabili21.3. Il processo di analisi31.4. Interpretazione dei dati e conclusioni14
2. ANALISI DEI CLUSTER2.1. Introduzione152.2. Descrizione del caso studio e delle variabili152.3. Il processo di analisi162.4. Misure di distanza192.5. Creazione dei clusters212.6. Interpretazione dei dati e conclusioni29
Bibliografia30
1. ANALISI IN COMPONENTI PRINCIPALI (ACP)
1.1. INTRODUZIONE
LAnalisi in Componenti Principali (ACP) una tecnica di analisi statistica fattoriale che mira a ridurre la dimensionalit dello spazio del fenomeno che stiamo studiando, riducendolo ad uno spazio di due (massimo) tre dimensioni, per migliorare linterpretabilit del fenomeno stesso. Ci possibile estraendo nuove variabili latenti che sintetizzano la variabilit complessiva dei dati; tali variabili latenti sono definite componenti principali proprio perch riescono a spiegare gran parte della variabilit complessiva del fenomeno. LACP applicabile esclusivamente su dati quantitativi. Vengono utilizzate matrici di n righe e p colonne - dove per riga ci sono gli individui e per colonna le variabili.
1.2. DESCRIZIONE DEL CASO STUDIO E DELLE VARIABILI
Il caso studio che prenderemo in esame fa parte di un progetto che si posto lobiettivo di: analizzare la percezione che gli studenti hanno della qualit delle loro relazioni con il mondo dei pari e con il mondo adulto; esplorare il rapporto tra qualit percepita delle relazioni e valutazioni di profitto ottenute nel primo semestre, nellipotesi che la prima variabile organizzi le forme e la qualit della partecipazione degli studenti al setting formativo e conseguentemente i loro risultati.Per rilevare la qualit delle relazioni interpersonali, percepita dagli studenti coinvolti dallindagine, stato utilizzato Il TRI (Test delle Relazioni Interpersonali, di Bruce Bracken). Si tratta di uno strumento normato su un vasto campione nazionale di bambini e adolescenti di et compresa fra i 9 e i 19 anni e frequentemente utilizzato in ambito psicopedagogico. Lo strumento si compone di 5 scale, che valutano separatamente le relazioni con coetanei, coetanee, madre, padre e insegnanti. I dati grezzi di ciascuna scala vengono trasformati in 5 indici sintetici e in un Indice Globale delle Relazioni (IGR) - espressi in punteggi standard - grazie al riferimento alle tabelle contenute nel manuale di siglatura del test, che tengono conto dellet e del sesso del rispondente. La siglatura permette di ottenere 5 indici sintetici e un Indice Globale delle Relazioni (IGR). LIGR viene espresso anche in punti T, sempre attraverso le tabelle.La tabella seguente presenta le classificazioni dei punteggi ottenibili al TRI, che descrivono la percezione della qualit delle relazioni lungo un continuum che va dal positivo al negativo.
Tab. Classificazione delle relazioni interpersonali nelle diverse fasce di punteggi standard
Fasce di punteggioClassificazione
Sopra 125Relazioni estremamente positive
111-125Relazioni positive
90-110Relazioni nella norma
76-89Relazioni negative
Sotto 76Relazioni estremamente negative
Applicheremo lanalisi in componenti principali su otto variabili (la relazione con: madre, padre, coetanei, coetanee, insegnanti; lIGR; il punteggio espresso in punti T; la media dei voti), relative a 31 studenti frequentanti la scuola secondaria di I grado di Monteroni (LE). Per garantire la privacy, il nome dello studente stato sostituito da un codice numerico (da 1 a 31), lo stesso riportato sul test da lui compilato.Come abbiamo gi accennato per quanto riguarda gli scopi dellACP, si cercher di ridurre la variabilit complessiva estraendo nuove componenti principali capaci di descrivere in modo pi sintetico il fenomeno indagato.
Di seguito presentato il dataset sul quale verr effettuata lanalisi:
STUDENTIMADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI TMEDIA VOTI
194901101028897486,5
298106921028597487,3
3971029993104102516,5
4899784938582387,5
510196101979499495,9
69085113877985407,4
7727369768265274,9
810311293908497485,8
975831021127582386,5
108383901019886416,3
117911211411097104537,5
129094799010485406,1
13928668999373325,3
1488911051098694468,1
159910210599104104537,5
169610412010397107557,4
179910710699107106546,7
18949072699772315,7
1991100981089399498,8
20788191759669294,7
2191771131198495475,8
22858595989687417,1
237575767010265275,8
249695881069796476,7
25839096859784396,3
2610210096818890436,3
2710610512773111106546
288166871019576346,2
2992951199095100506,3
3095941011009095477,2
319795108107111109568,4
1.3. IL PROCESSO DI ANALISI
Dopo aver salvato il dataset in formato .csv, lo carichiamo in RStudio:
> Data.set.ACP View(Data.set.ACP)
Definiamo un oggetto X equivalente al dataset completo, meno la prima colonna che contiene esclusivamente il numero delenco degli studenti perci non partecipa allanalisi:
> X View(X)
MADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI TMEDIA.VOTI
194901101028897486,5
298106921028597487,3
3971029993104102516,5
4899784938582387,5
510196101979499495,9
69085113877985407,4
7727369768265274,9
810311293908497485,8
975831021127582386,5
108383901019886416,3
117911211411097104537,5
129094799010485406,1
13928668999373325,3
1488911051098694468,1
159910210599104104537,5
169610412010397107557,4
179910710699107106546,7
18949072699772315,7
1991100981089399498,8
20788191759669294,7
2191771131198495475,8
22858595989687417,1
237575767010265275,8
249695881069796476,7
25839096859784396,3
2610210096818890436,3
2710610512773111106546
288166871019576346,2
2992951199095100506,3
3095941011009095477,2
319795108107111109568,4
Calcoliamo la media aritmetica per ogni colonna, per ottenere una prima sintesi delle otto variabili; arrotondiamo alla terza cifra decimale:
> medie View(round(medie,3))
row.namesX
1MADRE90.677
2PADRE92.613
3COETANEI97.323
4COETANEE94.968
5INSEGNANTI94.000
6IGR90.581
7PUNTI.T43.710
8MEDIA.VOTI 6.597
Costruiamo ora una matrice contenente le medie di colonna ripetute per le 31 osservazioni:
> M Xm Xc View(round(Xc,3))
MADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI.TMEDIA.VOTI
13.323-2.61312.6777.032-66.4194.29-0.097
27.32313.387-5.3237.032-96.4194.290.703
36.3239.3871.677-1.9681011.4197.29-0.097
4-1.6774.387-13.323-1.968-9-8.581-5.710.903
510.3233.3873.6772.03208.4195.29-0.697
6-0.677-7.61315.677-7.968-15-5.581-3.710.803
7-18.677-19.613-28.323-18.968-12-25.581-16.71-1.697
812.32319.387-4.323-4.968-106.4194.29-0.797
9-15.677-9.6134.67717.032-19-8.581-5.71-0.097
10-7.677-9.613-7.3236.0324-4.581-2.71-0.297
11-11.67719.38716.67715.032313.4199.290.903
12-0.6771.387-18.323-4.96810-5.581-3.71-0.497
131.323-6.613-29.3234.032-1-17.581-11.71-1.297
14-2.677-1.6137.67714.032-83.4192.291.503
158.3239.3877.6774.0321013.4199.290.903
165.32311.38722.6778.032316.41911.290.803
178.32314.3878.6774.0321315.41910.290.103
183.323-2.613-25.323-25.9683-18.581-12.71-0.897
190.3237.3870.67713.032-18.4195.292.203
20-12.677-11.613-6.323-19.9682-21.581-14.71-1.897
210.323-15.61315.67724.032-104.4193.29-0.797
22-5.677-7.613-2.3233.0322-3.581-2.710.503
23-15.677-17.613-21.323-24.9688-25.581-16.71-0.797
245.3232.387-9.32311.03235.4193.290.103
25-7.677-2.613-1.323-9.9683-6.581-4.71-0.297
2611.3237.387-1.323-13.968-6-0.581-0.71-0.297
2715.32312.38729.677-21.9681715.41910.29-0.597
28-9.677-26.613-10.3236.0321-14.581-9.71-0.397
291.3232.38721.677-4.96819.4196.29-0.297
304.3231.3873.6775.032-44.4193.290.603
316.3232.38710.67712.0321718.41912.291.803
Per avere una misura iniziale del rapporto tra le otto variabili, costruiamo la matrice delle devianze/codevianze (Xc'Xc). Si tratta di una matrice diagonale e simmetrica, caratterizzata dal fatto che gli elementi sulla diagonale maggiore (che va da sinistra a destra) rappresentano la codevianza delle variabili con se stesse (quindi la devianza), mentre gli elementi al di sopra e al di sotto della diagonale maggiore costituiscono la codevianza fra le differenti variabili e sono identici fra loro (infatti solitamente gli elementi al di sopra della diagonale si possono omettere).
> cod View(round(cod,3))
row.namesMADREPADRECOETANEICOETANEEINSEGN.IGRPUNTI.TMEDIA.VOTI
1MADRE2386.7742081.1291498.226203.677668.0002349.8061551.09756.268
2PADRE2081.1293907.3552166.871570.613794.0003307.9682196.516137.661
3COETANEI1498.2262166.8716768.7742079.323468.0004511.1943023.903186.632
4COETANEE203.677570.6132079.3235028.968-680.0002541.5811714.710207.297
5INSEGNANTI668.000794.000468.000-680.0002428.0001114.000738.00014.400
6IGR2349.8063307.9684511.1942541.5811114.0004937.5483296.226218.458
7PUNTI.T1551.0972196.5163023.9031714.710738.0003296.2262202.387145.971
8MEDIA.VOTI56.268137.661186.632207.29714.400218.458145.97127.730
Dato che la codevianza (come la devianza) risente dellinfluenza della numerosit del campione, preferibile utilizzare la covarianza. Dividiamo la matrice centrata per 1/radq(n-1); poi calcoliamo la covarianza come Xcn'Xcn. La divisione indicata utilizzata quando abbiamo un campione con bassa numerosit, come nel nostro caso.
> Xcn cov View(round(cov,3))
row.namesMADREPADRECOETANEICOETANEEINSEGN.IGRPUNTI.TMEDIA.VOTI
1MADRE79.55969.37149.9416.78922.26778.32751.7031.876
2PADRE69.371130.24572.22919.02026.467110.26673.2174.589
3COETANEI49.94172.229225.62669.31115.600150.373100.7976.221
4COETANEE6.78919.02069.311167.632-22.66784.71957.1576.910
5INSEGNANTI22.26726.46715.600-22.66780.93337.13324.6000.480
6IGR78.327110.266150.37384.71937.133164.585109.8747.282
7PUNTI.T51.70373.217100.79757.15724.600109.87473.4134.866
8MEDIA.VOTI1.8764.5896.2216.9100.4807.2824.8660.924
La covarianza risolve il problema relativo alla numerosit campionaria, ma presenta il limite di dipendere sempre dallunit di misura impiegata. Per ottenere una misura a-dimensionale, calcoliamo la deviazione standard (sd) relativa alle colonne, ottenuta come radice quadrata della covarianza.
> sigma View(round(sigma,3))
row.namesX
1MADRE8.920
2PADRE11.413
3COETANEI15.021
4COETANEE12.947
5INSEGNANTI8.996
6IGR12.829
7PUNTI.T8.568
8MEDIA.VOTI0.961
Successivamente creiamo la matrice delle deviazioni standard (come fatto in precedenza per la matrice delle medie):
> SD SD Z View(round(Z,3))
MADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI.TMEDIA.VOTI
10.068-0.0420.1540.099-0.1220.0910.091-0.018
20.1500.214-0.0650.099-0.1830.0910.0910.134
30.1290.1500.020-0.0280.2030.1630.155-0.018
4-0.0340.070-0.162-0.028-0.183-0.122-0.1220.172
50.2110.0540.0450.0290.0000.1200.113-0.132
6-0.014-0.1220.191-0.112-0.304-0.079-0.0790.153
7-0.382-0.314-0.344-0.267-0.244-0.364-0.356-0.322
80.2520.310-0.053-0.070-0.2030.0910.091-0.151
9-0.321-0.1540.0570.240-0.386-0.122-0.122-0.018
10-0.157-0.154-0.0890.0850.081-0.065-0.058-0.056
11-0.2390.3100.2030.2120.0610.1910.1980.172
12-0.0140.022-0.223-0.0700.203-0.079-0.079-0.094
130.027-0.106-0.3560.057-0.020-0.250-0.250-0.246
14-0.055-0.0260.0930.198-0.1620.0490.0490.285
150.1700.1500.0930.0570.2030.1910.1980.172
160.1090.1820.2760.1130.0610.2340.2410.153
170.1700.2300.1050.0570.2640.2190.2190.020
180.068-0.042-0.308-0.3660.061-0.264-0.271-0.170
190.0070.1180.0080.184-0.0200.1200.1130.418
20-0.259-0.186-0.077-0.2820.041-0.307-0.313-0.360
210.007-0.2500.1910.339-0.2030.0630.070-0.151
22-0.116-0.122-0.0280.0430.041-0.051-0.0580.096
23-0.321-0.282-0.259-0.3520.162-0.364-0.356-0.151
240.1090.038-0.1130.1560.0610.0770.0700.020
25-0.157-0.042-0.016-0.1410.061-0.094-0.100-0.056
260.2320.118-0.016-0.197-0.122-0.008-0.015-0.056
270.3140.1980.361-0.3100.3450.2190.219-0.113
28-0.198-0.426-0.1250.0850.020-0.208-0.207-0.075
290.0270.0380.263-0.0700.0200.1340.134-0.056
300.0880.0220.0450.071-0.0810.0630.0700.115
310.1290.0380.1300.1700.3450.2620.2620.342
In questa maniera abbiamo standardizzato i dati e i valori ottenuti sono diventati adimensionali, non essendo pi influenzati dallunit di misura. Abbiamo eliminato leffetto della metrica, in modo da poter confrontare i dati tra di loro.
A questo punto costruiamo la matrice di correlazione (R) pre-moltiplicando la matrice Z (centrata e standardizzata) per il suo trasposto (R=Z'Z). La matrice di correlazione ha tutti 1 sulla diagonale maggiore e le correlazioni al di fuori della diagonale. La somma degli elementi sulla diagonale maggiore si chiama traccia e rappresenta la varianza totale, ovvero la misura della variabilit complessiva del fenomeno (che in questo caso pari a 8).
> R View(round(R,3))
row.namesMADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI.TMEDIA.VOTI
1MADRE1.0000.6810.3730.0590.2770.6840.6770.219
2PADRE0.6811.0000.4210.1290.2580.7530.7490.418
3COETANEI0.3730.4211.0000.3560.1150.7800.7830.431
4COETANEE0.0590.1290.3561.000-0.1950.5100.5150.555
5INSEGNANTI0.2770.2580.115-0.1951.0000.3220.3190.055
6IGR0.6840.7530.7800.5100.3221.0001.0000.590
7PUNTI.T0.6770.7490.7830.5150.3191.0001.0000.591
8MEDIA.VOTI0.2190.4180.4310.5550.0550.5900.5911.000
Ora possiamo effettuare lAnalisi in Componenti Principali (ACP), con lo scopo di massimizzare la variabilit spiegata e di minimizzare quella residua.Attraverso il comando eigen, otteniamo una lista di due elementi: gli autovalori (eig$values), che rappresentano la variabilit spiegata del fenomeno; gli autovettori (eig$vectors), che rappresentano la variabilit residua.
> eig lambda round(lambda,3)
[1] 4.444 1.470 0.748 0.600 0.432 0.270 0.036 0.000
Rapportando ogni (lambda) alla varianza totale, data dalla traccia della matrice di correlazione R, si ottiene la quota di varianza spiegata da ciascuna componente rispetto alla variabilit totale.
> varexp round(varexp,3)
[1] 55.552 18.379 9.345 7.499 5.397 3.377 0.447 0.004
Calcolando la varianza spiegata cumulata, determiniamo la quota di varianza spiegata da pi componenti - sempre rispetto alla variabilit totale:
> var_cum round(var_cum,3)
[1] 55.552 73.931 83.276 90.775 96.172 99.549 99.996 100.000
Illustriamo la variabilit spiegata dalle diverse componenti con un diagramma a barre degli autovalori (scree-plot).
> barplot(lambda,main="Scree-plot autovalori",xlab="n.componenti",ylab="lambda",col="turquoise3")
Ora dobbiamo scegliere tra le otto componenti quelle che spiegano la maggior parte del fenomeno indagato. Una parte dei dati a disposizione verr tralasciata, ma si otterr una descrizione pi sintetica e utile del fenomeno.
La scelta delle componenti pu essere fatta secondo tre diversi criteri:
Quota di varianza spiegata sul totale: la soglia convenzionale utilizzata quella dell80%; facendo riferimento alla varianza spiegata cumulata, nel nostro caso le prime 3 componenti spiegano l83,276% della variabilit complessiva dei dati.
Scelta delle componenti che spiegano una varianza superiore a quella spiegata da ogni singola variabile originaria: poich ogni variabile originaria ha varianza=1, si scelgono le CP i cui autovalori risultano > 1. Nel caso studio, la condizione risulta soddisfatta dalle prime due componenti (la prima ha = 4,444; la seconda ha = 1,470).
Valutazione dello scree-plot: vengono scelte le componenti precedenti al punto in cui c una caduta evidente dello scree-plot, dunque della varianza spiegata da ciascun fattore. In questo caso, lo stacco netto avviene fra la prima e la seconda componente, per cui dovrebbe essere scelta solo la prima CP.
Nel caso preso in esame, i tre criteri non combaciano; valutiamo con attenzione come ottenere una migliore interpretabilit del fenomeno. Sembra opportuno scegliere le prime 2 componenti dato che: in relazione al primo criterio, esse spiegano il 73,931% della variabilit totale dunque una quota piuttosto significativa; in relazione al secondo criterio, sono le sole componenti con autovalore maggiore di 1; in relazione al terzo criterio, il salto massimo nello scree-plot si trova tra le prime due componenti in quanto la prima spiega gi il 55,552% della variabilit complessiva; tuttavia la seconda spiega il 18,379%, che comunque una quota troppo rilevante per poter essere esclusa dallanalisi.
Estraiamo ora gli autovettori u dalloggetto eig.
> u View(round(u,3))
V1V2V3V4V5V6V7V8
1-0.3340.365-0.4390.1330.3380.6130.2340.012
2-0.3730.253-0.3160.344-0.248-0.6420.3240.005
3-0.364-0.1200.039-0.745-0.3370.0880.4190.003
4-0.239-0.6080.1370.1150.625-0.1720.3490.002
5-0.1460.5410.7830.0570.171-0.0230.1980.003
6-0.4690.0080.018-0.1040.097-0.079-0.491-0.716
7-0.4690.0020.023-0.1110.098-0.088-0.5130.698
8-0.314-0.3550.2700.520-0.5220.4000.0210.003
Ora calcoliamo le componenti principali, moltiplicando gli autovettori per la matrice standardizzata:
> CP View(round(CP,3))
V1V2V3V4V5V6V7V8
1-0.149-0.123-0.094-0.1450.0500.045-0.015-0.001
2-0.231-0.089-0.2260.193-0.002-0.026-0.0130.001
3-0.2730.2180.0530.0180.058-0.049-0.042-0.005
40.138-0.120-0.1190.242-0.1360.0180.0270.002
5-0.1820.116-0.135-0.0770.1520.021-0.024-0.005
60.079-0.210-0.164-0.119-0.2560.1870.0200.001
70.908-0.036-0.075-0.037-0.046-0.080-0.1230.003
8-0.1730.164-0.4170.0620.044-0.108-0.0220.002
90.263-0.512-0.087-0.116-0.019-0.1120.028-0.003
100.185-0.0740.172-0.0090.100-0.034-0.0180.004
11-0.405-0.1880.146-0.001-0.135-0.3300.0240.002
120.1680.2120.1110.1430.090-0.0600.0040.001
130.4610.065-0.0770.1640.267-0.0130.0840.003
14-0.165-0.3470.0150.066-0.0870.0670.0120.000
15-0.4260.1050.1020.0700.0080.038-0.0040.006
16-0.511-0.0350.019-0.083-0.053-0.0250.0170.005
17-0.4450.2110.0850.0080.078-0.0790.0110.000
180.4880.364-0.0880.154-0.0450.0800.023-0.001
19-0.331-0.2390.0870.248-0.1140.046-0.004-0.005
200.6490.1850.053-0.192-0.057-0.0910.060-0.005
21-0.045-0.345-0.067-0.2920.2690.0560.0080.003
220.099-0.1080.1500.032-0.0260.0440.001-0.005
230.7520.1940.2430.021-0.1350.018-0.0080.005
24-0.131-0.0050.0130.1280.1770.000-0.017-0.005
250.2070.0710.091-0.044-0.104-0.0540.002-0.005
26-0.0220.190-0.2780.027-0.0620.0810.003-0.002
27-0.4560.5390.020-0.281-0.0970.0600.0270.002
280.465-0.1810.216-0.0630.1370.1300.003-0.001
29-0.2130.063-0.017-0.244-0.074-0.018-0.027-0.001
30-0.158-0.094-0.0640.035-0.0070.068-0.0090.005
31-0.5490.0060.3330.0940.0280.122-0.0310.000
Calcoliamo il FACTOR PATTERN o matrice dei pesi, che costituita dalle correlazioni tra le variabili originarie (x) e le nuove componenti principali (CP) o variabili latenti e rappresenta il contributo di ciascuna variabile nel determinare le componenti principali. Un peso elevato indica che la variabile influisce molto sulla componente, quindi questa spiega buona parte della varianza totale attribuibile a quella variabile.
> FP View(round(FP,3))
row.namesV1V2V3V4V5V6V7V8
1MADRE-0.7050.443-0.3800.1030.2220.3190.0440.000
2PADRE-0.7870.307-0.2730.266-0.163-0.3340.0610.000
3COETANEI-0.767-0.1450.034-0.577-0.2210.0460.0790.000
4COETANEE-0.504-0.7370.1190.0890.411-0.0900.0660.000
5INSEGNANTI-0.3070.6560.6770.0440.112-0.0120.0380.000
6IGR-0.9890.0100.015-0.0800.064-0.041-0.093-0.013
7PUNTI.T-0.9880.0030.020-0.0860.064-0.046-0.0970.013
8MEDIA.VOTI-0.661-0.4310.2330.403-0.3430.2080.0040.000
Selezioniamo le prime 2 CP, come abbiamo precedentemente stabilito, e studiamo le correlazioni fra le variabili originarie e le due nuove variabili latenti ottenute.
> FP4ax View(round(FP4ax,3))
row.namesV1V2
1MADRE-0.7050.443
2PADRE-0.7870.307
3COETANEI-0.767-0.145
4COETANEE-0.504-0.737
5INSEGNANTI-0.3070.656
6IGR-0.9890.010
7PUNTI.T-0.9880.003
8MEDIA.VOTI-0.661-0.431
Adesso rappresentiamo le variabili nello spazio Rn, tracciando il cerchio delle correlazioni con le prime due CP.
> par()$pty
[1] "m"
> par(pty="s")
> plot(FP[,1:2],xlab="CP1",ylab="CP2",type="n",xlim=c(-1,1),ylim=c(-1,1))
> variabili text(FP[,1],FP[,2],labels=variabili)
> abline(h=0,v=0)
> install.packages(plotrix)
> library("plotrix", lib.loc="C:/Users/Asus/Documents/R/win-library/3.0")
> draw.circle(0,0,c(-1,0,1),border="turquoise3")
> for(j in 1:8)
+ arrows(0,0,FP[j,1],FP[j,2],length=0.1)
I punti/vettori sono rappresentati su un piano cartesiano i cui due assi sono intestati alle CP scelte. Le coordinate dei punti sono date dalle correlazioni della variabile con le due CP rappresentate.
Cerchio delle correlazioni assi CP1 e CP2
Interpretiamo i fattori considerando la correlazione di ciascuna variabile con l'asse. Maggiore la lunghezza della freccia e la vicinanza all'asse, maggiore la correlazione con il fattore. Gli angoli tra punti-variabile possono essere interpretati come correlazioni tra le stesse.
Rappresentiamo ora le unit statistiche o individui nello spazio Rp, cio la posizione dei 31 studenti allinterno dello spazio fattoriale delle variabili, mediante un grafico i cui due assi sono intestati alle due CP scelte e i punti/vettori relativi vengono tracciati usando - come ascissa e ordinata - i corrispondenti elementi delle CP.
> plot(CP[,1:2],xlab="CP1",ylab="CP2",type="n",xlim=c(-1.5,1.5),ylim=c(-1.5,1.5))
> STUDENTI text(CP[,1],CP[,2],labels=STUDENTI)
> abline(h=0,v=0,lty=2,lwd=1.5)
Posizione degli individui (studenti) sui primi due fattori
Infine costruiamo una rappresentazione congiunta degli individui e delle variabili, per capire come si posizionano individui e variabili rispetto ai due fattori.
> biplot(CP[,1:2],FP[,1:2],xlim=c(-1,1), ylim=c(-1,1),xlab="CP1",ylab= "CP2",main="Biplot individui-variabili")
> draw.circle(0,0, c(-1,0,1),border=" turquoise3")
> abline(h=0,v=0,lty=2,lwd=1.5)
Dato che la variabile coetanei non risulta ben rappresentata, preferibile escluderla dallanalisi. Rielaboriamo il grafico, senza la variabile coetanei per poter procedere allinterpretazione dei risultati.
> FP.senza.coetanei FP FP4ax FP4ax
row.names V1 V2 [1,] "MADRE" "-0.705" " 0.443"[2,] "PADRE" "-0.787" " 0.307"[3,] "COETANEE" "-0.504" "-0.737"[4,] "INSEGNANTI" "-0.307" " 0.656"[5,] "IGR" "-0.989" " 0.010"[6,] "PUNTI.T" "-0.988" " 0.003"[7,] "MEDIA.VOTI" "-0.661" "-0.431"
1.4. INTERPRETAZIONE DEI RISULTATI E CONCLUSIONI
Il test esamina le relazioni in 3 principali contesti di esperienza: le relazioni interpersonali con i pari, le relazioni familiari e le relazioni scolastiche.CP1- fattori extra-familiariCP2. Fattori intra-familiari
2. ANALISI DEI CLUSTER
2.1. INTRODUZIONE Lanalisi dei cluster una tecnica statistica fattoriale che ha come obiettivo quello di creare dei gruppi, che racchiudano i diversi elementi del fenomeno oggetto di studio, che risultino al contempoil pi possibile: omogenei al loro interno; il pi possibile differenti gli uni dagli altri.Questoperazione viene effettuata al fine di offrire una descrizione pi sintetica e globale del fenomeno stesso.Le tecniche di clustering si basano su misure relative alla somiglianza tra gli elementi. In molti approcci questa similarit, o meglio, dissimilarit, concepita in termini di distanza in uno spazio multidimensionale.La bont delle analisi ottenute dagli algoritmi di clustering dipende molto dalla scelta della metrica, e quindi da com calcolata la distanza. Tale analisi si compone di 4 fasi: Scelta delle variabili; Rilevazione dei dati; Elaborazione dei dati; Verifica e utilizzo dei risultati.Il cluster una volta ottenuto, utile se: Abbastanza numeroso Chiaramente identificabile Stabile Redditizio Facilmente raggiungibileVi sono inoltre alcune caratteristiche peculiari della cluster analysis: robustezza (affinch si possano rilevare i dati anomali); scalabilit (osservazione di grandi database); osservabilit di variabili differenti (qualitative, quantitative); variabili con ruoli diversi (attive e passive).
Indici di Dissimilarit: una misura del grado di dissimilarit, ovvero di diversit tra i e j.Il tipo di indice dipende dal tipo di variabile, ma di solito soddisfa i seguenti requisiti: 0 =0 =
2.2. DESCRIZIONE DEL CASO E STUDIO DELLE VARIABILILanalisi del cluster verr effettuata a partire dal data set gi utilizzato per lanalisi in componenti principali (ACP).Sono stati tuttavia presi in considerazione esclusivamente 31 osservazioni, messi in relazione con le variabili precedenti.
XMADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI. TMEDIA. VOTI
110.068-0.0420.1540.099-0.1220.0910.091-0.018
220.1500.214-0.0650.099-0.1830.0910.0910.134
330.1290.1500.020-0.0280.2030.1630.155-0.018
44-0.0340.070-0.162-0.028-0.183-0.122-0.1220.172
550.2110.0540.0450.0290.0000.1200.113-0.132
66-0.014-0.1220.191-0.112-0.304-0.079-0.0790.153
77-0.382-0.314-0.344-0.267-0.244-0.364-0.356-0.322
880.2520.310-0.053-0.070-0.2030.0910.091-0.151
99-0.321-0.1540.0570.240-0.386-0.122-0.122-0.018
1010-0.157-0.154-0.0890.0850.081-0.065-0.058-0.056
1111-0.2390.3100.2030.2120.0610.1910.1980.172
1212-0.0140.022-0.223-0.0700.203-0.079-0.079-0.094
13130.027-0.106-0.3560.057-0.020-0.250-0.250-0.246
1414-0.055-0.0260.0930.198-0.1620.0490.0490.285
15150.1700.1500.0930.0570.2030.1910.1980.172
16160.1090.1820.2760.1130.0610.2340.2410.153
17170.1700.2300.1050.0570.2640.2190.2190.020
18180.068-0.042-0.308-0.3660.061-0.264-0.271-0.170
19190.0070.1180.0080.184-0.0200.1200.1130.418
2020-0.259-0.186-0.077-0.2820.041-0.307-0.313-0.360
21210.007-0.2500.1910.339-0.2030.0630.070-0.151
2222-0.116-0.122-0.0280.0430.041-0.051-0.0580.096
2323-0.321-0.282-0.259-0.3520.162-0.364-0.356-0.151
24240.1090.038-0.1130.1560.0610.0770.0700.020
2525-0.157-0.042-0.016-0.1410.061-0.094-0.100-0.056
26260.2320.118-0.016-0.197-0.122-0.008-0.015-0.056
27270.3140.1980.361-0.3100.3450.2190.219-0.113
2828-0.198-0.426-0.1250.0850.020-0.208-0.207-0.075
29290.0270.0380.263-0.0700.0200.1340.134-0.056
30300.0880.0220.0450.071-0.0810.0630.0700.115
31310.1290.0380.1300.1700.3450.2620.2620.300
2.3. IL PROCESSO DI ANALISICostruiamo loggetto X, che corrisponde al data set privato della prima colonna, contenente le denominazioni dei.MADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI. TMEDIA. VOTI
10.068-0.0420.1540.099-0.1220.0910.091-0.018
20.1500.214-0.0650.099-0.1830.0910.0910.134
30.1290.1500.020-0.0280.2030.1630.155-0.018
4-0.0340.070-0.162-0.028-0.183-0.122-0.1220.172
50.2110.0540.0450.0290.0000.1200.113-0.132
6-0.014-0.1220.191-0.112-0.304-0.079-0.0790.153
7-0.382-0.314-0.344-0.267-0.244-0.364-0.356-0.322
80.2520.310-0.053-0.070-0.2030.0910.091-0.151
9-0.321-0.1540.0570.240-0.386-0.122-0.122-0.018
10-0.157-0.154-0.0890.0850.081-0.065-0.058-0.056
11-0.2390.3100.2030.2120.0610.1910.1980.172
12-0.0140.022-0.223-0.0700.203-0.079-0.079-0.094
130.027-0.106-0.3560.057-0.020-0.250-0.250-0.246
14-0.055-0.0260.0930.198-0.1620.0490.0490.285
150.1700.1500.0930.0570.2030.1910.1980.172
160.1090.1820.2760.1130.0610.2340.2410.153
170.1700.2300.1050.0570.2640.2190.2190.020
180.068-0.042-0.308-0.3660.061-0.264-0.271-0.170
190.0070.1180.0080.184-0.0200.1200.1130.418
20-0.259-0.186-0.077-0.2820.041-0.307-0.313-0.360
210.007-0.2500.1910.339-0.2030.0630.070-0.151
22-0.116-0.122-0.0280.0430.041-0.051-0.0580.096
23-0.321-0.282-0.259-0.3520.162-0.364-0.356-0.151
240.1090.038-0.1130.1560.0610.0770.0700.020
25-0.157-0.042-0.016-0.1410.061-0.094-0.100-0.056
260.2320.118-0.016-0.197-0.122-0.008-0.015-0.056
270.3140.1980.361-0.3100.3450.2190.219-0.113
28-0.198-0.426-0.1250.0850.020-0.208-0.207-0.075
290.0270.0380.263-0.0700.0200.1340.134-0.056
300.0880.0220.0450.071-0.0810.0630.0700.115
310.1290.0380.1300.1700.3450.2620.2620.300
Poich la misura della distanza fra le righe risente dellunit di misura, lanalisi non verr effettuata sulla matrice x, ma su una nuova matrice Z, standardizzata:> Z View(round(Z,3))
MADREPADRECOETANEICOETANEEINSEGNANTIIGRPUNTI.TMEDIA.VOTI
10.373-0.2290.8430.542-0.6680.4980.499-0.094
20.8221.173-0.3560.542-1.0020.4980.4990.750
30.7070.8230.109-0.1541.1120.8930.849-0.094
4-0.1860.384-0.887-0.154-1.002-0.669-0.6680.961
51.1560.2970.2460.1590.0000.6570.619-0.727
6-0.077-0.6671.046-0.614-1.665-0.433-0.4320.856
7-2.093-1.719-1.884-1.462-1.336-1.994-1.950-1.783
81.3811.699-0.290-0.384-1.1120.4980.499-0.833
9-1.759-0.8420.3121.314-2.114-0.669-0.668-0.094
10-0.860-0.842-0.4880.4650.444-0.356-0.317-0.305
11-1.3101.6991.1121.1610.3341.0461.0850.961
12-0.0770.122-1.222-0.3841.112-0.433-0.432-0.516
130.148-0.579-1.9500.312-0.110-1.370-1.369-1.361
14-0.301-0.1410.5091.084-0.8870.2680.2691.589
150.9320.8230.5090.3121.1121.0461.0850.961
160.5970.9981.5110.6190.3341.2821.3200.856
170.9321.2610.5750.3121.4461.2001.2000.117
180.373-0.229-1.687-2.0050.334-1.447-1.484-0.939
190.0380.6470.0441.007-0.1100.6570.6192.328
20-1.419-1.018-0.422-1.5440.224-1.682-1.714-1.994
210.038-1.3681.0461.856-1.1120.3450.384-0.833
22-0.636-0.667-0.1540.2350.224-0.280-0.3170.539
23-1.759-1.543-1.419-1.9280.887-1.994-1.950-0.833
240.5970.209-0.6190.8540.3340.4220.3840.117
25-0.860-0.229-0.088-0.7720.334-0.515-0.547-0.305
261.2710.647-0.088-1.079-0.668-0.044-0.082-0.305
271.7211.0851.977-1.6981.8891.2001.200-0.622
28-1.085-2.332-0.6850.4650.110-1.140-1.133-0.411
290.1480.2091.440-0.3840.1100.7340.734-0.305
300.4820.1220.2460.389-0.4440.3450.3840.645
310.7070.2090.7120.9311.8891.4351.4351.673
Mettiamo in luce ora il fatto che lanalisi deve essere effettuata sulle righe e, nel caso specifico, sulle 31 osservazioni, presenti nella prima colonna del dataset:> rownames(Z) d d d
Tabella 1 distanza euclidea (GUARDA IL FILE DI WORD)
Calcoliamo ora la distanza di Manhattan:> d_m d_m d_m
Tabella 2 distanza di Man.(GUARDA IL FILE DI WORD)
2.5. CREAZIONE DEI CLUSTERIniziamo quindi a raggruppare le osservazioni, vi sono diversi legami che possono creare dei cluster, e quelli maggiormente utilizzati sono i seguenti:1) LEGAME SINGOLO: la distanza tra due gruppi determinata dalla distanza minore esistente fra i rispettivi elementi dei gruppi, esso risulta essere nella composizione dei cluster molto veloce, con lunico svantaggio che si riscontra nella formazione dei gruppi filiformi, ovvero troppo omogenei tra loro.=min()
2) LEGAME COMPLETO: la distanza tra due gruppi determinata dalla distanza maggiore esistente fra i rispettivi elementi dei gruppi, esso risulta essere pi lento rispetto al lega singolo, e definisce dei gruppi omogenei allinterno ed eterogenei allesterno.=max()
3) LEGAME MEDIO: la distanza tra i due gruppi determinate dalla media aritmetica delle distanze fra tutti gli elementi dei gruppi stessi.
Procediamo con il metodo del legame singolo, questo metodo denominato anche del salto minimo, che sta a significare che la distanza tra i due gruppi data dalla minore delle distanze tra i rispettivi elementi.hc_s n n_clus d_fus_s
Effettuiamo infine le stesse operazioni con il metodo del legame medio:hc_a