11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA...

71
Docente: Manganelli LA LOGICA DELLA CORRELAZIONE MULTIVARIATA 1. Libri: Corbetta 1999 metodologia tecniche della ricerca sociale - il mulino, bologna Capitolo 13 par 8 -> libro triennale Bohrnstedt e knoke "statistica per le scienze sociali" il mulino -> cap 7 par 1 Tecniche multivariate correlazionali Esame integrato con metodi quantitativi della docente Contarello Dalla bivariata della triennale si passa all'analisi da 3 var in su LA CORRELAZIONE PARZIALE E MULTIPLA 2. Correlaz tra 1 var e un insieme di var . Appunti lezioni Libri: Bohrnstedt e knoke 1994 "statistica per le scienze sociali" il mulino -> cap 7 par 3 LA REGRESSIONE MULTIPLA 3. Barbaranelli 2007 "analisi dei dati" Led -> no esame cap 1. solo cap 2! Barbaranelli 2006 "analisi dei dati con SPSS, le analisi multivariate" Led cap 1 -> no esame Bohrnstedt e knoke "statistica per le scienze sociali" il mulino -> cap 8 ANALISI FATTORIALE 4. Barbaranelli 2007 "analisi dei dati" Led -> cap 3 Barbaranelli 2006 "analisi dei dati con SPSS, le analisi multivariate" Led cap 2 -> no esame Appunti ##### RECUPERO LEZIONI 1/11 MERCOLEDì 13 SOLO 1 ORA 9.30 - 10.15 MERCOLEDì 20 DA 9.30 A 11 MERCOLEDì 27 SOLO 1 ORA CM IL 13 MERCOLEDì 3/11 2 ORE MERCOLEDì 10/11 2 ORE MERCOLEDì 17/11 NO LEZIONE! CORSO FINISCE MARTEDì 16 NOVEMBRE SI APPELLO FREQUENTANTI!!! ISCRIZIONI IN AULA 25 NOVEMBRE 2010 pomeriggio 11/10/2010 PRESENTAZIONE mercoledì 6 ottobre 2010 13.49 TECNICHE MULTIVA RIATE CORRELAZIONA LI NELLA RICERCA (Piccolino's Copy) Pagina 1

Transcript of 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA...

Page 1: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Docente: Manganelli

LA LOGICA DELLA CORRELAZIONE MULTIVARIATA1.Libri: Corbetta 1999 metodologia tecniche della ricerca sociale - il mulino, bologna Capitolo 13 par 8 -> libro triennale

Bohrnstedt e knoke "statistica per le scienze sociali" il mulino -> cap 7 par 1

Tecniche multivariate correlazionali

Esame integrato con metodi quantitativi della docente Contarello

Dalla bivariata della triennale si passa all'analisi da 3 var in su

LA CORRELAZIONE PARZIALE E MULTIPLA2.Correlaz tra 1 var e un insieme di var. Appunti lezioniLibri: Bohrnstedt e knoke 1994 "statistica per le scienze sociali" il mulino -> cap 7 par 3

LA REGRESSIONE MULTIPLA3.Barbaranelli 2007 "analisi dei dati" Led -> no esame cap 1. solo cap 2!Barbaranelli 2006 "analisi dei dati con SPSS, le analisi multivariate" Led cap 1 -> no esame Bohrnstedt e knoke "statistica per le scienze sociali" il mulino -> cap 8

ANALISI FATTORIALE4.Barbaranelli 2007 "analisi dei dati" Led -> cap 3Barbaranelli 2006 "analisi dei dati con SPSS, le analisi multivariate" Led cap 2 -> no esameAppunti

##### RECUPERO LEZIONI 1/11MERCOLEDì 13 SOLO 1 ORA 9.30 - 10.15MERCOLEDì 20 DA 9.30 A 11MERCOLEDì 27 SOLO 1 ORA CM IL 13MERCOLEDì 3/11 2 OREMERCOLEDì 10/11 2 OREMERCOLEDì 17/11 NO LEZIONE! CORSO FINISCE MARTEDì 16 NOVEMBRE

SI APPELLO FREQUENTANTI!!! ISCRIZIONI IN AULA 25 NOVEMBRE 2010 pomeriggio

11/10/2010 PRESENTAZIONE mercoledì 6 ottobre 2010

13.49

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 1

Page 2: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Slide: tecniche1_08-09

ANALISI MULTIVARIATACosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici statistici che danno rel tra 2 var non ci dice se è una relazione vera o apparente, frutto di altri fattori, perché spesso possono 2 var essere correlate da punto di vista statistico, ma spesso sono difficili da interpretare. Tipo maggiore n° dei pompieri in un incendio, maggiori sono i danni, sembra paradossale, ma sia n° pompieri che gravità danni sono det dalla estensione e gravità danni, a parità di incendio però non ci sarebbe qst relazione.

Potrebbe esserci l'interno di una terza variabile, mentre dentro all'interno dello stesso campo, potrebbe non esserci la relazione. O se statistica c'è relazione o per logica è un paradosso.

Spesso errori metodologici e fonte attendibile non è necessariamente una garanzia-> es articolo intelligenza - latitudine

La covariazione ( = variare assieme, 2 variabili covariano assieme) possono covariare per effetto di altre, per vederne la forza bisogna togliere qll riconducibile a variabili esterne -> controllo var estranee, e solo esperimenti possono controllare var estranee, tt qll var diverse da qll che stiamo studiando la correlaz (esp var sotto controllo, dove tt qll diverse da dip e indip vine e mantenuto costante o con assegnazione casuale soggetti per n° di controllo e esperienziale per omogeneità della sperimentazione

Non tutti tramite sperimentazione,tipo ricerca su campione, o con questionari, ecc. in tt qst casi controllo su var estranee è praticamente assenteCampione n° dei sogg, rappresentatività, ecc. ma controllo var estranee è minoreRicerca questionario di tipo correlazionale si cercano cn tante var, ma non sappiamo cm tutte qst cs interagiscono tra loro, ci sono strategie per vedere effetti di var diverse da qll che stiamo studiando le relazioni

Problema di controllo di var supplementariConsideriamo 3 var. viene individuata var z, che non è solo problema statistico (per risolvere problema per estrarre influenza di x e y) ma anche teorico-> una teoria o logica che aiuta a capire ql è la var sul problema che stiamo studiando

Relazione spuriaRelazione apparente, perchè c'è un altra causa che conduce a qst relazionePresenza di una covariazione in totale assenza di causazioneCovariazione non si può mai dimostrare per causazione

Z var di controllo, che influisce sulle 2 var x e y che fa apparire correlate le 2 var. se teniamo z costante, la covar tra x e y sparisce

Per eliminare relazione spuria:Controllo: ri verifica•Depurazione: con formule matematiche•

Es. relaz negativa peso risultati -> z potrebbe essere generePuò con controllo ricalcolare rel tra test e peso separatamente tra genere e risultati, peso -> costanteoPer via matematica calcolando coeff correlaz x e y se z cost

Ci son relazioni spurie che in realtà non ci sono -> vedremo in analisi fattoriale -> es. per presenza di tratto di ordine superiore o variabile latente-> misurabile solo con degli indicatori

SPURIA NON è INTERPRETABILERELAZIONE INDIRETTA (O RELAZIONI INTERPRETABILI) SONO DIFFICILMENTE INTERPRETABILI quando il

11/10/2010 Blunedì 11 ottobre 2010

10.33

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 2

Page 3: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

RELAZIONE INDIRETTA (O RELAZIONI INTERPRETABILI) SONO DIFFICILMENTE INTERPRETABILI quando il loro legame è mediato (si mette in mezzo tra x e y) da una var z. anche qui cor x e y è datta da una var esterna, ma in questo caso fa da ponteHa un meccanismo generativo differente dalla spuria->gruppi etnici diversi hanno livelli di intelligenza diversi->la razza ha un influenza l'istruzione->livelli diversi di istruzione portano a diversi livelli di risultati su un test

Variabile mediatrice o interveniente o variabile mediatore la zY = criterio o dipendente finale e su cui si fa la previsioneX = predittore o var originaria

Analisi di regressione multiplaPosso dire che c'è vera relaz qnd la relaz tra predittore e criterio arriva a zero, quando controllo il mediatore mediazione totale (di solito perde di forza, ma non arriva a zero, dato che i costrutti ps sono abbastanza complicati e non si riesce a dimostrare un assenza completa -> mediazione parziale se si indebolisce solo)Con analisi di mediazione si fò analisi di regressione multipla e path analisis

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 3

Page 4: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Un caso particolare di relazione spuria è quello in cui le variabili sono indicatori di uno stesso concetto: convenzionalismo ed etnocentrismo possono essere indicatori della personalità autoritaria.

In questi casi la variabile causa è latente (cioè non osservata), come nel caso dei fattori dell’analisi fattoriale. Ma il meccanismo causale che provoca la covariazione fra le variabili osservate è sempre lo stesso.

Relazione indiretta (o le relazioni interpretabili)

Abbiamo una relazione indiretta fra due variabili X e Y quando il loro legame causale è mediato da una terza variabile Z; anche in questo caso, la covariazione trovata tra X e Y è in realtà dovuta ad una terza variabile Z, che funge da “ponte” fra X e Y.

La terza variabile Z “interviene” quindi nel rapporto tra X e Y per questo viene chiamata interveniente. In questo caso non si può dire che non esista relazione causale fra X e Y: il nesso esiste nella forma di una catena causale fra variabili.

La terza variabile è detta anche “variabile mediatrice” o “mediatore”.Per chiarire il significato della mediazione consideriamo il seguente diagramma di path:

Mediatore

C. E.

P.A.

12/10/2010 A martedì 12 ottobre 2010

10.42

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 4

Page 5: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

CRITERIO

MEDIATORE

Mediatore

Una variabile funziona come mediatore quando si verificano le seguenti condizioni:

a) variazioni nei livelli del predittore si associano in modo significativo a variazioni nel presunto mediatore (path a);

b) variazioni nel mediatore si associano a variazioni significative nella variabile dipendente o criterio (path b)c) quando i path a e b sono controllati, la relazione tra predittore e criterio da significativa che era diventa non significativa (la dimostrazione più stringente della mediazione si ha quando c diventa uguale a 0).

Poiché molte aree della psicologia trattano fenomeni che hanno cause multiple, uno scopo più realistico può essere quello di ricercare mediatori che diminuiscono in modo significativo la forza (o intensità) del path c piuttosto che cercare mediatori che lo cancellino del tutto.

Analisi di mediazione: per testare empiricamente se la relazione tra X e Y è di questo tipo si conduce un’analisi di mediazione mediante modelli di regressione e path analysis, una tecnica statistica che permette di stimare gli effetti esercitati da determinate variabili all'interno di un sistema causale ipotizzato dal ricercatore.

Relazione condizionata (e analisi di moderazione -> + moderno)

entra in gioco una terza variabile che modifica qst relazione

Una relazione condizionata è quella in cui la relazione fra due variabili cambia a seconda del valore assunto da una terza variabile. Ci troviamo di fronte a un fenomeno di interazione fra le variabili implicate.

È lo stesso fenomeno che in analisi della varianza si chiama interazione

Relazione condizionata

a

b

c

Z

X Y

PREDITTORE

Esempio di ascolto musica classica per grado Di istruzione e se giovani e anziani

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 5

Page 6: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

A)2 TIPI DI VAR X E Y A TRE VAR (X,Y,Z)

NON C'è RELAZ -> non c'è differenza

tra età e ascolto musica

Classica, ma è sbagliato la correlaz

assonte perché non si considera l'età

CON ISTRUZIONE SI HA CORRELAZIONE ->la var istruzione agisce

come moderatore tra età e preferenza cn la musica classica per grado di

istruzione

in questo caso si influenza la direzione -> xon età l'iruzione fa si che si alzi o abbassi la preferenza per la musica

classica

X Y X Età Y Ascolto musica classica

In termini generale, un moderatore è una variabile qualitativa (sesso, razza, classe) o quantitativa (sperimentale) (ad es., livello della ricompensa: alto/basso) che influenza la direzione e/o la forza della relazione tra un predittore (o variabile indipendente) e un criterio (o variabile dipendente).Nel caso della ricerca correlazionale, un moderatore è una terza variabile che influenza la correlazione (bivariata) tra due variabili.Nei termini dell’analisi della varianza ANOVA, un effetto di moderazione è rappresentato dall’interazione tra il predittore e un altro fattore (il moderatore) che specifica le condizioni appropriate per la sua azione.

La rappresentazione diagrammatica di un modello di moderazione può essere il seguente:

Incollato da <file:///C:\Documents%20and%20Settings\Luca%20Verona\Desktop\Blue%208\Scuola\Specialistica%20M-3\tecniche%20multi%20variate%20correlazionali\tecniche1_08-09.doc>

Z

X Y

Z Istruzione

Y ascolto musica classica

X Età

Esempio di ascolto musica classica per grado Di istruzione e se giovani e anziani

PREDITTORE

a

b

c

MODERATORE

VARIABILE DIPENDENTE

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 6

Page 7: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

ES. SI CUOLE VEDERE EFFETTO RUMORE SU ESECUZIONE DI UN COMPITOPredittore: compito da svolgere -> se non c'è rumore meno errore1.Moderatore: rumore periodico (meno errori che aperdiodico) o apersiodico2.Predittore x moderatore: presenza rumore combinata ho la maggiore probabilità avere errori nell'esecuzione di un compito

3.

Nel diagramma si possono trovare tre sentieri che portano alla variabile dipendente:

- il path a che descrive l’impatto del predittore (ad esempio il rumore) sulla v.d. (ad esempio, l’esecuzione di un compito);

- il path b che descrive l’impatto del moderatore (ad esempio, la controllabilità delrumore: periodico/aperiodico)- il path c che rappresenta l’interazione (o prodotto tra i due).L’ipotesi di moderazione è supportata se l’interazione (path c) è significativa.Ad esempio, in un esperimento si trovò che l’effetto negativo del rumoresull’esecuzione del compito si verificava solo quando il rumore era aperiodico equindi non controllabile.Come risulta dalla figura, nel caso della moderazione, diversamente dallamediazione, moderatori e predittori sono sullo stesso livello per quanto riguarda illoro ruolo come variabili antecedenti o esogene rispetto ad una variabile criterio. Cioèla variabile moderatore funziona sempre come variabile indipendente, mentre levariabili mediatrici cambiano il loro ruolo da effetti a cause a seconda del focusdell’analisi.

La var mediatore cambia il suo ruolo a seconda di quale parte analizzo, sia dip che indipNella moderazione invece sempre sullo stesso livello-> sempre indipendenti

Analisi di moderazione: per testare empiricamente ipotesi di moderazione si usanotecniche di analisi di varianza (qnd ci son variabili categoriali -> var dip cambiano)e di regressione multipla (dip e indip sono scalari si usa reg). La scelta della tecnicadipende, in parte, dal livello di misura della variabile indipendente e del moderatore.

Rel spuriaRel indirettaRel condizionata o moderazione

Le cause multiple: Le cause di quello che studiamo sono + di una-> processo causazione multiplaSono ormai assenti nel panorama scientifico le teorie che sostengono che ilcomportamento umano è causato da un unico fattore; mentre sono sempre di più

↓quelle che postulano l'esistenza di processi di causazione multipla

la variazione osservata in un dato fenomeno è dovuta all'azione congiunta di diversecause.Controllando simultaneamente gli effetti esercitati da diversi fattori causali, ilricercatore può trarre inferenze sull'importanza relativa(quello che pesa di + o di meno) di ogni fattore sul fenomenosotto studio, tenendo contemporaneamente conto delle possibili relazioni spurie e deipossibili processi intervenienti.

Questi modelli sono usati da diverse discipline, non solo da psicologia

political instability

c

PREDITTORE XMODERATORE

Instabilità politicaEff neg

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 7

Page 8: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

con reg posso dire SE hanno un effetto, quanto pesano e se tutte mantengono un effetto qnd le altre vengono tenute costante (= sotto controllo)

Tecniche statistiche per l’analisi delle relazioni tra variabili

Analisi bivariata

Riguarda lo studio della relazione fra due variabili.

Quando le variabili sono continue e misurate a livello di scala a intervalli (o assunta tale o quasi-cardinale) la forza e la direzione di tale relazione è espressa dal coefficiente di correlazione prodotto-momento di Pearson.

Tale coefficiente può assumere qualsiasi valore compreso tra +1 e –1.

Analisi multivariata: riguarda lo studio delle relazioni fra più di due variabili.

Correlazione parzialeCorrelazione multiplaRegressione multipla

Incollato da <file:///C:\Documents%20and%20Settings\Luca%20Verona\Desktop\Blue%208\Scuola\Specialistica%20M-3\tecniche%20multi%20variate%20correlazionali\tecniche1_08-09.doc>

Degree of development = Livello di sviluppo

Instabilità politica

Dipendenza dall'estero per Approdigionamento energia

Maggiore esportazione, maggioreSviluppo economico

Eff neg

Eff neg

Eff pos

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 8

Page 9: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

DA FARE:VAR STANDARDCOEFF CORRELAZ PEARSONREGRESSIONE SEMPLICE

Tecniche 2 e 4 _08-09

12/10/2010 B martedì 12 ottobre 2010

11.29

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 9

Page 10: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

standardizzata

Segno indica la direzione

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 10

Page 11: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

"0" è assenza di correlazione

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 11

Page 12: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Va da o 1 e rato che è la r elevata al quadrato è sempre positiva

Condivisione della var= 16%Varianza residua= 84% in cui molti altri fattori influiscono, ma non ql x che ho preso in considerazione

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 12

Page 13: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 13

Page 14: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Nuvola di punti su diagramma dispersione bivariataPunti assumono delle configurazione, con forma e curva,ed esiste una retta,la retta di regressione (a+bx) che soddisfa il principio dei minimi quadrati rende minima la diff tra valorei stimati e valori empirici a= intercetta-> p.to in cuui retta intercetta asse b= inclinazione retta rispetto asse y

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 14

Page 15: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

a= intercetta-> p.to in cuui retta intercetta asse b= inclinazione retta rispetto asse y

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 15

Page 16: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Trasformare b in β che standardizziamo e otteniamo i "pesi beta"

!!!!!!!!!!!!!!!!!!!!!NO FARE!!!!!!!!!!!!!!!!!

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 16

Page 17: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 17

Page 18: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

tecniche3_08

-09_la_corr...

Inserito da: <file://C:\Documents and Settings\Luca Verona\Desktop\Blue 8\Scuola\Specialistica M-3\tecniche multi variate correlazionali\tecniche3_08-09_la_correlazione_parziale_e_multipla.pdf>

Variabili con il coeff di Pearson devono essere CONTINUE

Stà alla base della regressione multipla

Anni di scuolaEducazione

Input crescenti

+ alta istruzione e anni di scuola->+ è alto il reddito

+ classe sociale + studio

+ classe sociale + reddito

r=.30 è reale o spuria?????

Depurazione: togliere matematicamente contributo di qst variabile z

2 vie: controllo: dividere n in classi sociali omogenee e ricalcolare r in ognuna delle classi,se c'è non si dovrebbe trovare r

reddito

Coeff di correlaz parziale: r x e y tenendo sotto controllo z

Definizione di correlazione parziale:

Correlazione di 1° ordine se si toglie una var toglie=controllaCorrelazione di 2° ordine se si tolgono 2 var

Z passa da variabile a costante

Dato che x e y r può essere apparente perché tutte e 2

portano li ma non sono legate tra loro->spuria perché sono dati da una causa comune

13/10/2010 mercoledì 13 ottobre 2010

9.35

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 18

Page 19: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

(rxz2= coeff di determinazione)

Var residua sotto radice

Correlaz parziale tra var 1 e 2 parzializzando con le var 3 e 4

Prima si calcolano le correlaz parziali di primo ordine per poi fare quelle di 2°--> non chieste negli esercizi di calcolo

rxy.z2= quantità di var che x e y condividono con z

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 19

Page 20: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

A proposito della tipologia di relazioni tra 3 var, es sopra riguarda ipotesi "causa comune" oppure potrebbe "ipotesi di mediazione"

Coeff si calcola nello stesso modo, è apparentement uguale, ma per capire xkè parzializzando z r cambia-> o causa comune (es di prima) oppure z funziona come mediatore->non è statistica ma è logica

->in caso di costrutti psicologici non è così evidente la direzione ed è per

questo che ci si appoggia (o si confermano) costrutti teorici (per interpretare)

In partenza

diventare Non significativa, per testare ipotesi di mediazione correlazione parziale Non basta, ma serve regressione multipla per vedere effetto di x qnd viene controllata

Indiretta-> + complessa da dimostrare

N

r=0

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 20

Page 21: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

n -> N

Un punteggio dall'altro

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 21

Page 22: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Come si determina la significatività del coefficiente di correlazione parziale:

Distribuzione" t" con "n-3" gradi di libertà

Confronto tcalcolato con tcritico e se il 1° è maggiore del 2° allora rifiuto H0

α=0,05 o 0,001

ryx.t=-.2467 < ryx= -.4410

ryx.t2=0,06

= 6% var ansia

ryx2=19,4% var

ansia senza controllo tempo -> controllando il tempo ha fatto diminuire il "peso" della var ansia e ora sia ha una più corretta relaz tra l'ansia e il risultato =>però ansia cmq influisce

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 22

Page 23: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

È ancora significativa perché è ancora minore di 0,05Diventa meno tempo perché tolgo la var dedicata al tempo

Minore xy.z

Minore xy

Correlaz tra qnt tempo ho dedicato e la prestazione considerando l'ansia? Metto costante ansia

Non è significativo xkè maggiore di 0,05 e quindi accetto Ho e quindi non c'è relazioneAnsia agisce perché non correla il tempo e l'esame->quindi ansia agisce

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 23

Page 24: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

rx1y.x2= -.45

2.1) rx3x1.x2= .37

e rxy.z2= % 2.3)rx2x3.x1=.21

2.4)rx2x3.x1= -.37

2.2) rx1x3.x2= .9 ->x2 inf

È un coeff che fa parte delle analisi multivariateCoeff corr parziale considera la relaz tra 2var e toglie contributo di altre.->Invece coeff correlaz multipla considera sempre almeno 3 var e ci dà la relaz tra 1 var e tutte le altre insieme. Elimina contributo interrelazioni tra le var

La relaz tra la var 1 e la 2,3 considerate insieme

Con r2 coeff di determinazioneR=coeff correlazione multipla tra 1 var e le altreR2= coefficiente di determinazione che indica quota di variabilità condivisa con altre variabili

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 24

Page 25: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

quanto una var VD Y condivide con altre variabili contemporaneamente

la VD y condivide con le altre variabili una quota di variabilità del 88,81,40 e 69%. cioè varia y del det percentuale, al variare delle altre 2 variabili x e z, o 2 3 3

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 25

Page 26: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Tecniche5 08-09_ Regressione multipla1

La regressione semplice: differenza tra sturdio r a analisi regressione bisogna stabilire un modello VD y (criterio) e le VI (predittori). Nel modello si decide la VD e le VI ed è finalizzata studio relazioni delle var e influenza sulla VD

Nella regressione c'è implicito un concetto di causa e si vede quale pesa di + e di meno, ma essendo nel mondeo della ricerca correlazionale e non esperimentale, perché non si può dimostrare proprio la relaz causale, ma in senso stretto, logico, non si potrebbe parlare di causa

La regressione è fondamentale, multidisciplinare. Il suo scopo fondamentale se una certa var o fenomeno può essere spiegato da altri (VI) -> scopo esplicativo: cerco le var che possono dar conto delle var che stò cercando

Scopo preditivO: con modello di regressione posso fare delle previsioni statistiche: valori VD noti valori VI e predittori. S i stabilisce sempre un modello che permette di fare delle previsioni (no predizioni -> errore termine!!!)

La regressione multipla

è un estensioni della regressione semplice

E’ finalizzata all’analisi delle relazioni esistenti fra una variabile dipendente e due o più variabili indipendenti. Si tratta di un’estensione della regressione semplice e il suo valore risiede nella capacità di stimare l’importanza relativa che più variabili esplicative ipotizzate hanno nell’influenzare la variabile dipendente di interesse.

Il modello della regressione a tre variabili

Come nel caso bivariato si assume che la variabile dipendente sia linearmente correlata alle variabili indipendenti. Se queste sono due l’equazione di regressione multipla (a livello campionario) è la seguente:

Y’i = a + b1X1i + b2X2i

espressa a livello campionario, perché termini empirici teorici vanno scritti con lettere greche

Non si parla più di retta di regressione ma di piano di regressione (se abbiamo due variabili indipendenti) o di iperpiano (se abbiamo più di due variabili indipendenti)Ci muoviamo geometricamente nello spazio -> piano di regressione, non più retta

Es. a var non di tipo PS -> si vede qnt speso in pubblicità e n° di passaggi in radio (2 VI)-> vuole capire quale delle 2 info influisce su n° di dischi venduti (VD). Punti sono prodotti o dischi venduti

Variabili indipendenti

Variabili Dipendente

Se così è correlaz negativa

Correlaz positiva

18/10/2010giovedì 14 ottobre 2010

19:28

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 26

Page 27: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Anche in questo caso la stima dei parametri si basa sul principio dei minimi quadrati (la somma delle differenze fra valori stimati e osservati – errori o residui - è la minima possibile).

Le stime dei parametri possono essere ottenute conoscendo medie, deviazioni standard e coefficienti di correlazione tra le variabili considerate.

Le formule per il calcolo sono: MATRICE DI CORRELAZIONE

Simili a coeff correlazione parziale -> infatti i coeff correlazioni multipla son detti anche COEFFICIENTI PARZIALI (no uguali a coeff correlaz) ->essi rappresentano, indica, l'inclinazione della retta quando l'altra var della retta viene tenuta costante -> sapere la relaz tra le var quando l'altra è costanteB2 indica l'influenza dell'altra quando tengo costante l'x1

Dall’esempio precedente si ottiene:

Valore di Y stimato (b possono avere qualsiasi valore, sono coeff angolari e non hanno dei limiti o segni)

Y’ i = 1.325 -.117X1 +.077X2

Quando x1 varia di 1 unità, y diminuisce di .117 unità, mentre la 2 var rimane costante. Quando x2 aumenta di 1 unità, la y a umenta di .77 unità

Se le VI non sono correlate, l'effetto di una non cambia sotto l'effetto dell'altra

I coefficienti di regressione multipla b1

e b2

hanno il seguente significato: esprimono

ognuno la quantità di cambiamento nella variabile dipendente che si verifica quandola variabile indipendente corrispondente varia di una unità, mentre l’altra variabile indipendente rimane costante.

Nell’esempio, b1 = -.117 indica che quando la misura delle frequenze in chiesa aumenta di una unità, il livello di permissività sessuale diminuisce di .117 punti,

Se due variabili indipendenti non sono correlate, l’effetto esercitato da una delle due sulla dipendente non cambia quando si controlla l’effetto dell’altra. Osserviamo che quando rX1X2 = 0 la formula del coefficiente di regressione diventa:

I coefficienti di regressione standardizzati (pesi beta)

Come su regressione semplice si basa sul principio dei minimi quadrati: che la relaz che si trova deve soddisfarla. La somma delle diff al quadrato e la somma Val empirici ottenuti deve essere i minimi possibili, eè c'è solo una retta e un piano che può soddisfarla-> retta o piano deve passare il + vicino possibile a tutti i punti. I valori che mancano si chiamano valori residui e devono essere i + piccoli possibili

Si usa qnd si conoscono medie, dev standard e coeff di correlazione r pearson bivariabili tra le var considerate

Y VD deve essere misurata in scala intervallo (es. likert)-> se dicotomica allora questo modello non và bene (altri modelli di regressione allora, ma noi non li studiamo)VI devono essere scala continua, intervallo o dicotomiche-> stare attenti alla natura delle varPartiamo con VI e VD scala intervallo

VD

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 27

Page 28: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

I coefficienti di regressione standardizzati (pesi beta)Come in regressione semplice

Poiché le unità di misura della Y e delle indipendenti possono essere diverse, si procede alla standardizzazzione dei coefficienti di regressione (e ottenere coeff standardizzati, cjhe non risentano diverse unità di misura e che possono essere confrontati-> β o li standardizzo dati prima, oppure si standardizzano i coefficienti dopo). Questi corrispondono ai coefficienti che otterremmo se tutte le variabili incluse nel modello fossero trasformate in variabili Z (espresse in punti z), prima di stimare l’equazione. I pesi beta possono essere così calcolati:

Essendo le due variabili indipendenti espresse nella stessa unità di misura possiamovalutare la loro importanza relativa nell’influenzare il livello di Y.

Nell’esempio: *1 = -.399 e *2 = .298. Allora la religiosità ha un effetto più intenso di quello dell’istruzione.

Dato che nell'esempio VI non sono correlati, allora i valori sono uguali ai coeff di correlazione->l'influenza x1 su y è poco condizionato da x2, dato che non sono correlate

Il coefficiente di determinazione nel modello a tre variabili

R2Y.X1X2 esprime la proporzione di varianza di Y spiegata dalle due variabili incluse nell'equazione.

La quota 1 - R2Y.X1X2 rimane non spiegata, è la var residua, quella parte di variabilità di y che è dovuto a

qualche altra cosa (errore (sempre), e altri fattori non considerati (es. genere,ecc.)); se è molto alta suggerisce la necessità di elaborare una teoria più complessa di quella implicita nel modello prescelto.

Nell’esempio abbiamo R2Y.X1X2 = .241.

La religiosità e il livello di istruzione insieme spiegano il 24.1% della varianza dellapermissività sessuale -> resta circa un 75% da spiegare, dovute ad altre var che non sono qst 2.

La regressione multipla con k variabili indipendenti ( e formule generali)

Se si ipotizza che k variabili indipendenti influiscano su una variabile dipendente continua in modo lineare e additivo, l’equazione di regressione multipla assume la forma seguente:

Y’ = + 1 X1 + 2 X2 + … n Xn

Per un individuo i il punteggio in Y è:

Yi =Yi’ + i = + 1 X1i + 2 X2i + … n Xni + i

a livello campionario è

" * " per non confonderlo con altri

var sytandardizzate media è "0" e intercetta passa per l'origine.Punteggio che andrà a stimare è un punteggio standardizzato e possone essere confrontati-> valori -1 a +1

X1 e x2:

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 28

Page 29: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

ýi = a + b1x1i + b2x2i +……+ bkxki

e nella forma standardizzata:

Zýi = *1Z1i + *2Z2i +…..+ *kZki

Il coefficiente di determinazione è dato da:

R2Y.X1X2….Xk = *

1rX1Y

+ *2

rX2Y

+ ….. + *k

rXkY

(11)

N.B Più variabili aggiungiamo a un’equazione di regressione, maggiore è la probabilità di aumentare R 2

per il solo effetto della covariazione casuale, Puòessere che si gonfi il risultato. E’ stato perciò elaborato un coefficiente corretto che tiene conto del rapporto fra numero di variabili indipendenti e numero di osservazioni (vedi Barbaranelli pag. 65).

Un sommario e un confronto tra coefficienti di:- correlazione parziale- correlazione semiparziale- di regressione (b)- pesi beta (β )- coefficiente di correlazione multipla

Il coefficiente di correlazione parziale (ad esempio, ryx1.x2) misura la correlazione tra Y e X1 dopo aver eliminato il contributo di X2 da Y e da X1. Se elevato al quadrato indica la quantità di varianza che Y e X1

condividono quando X2 è sotto controllo.

NO Il coefficiente di correlazione semi-parziale (sryx1.x2) indica la correlazione tra Y e X1 dopo che il contributo di X2 è stato sottratto solo da X1. Se elevato al quadrato indica la quota di varianza di Y spiegata unicamente da X1.

Il coefficiente di correlazione multipla esprime la correlazione tra Y e due (o più altre variabili). Ad esempio, esprime la correlazione tra la dipendente Y e due variabili indipendenti. Se elevato al quadrato è detto coefficiente di determinazione.

Questa formula è equivalente a:

R2Y.X1X2 = *

1rX1Y

+ *2rX2Y

R2Y.X1X2 esprime la proporzione di varianza di Y spiegata dalle due variabili incluse nell'equazione.

Il coefficiente di regressione b indica la quantità di cambiamento nella variabile dipendente Y in conseguenza di un cambiamento in una variabile indipendente Xj, tenendo le altre sotto controllo. Ad esempio, byx1 indica la quantità di cambiamento in Y in conseguenze di un cambiamento in X1 tenendo costante X2.

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 29

Page 30: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 30

Page 31: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Tecniche6 08-09 Regressione multipla 2

Certo modello di regressione deve spiegare certa quota di varianza, se no sbagliato perché quei predittori che avevo immaginato, non influenzano la VD -> bisogna sempre trovare delle indicazioni per sapere se il valore trovato è significativo o meno, e con che certezza

PROBLEMA INFERENZA STATISTICACome faccio per dire che i coeff che ho trovato sono significativamente diversi da zero, e che le VI sono diversi da zero e b sono diversi Da zero, dove zero vuol dire che non hanno influenza con la VD

L’adeguatezza del modello di regressione multipla e la significatività dei parametri dell’equazione di regressione multipla

Significatività del coefficiente di determinazione

Il coefficiente di determinazione (il coefficiente di correlazione multipla al quadrato) è un indice dell’adeguatezza del modello di regressione multipla ipotizzato, mentre i coefficienti di regressione multipla b, rappresentano una stima degli effetti di ogni variabile indipendente X su Y, tenendo costanti tutte le altre.

Per interpretare i risultati di un’analisi di regressione multipla dobbiamo considerare sia l’adeguatezza del modello ai dati sia la significatività dei singoli coefficienti.

Consideriamo l’esempio seguente:

Un ricercatore vuole conoscere in quale grado la soddisfazione coniugale è influenzata (prevista) da sei distinte componenti della relazione stessa. 339 individui hanno compilato un questionario contenente diverse scale tipo-Likert per misurare:

- la soddisfazione per la relazione coniugale (scala di risposta da +5 = molto soddisfatto a –5 = per niente soddisfatto)- la quantità di comunicazione- l’espressione dell’affettività- il sostegno emozionale- la condivisione di interessi- la quantità di tempo passata assieme- le modalità di risoluzione dei conflitti.

Queste sono le componenti e voglio sapere quale pesa di + per la soddisfazione

Come si può vedere dalla tabella la correlazione multipla al quadrato (in realtà si dovrebbe considerare quella corretta) è di .663, la quale indica che il 66.3% della soddisfazione coniugale è spiegata dalla combinazione lineare delle sei componenti considerate.

19/10/2010giovedì 14 ottobre 2010

19:47

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 31

Page 32: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

“Correl”: correlazione di ordine zero, se viene elevata al quadrato indica la quota di varianza di Y spiegata dal predittore quando tutti gli altri predittori sono liberi di variare.

Per prendere decisioni in merito alla significatività di R 2 si impostano le ipotesi statistiche

H0

: 2Y.X1X2 = 0

H1: 2Y.X1X2 > 0 (ipotesi monodirezionale destra)

L’ipotesi nulla che la correlazione multipla al quadrato, nella popolazione, sia uguale a zero viene testata per mezzo della statistica F.

Si può dimostrare infatti che :

F = (N-k-1) R2

/k (1-R2)

dove:

R2 = quota di varianza di Y spiegata dalla regressione

1-R2 = quota di varianza non spiegata

N = numero dei casik = numero delle variabili indipendenti

Tra VD e tt VI previste

Dato di interesse -> 66% variabilità y è spiegato delle 6 VI, devo vedere se è significativamente diverso

da zero -> uso F

Se ha α<0,05 è significativa e si conclude che quella quantità di var, è una quantità elevata, s. diversa da zero e n= N e valore R2è diverso da zero-> spiega la var dipendente

Paret var nel modello

Variabilità no spiegata

SF.b =Errore standb-> dev standard della distribuzione campionaria delle medieSF.Beta= errori standard di Beta ////// Beta = b standardizzatoCorrel: correlaz parziali-> quella della riga con tutte le altret = t di student-> tabella per stabilire significatività-> livello di significatività associato-> rapp b o beta e proprio errore standardSig T = per vedere significativi con 0,05

= a -> intercetta, solo nell'equazione regressione NON standardizzata

All'aumentare di y di 1 SF.beta aumenta di .173 ecc.

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 32

Page 33: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Nell’esempio:

F = (339-6-1) * .663 / 6 (1-.663) = 220.116/2.022 = 108.86

Nell’esempio:

F = 59.650 / .549 = 108.65

F si distribuisce con k e N-k-1 g.l.

Nell’esempio F è statisticamente significativo: F (6,332) = 108.698, p < .0001 e ciò porta a rifiutare l’ipotesi nulla.

Quindi la correlazione multipla al quadrato (o il coefficiente di determinazione) nella popolazione non è 0 e il modello ipotizzato è adeguato a spiegare (prevedere) la soddisfazione coniugale.

Significatività dei coefficienti b 19/10/2010 con 15 min ritardo

Nell’esempio, i coefficienti di regressione non standardizzati e standardizzati (beta)sono presentati nella parte inferiore della tabella.

Leggendo i b, possiamo dire che per ogni unità scalare di aumento della soddisfazione per il supporto emotivo, la soddisfazione per la relazione coniugale aumenta di .307 unità (mantenendo costanti le altre componenti della soddisfazione). I coefficienti standardizzati si leggono nello stesso modo, ma in termini di punti standard invece che di unità scalari. In più, possiamo confrontarli e concludere, ad esempio, che il sostegno emotivo ha il peso maggiore nel determinare la soddisfazione per la relazione coniugale.

Per decidere in merito alla significatività dei b, si impostano per ognuno, le ipotesi statistiche:

H0:β = 0

H1:β≠ 0 perché potrebbe essere positivo o negativo e si usa il t di student

Un test appropriato per la verifica di queste ipotesi su dati campionari utilizza la distribuzione t di Student. Si procede trasformando b j

t = bj - βj / sbj il beta senza * e stà a indicare la popolazione e Sbj è l'errore standard di b

ma se βj = 0:

t = bj /sbj

sbj = errore standard di b per la variabile j (colonna SEb nell’esempio)↓

indica quanto l’errore di campionamento influisce quando si stimano i coefficienti di regressione nella popolazione (maggiore è l’errore di campionamento meno accurata è la stima); sbj può essere calcolato con la formula (Barbaranelli, p. 67):

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 33

Page 34: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Si definisce quindi il tcrit con N-k-1 gradi di libertà,(nell'analisi bivariata i gradi di libertà sono 2, per il coeff di correlaz parziale con 3 var era N-3, ora quando le var sono k indipendenti+ 1 dipendente, allora gradi di libertà sono n-k-1)dove k = dei predittori(n°var indipendenti+1 dipendenti). Se il t calcolato supera quello critico (in valore assoluto), si rifiuta l’ipotesi nulla. Ho t si trovano b - proprio errore standard

Nell’esempio, i t nella colonna T sono ottenuti dividendo ogni b per il suo valore standard, la colonna Sig.t presenta il valore di p associato alla statistica. In questo esempio, tutti sono significativi (p è minore di .05), eccetto quello associato con la quantità di tempo passato assieme, che quindi non ha effetto sulla soddisfazione per la relazione coniugale.

esempi

Esercizio

a) Scrivere l’equazione di regressione multiplab) Scrivere l’equazione di regressione multipla standardizzata c) Commentare i risultati.

Formula per calcolare l'errore standardN-k-1 = Numero casi- n° indipendenti -1

Di solito viene dato in hp

Beta j = 0 sempre

VD permissività sessuale

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 34

Page 35: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

ESERCIZI

Un docente fa lo stesso corso + volte e usa lo stesso modo di esame + volte.Il docente dispone dei risultati dell'esame finale (y) e di 2 prove intermedie (x1 e x2) e si è divertito a calcolare le correlaz tra le prove finali e le prove intermedie (rx1y= .60 // rx2y= .50 /// rx1x2= .30)Domande che si pone?È possibile prevedere i risultati finali di una new classe sui risultati delle prove intermedie di questa nuova classe? E che formula devo usare? Quanto sarà valida qst previsione? Le previsioni che faccio sono migliori di qll che potrei fare a caso?

Media y = 70 SD= DS= 20Media x1= 60 ds= 15Media x2= 50 ds=10

N=28

Devo usare la regressione multipla

a1° prova = 502° prova = 45

b 1°=602°=50

per sapere se è + predittivo la prima o la seconda prova devo standarddizzare -> trasformo in beta

quale quota della var di y è spiegata da x1 e x2-> quanto buona è la previsione?bisogna calcolare un COEFFICIENTE DI CORRELAZIONE MULTIPLA

il 47,3% della prova finale è spiegato dalle 2 prove

il modello usato per considerare la prova d'esame e usando come predittori le 2 semi prove sono significativamente migliore del risultato che otterrei per caso

b1=(20/15)((.60-.50 x .30)/(1-.302) = 1,3(.45/.91)=.64b2= .703a= -4.21

y stimato per un individuo i in questo caso Y= -4,21+.651x1i+ .703 x2i

quindi con i risultati delle 2 prove ya= .4,21+.651(50)+.703(45)=-4,21+32.55+31.64=59.98

yb= … =70

beta 1=(15/20).651= .438beta 2=(10/20).703=.351il 1° è + forte del secondo

R2=.473

19/10/2010 Bmartedì 19 ottobre 2010

11.01

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 35

Page 36: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

devo considerare significatività R2che sia significativamente maggiore di "0" e diper fare qst

F = (N-k-1) R2

/k (1-R2)

dove:

R2 = quota di varianza di Y spiegata dalla regressione

1-R2 = quota di varianza non spiegata

N = numero dei casik = numero delle variabili indipendenti

F= 11.21 e con tavole di F, non si hanno e quindi si potrà solo con out - put di SPSS datoammesso avere tavole f critico = 9,22 che è minore di qll calcolato -> F è significativo _> significativamente diverso da zero e quindi è maggiore di quello dato dal caso

Pesano tutte significativamente diverse da zero le 2 prove intermedie?si guarda la significatività di b1 e b2 e per qst bisogna calcolare l'errore standard, visto la difficoltà e il caso particolare dato che consideriamo solo 2 var e usiamo beta, e quindi l'errore standard delle 2 var (solo di beta e che siano solo 2 var) gli errori standard sono uguali Sbeta= .152per trasformarlo in t devo

ma se βj = 0:

t = bj /sbj o beta/sbetatbeta1=3.21tbeta2=2.31t critico per gdl= N-K-1= 28-2-1=25tcritico tabella= 2.06confronto t calcolato e t critico, e si vede che sono entrambi significativi perché entrambi sono maggiori del t critico con alpha=.05

se considero alpha = .01 t critico = 2.78 -> solo il primo è significativo e non il 2° 2° non solo aveva beta minore ma qst differenza diventa pari a zero, con o,01 non è significativo perché non si scosta tanto da zero

######################################################################

fare esercizi su materiale didattico on - line "esercizi_08-09" esercizi calcolo solo sulla regressione

stmpare "esercitazione_output_14192008"

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 36

Page 37: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Tecniche7 08-09 Regressione multipla3

Le assunzioni del modello di regressione multipla

Per trarre conclusioni valide per una popolazione a partire da un’analisi di regressione eseguita su dati campionari è necessario che siano soddisfatte alcune assunzioni.

(stimare un modello sbagliato, non valido per la popolazione) ↓

A) Assenza di errori di specificazione = stiamo stimando un modello corretto e non sbagliato per la popolazione

- la forma della relazion deve essere lineare;- non devono essere omesse variabili indipendenti rilevanti;tutte VI importa- non devono essere incluse variabili irrilevanti. NO mettere VI irrilev

Questa assunzione si articola in tre punti :

B) Assenza di errori di misurazione: le variabili dipendenti e indipendenti devono essere misurate senza errore. Non si può soddisfare perché ci son sempre errori nelle nostre misure, ma deve essere il + piccolo possibile. per misurare un costrutto ci sono diversi tipi di scale, quindi prima di fare la regressione bisogna calcolare il coeff di attendibilità della scala (alpha di crombach)-> meglio scale multi itwm che abbassano errore di misura e calcolarlo,

C) Tipi di variabili: tutte le variabili indipendenti deve essere quantitative o dicotomiche La variabile dipendente deve essere continua, quantitativa, misurata almeno a livello di scala a intervalli (quasi-cardinale).la varianza di ogni VI deve essere >0 e

D) La varianza di ogni variabile indipendente deve essere maggiore di 0. E) Il campionamento deve essere casuale semplice(assunzione spesso violata).

F) Assenza di perfetta multicollinearità. Nessuna variabile indipendente deve essere una combinazione lineare perfetta delle altre. nessuna VI deve essere troppo correlata, perfettamente correlata, con le altre, non capita mai che r=1 ma può succedere che 2 VI siano troppo correlate-> significa che una ripete l'info contenuta nell'altra-> dà fenomeno della multicollinearità. Questo è un fenomeno molto raro. Molto comune è invece la condizione di quasi-multicollinearità (o semplicemente di multicollinearità) che si verifica quando le variabili indipendenti sono fortemente anche se non perfettamente correlate. Se le variabili indipendenti sono fortemente correlate diventa difficile separare l’effetto di una variabile indipendente sulla dipendente quando le altre sono tenute costanti. Cioè se tropo collegate dato che la variabilità di VI1 è la stessa della VI2

Sono state proposte alcune regole pratiche per rilevare la presenza di multicollinearità:sintomi da controllare e non presi uno a uno:

- la correlazione tra due variabili indipendenti è maggiore della loro correlazione con la variabile dipendente;correlazioni di tutte var tra VD e LE VI e bisogna vedere che c'è se le relazioni tra VI è maggiore di quella con la VD

- la correlazione tra due variabili indipendenti è molto alta (r =.80 o superiore);

- il valore di R2 è significativo, ma pochi coefficienti di regressione sono diversi da 0; R 2si può gonfiare per correlazioni tra VI e deve essere significativamente diverso da zero- diversi coefficienti di regressione hanno errori standard elevati ed eliminando una o più variabili indipendenti dall’equazione gli errori standard delle altre diminuiscono; se errore standard alto significa che il campione non è adeguato- effettuando le analisi su campioni differenti si assiste a cambiamenti notevoli nelle stime dei coefficienti.quando io provo un modello su un campione, poi mi aspetto che ripetendo lo stesso modello su altri campioni, non devo avere differenze troppo elevate. Questo può essere dato tra VI troppo correlate in uno stesso "n"

Per valutare la multicollinearità si possono utilizzare gli indici di tolleranza e VIF (Variance inflaction factor) (forniti da SPSS).indici dati da pacchetti statistici. Sono delle informazioni che devono allertare.

L’indice di tolleranza viene utilizzato per stimare quanto una variabile è correlata alle altre e indica la quantità di varianza di una indipendente non spiegata dalle altre. c'è 1 indice per ogni VI

Ti = (1- R2i)

dove R2i è il coefficiente di determinazione nella regressione della variabile i sulle altre variabili indipendenti , che condivide con le altre VI.

Una variabile con un basso livello di tolleranza condivide molta della sua varianza con le altre indipendenti e quindi contribuisce poco a spiegare la variabile dipendente rispetto alle altre; questo può causare problemi computazionali.Valori inferiori a .10 indicano gravi problemi di multicollinearità anche se alcuni autori suggeriscono che anche valori sotto .20 possono essere indicativi di presenza di multicollinearità

20/10/2010 giovedì 14 ottobre 2010

20:04

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 37

Page 38: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Il Variance inflaction factor (VIF) è il reciproco della tolleranza:

VIF = 1/ Ti = 1/(1- R2i)

Poiché l’indice di tolleranza è compreso tra 0 e 1, valori bassi di VIF indicano bassa collinearità, valori alti alta collinearità.

Alcuni autori suggeriscono che se il valore medio di VIF è maggiore di 1 è presente il pericolo della multicollinearità, altri invece ritengono che è un valore di 10 quello segnala il problema, altri ancora che nessun VIF deve essere superiore di 6 o 7.basta 1 o 2 al max....

Sono diversi i rimedi che si possono mettere in atto in caso di multicollinearità:

- si può valutare se è il caso di aggregare le variabili più correlate: inserire in una sola var le 2 VI altamente correlate (es. + sub scale che sono sfumature diverse dello stesso costrutto, nella regressione ,multipla conviene aggregare il tutto,ecc)- si può eliminare una variabile indipendente molto correlata con le altre.

G) Assunzioni sui residui o termini di errore: residui sono le differenze tra i valori stimati e i valori empirici, queste differenze dovrebbero essere distribuite normalmente

- per ogni Xi il valore atteso dei residui, cioè la media, deve essere uguale a zero;- la varianza dei residui deve essere costante per tutti gli Xi (omoschedasticità);- la distribuzione dei residui per ogni Xi deve essere normale;- i residui associati ad osservazioni diverse i e j non devono essere correlati- le variabili indipendenti non devono essere correlate con i residui.

La figura 2.6 (Barbaranelli) fornisce una rappresentazione grafica (relativa alla regressione bivariata) che soddisfa le assunzioni sui residui.

Con il programma SPSS queste possono essere controllate eseguendo i plot dei residui si veda anche fig.2.7 di Barbaranelli.

Incollato da <file:///D:\Blue%208%20-%20agosto%202010\Scuola\Specialistica%20M-3\tecniche%20multi%20variate%20correlazionali\tecniche7_08-09_la_regressione_multipla3.doc>

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 38

Page 39: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Tecniche 8_ 08-09_Regressione multipla4

Strategie di analisi nella regressione↓differiscono sostanzialmente per il criterio che definisce l’ordine di entrata dellevariabili nell’equazione di regressione.Tale decisione ha importanti conseguenze sulla proporzione , quota,di varianza della variabile dipendente spiegata unicamenteda ciascuna variabile indipendente e quindisulla sua importanza.Le tre strategie forniscono soluzioni differenti rispondendo a domande e esigenze di ricerca diverse.

La regressione standard o simultanea (metodo enter in SPSS): risponde a quesiti che riguardano l’entità della relazione complessiva tra la dipendente e le indipendenti e il contributo unico di ciascuna indipendente nel determinare questa relazione quando tutte le indipendenti sono considerate simultaneamente nell’equazione. Tutte le var indipendenti entrano contemporaneamente nell'equazione

L’esempio che abbiamo visto in precedenza è un caso di regressione standard.

La regressione gerarchica si pone il problema di esaminare qual è il contributo aggiuntivo che una variabile indipendente X2, inserita dopo la X1, fornisce alla spiegazione della variabile dipendente. Il ricercatore decide l'ordine d'entrata delle variabili,. Al ricercatore servono delle Hp che derivano da una teoria, osservazione o co. Per la sequenza di immissione, serve per vedere come l'ingresso di nuove variabili variano la VD, così posso dire quale è la VI che spiega un det tratto o fa aumentare il po tere predittivo, o co. -> l'ultimo passaggio della regressione gerarchica è ungale alla regressione standard, ma ho controllato l'ingresso e l'ordine delle var

La regressione statistica risponde al problema di identificare tramite criteri statistici, variabili indipendenti che consentano di prevedere meglio una variabile dipendente in un determinato campione (utilizza un approccio più esplorativo). Fa circa la stessa cosa della regressione gerarchica, ma la fa non dal ricercatore ma sulla base di un dato statistico.

La regressione gerarchica

In questa procedura le variabili indipendenti vengono inserite nell’eq. secondo un ordine definito dal ricercatore, sulla bas e di considerazioni logiche o teoriche.Ogni variabile indipendente è valutata per quanto aggiunge, nella spiegazione dellavariabile dipendente, rispetto a quanto è già stato spiegato dalle variabili inserite in precedenza.

N.B. Il contributo di una variabile indipendente può variare se la sua posizione nella gerarchia di entrata viene cambiata.

(tabella 2.6 p.87 Barbaranelli)

Da notare il parametro indicato con R2CA che rappresenta il coefficiente di correlazione semiparziale al quadrato (sr2) relativo alla variabile inserita nell’eq. ad un determinato passo. Questo coefficiente viene interpretato come la quantità divarianza aggiunta all’R2 da ciascuna variabile indipendente nel punto in cui entra nell’eq.. Nell’analisi gerarchica la somma degli sr2 è uguale al valore dell’ R2.

E’ possibile anche considerare più variabili in blocco all’interno di uno stesso livello della gerarchia. Nell’ambito del livello le

variabili sono considerate alla stessa stregua, ovvero come se la regressione fosse effettuate secondo il modello

standard. possono essere inseriti anche blocchi, sezioni di VI

La regressione statisticaIn questa procedura l’ordine con il quale le variabili vengono inserite nell’eq è determinato da considerazioni statistiche (di solito il coefficiente sr2). Su basi di criteri automatici , statistici

a) Forward: l’eq inizialmente è vuota, vengono quindi aggiunte di volta in volta le variabili con la correlazione più elevata con la dipendente (totale nel primo passaggio semiparziale nei successivi); una volta che una variabile entra nell’eq vi rimane.

Esistono tre diverse versioni della regressione statistica.

b) Backward: l’eq. inizialmente comprende tutte le variabili indipendenti; ad ogni passaggio viene eliminata quella variabile che non contribuisce sufficientemente alla spiegazione della dipendente. Una volta uscita dall’eq la variabile non può più rientrarvi.

c) Stepwise: è un compromesso tra le due precedenti; come nella forward inizialmente nessuna variabile è presente nell’eq, ad ogni passo successivo vengono aggiunte variabili indipendenti che soddisfano il criterio statistico, ma possono essere eliminate quello che non contribuiscono più significativamente. Il ricercatore non Hp molto definiti, ha solo un insieme di dati e và a vedere cosa c'è. Trova una dipendente e cerca tra delle probabili VI che possono influenzare e cera un gruppo di var che influenzano e si estrae le significative -> criticato come tutte le metodologie di fishing _> però utile quando cerco

20/10/2010 B giovedì 14 ottobre 2010

20:45

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 39

Page 40: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

le possibili var che vanno a influenzare un fenomeno, poi però bisogna proseguire con l'analisi, ecc.

Incollato da <file:///D:\Blue%208%20-%20agosto%202010\Scuola\Specialistica%20M-3\tecniche%20multi%20variate%20correlazionali\tecniche8_08-09_regressione_multipla4.doc>

######################################################################################################################

Esame : giovedì 25/11 pomeriggio

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 40

Page 41: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

ANALISI FATTORIALEAnalisi fattoriale 1_08-09 2°parte corso

Storia: la tecnica ha circa un secolo di vita - da inizi '900 nata in PS con Spearman, poi nel secolo si è fusa con procedimenti matematici. Il problema era che nei primi '900 primi tentativi misurare attitudini, personalità, ecc, i

primi test -> i primi fatti sui militari (Spearman era un generale), e si trovavano grandi numeri di persone disponibili per i test-> molti dati per misurare vari fattori. Lui subito correla tutti i punteggi tra i test di cui

disponeva (faceva correlazioni bivariate) e scoprì che erano tutte correlate positivamente tra loro -> significa che

test misurano circa la stessa cosa. Sviluppo così tra le prime teorie sull'intelligenza (fattore G, fattore generale sull'intelligenza -> ogni risultato prestazione di 1 individuo su un test era composto con un fattore generale che

agiscono in tutte le prestazioni di un individuo in ogni campo - intelligenza in senso lato- e un'altra forma di

intelligenza specifica con sue particolarità (es. specifico numerico, spaziale, ecc) che è + importante per risolvere det problemi e meno per altri) quindi per lui era la somma da intelligenza generale e specifica, che si

compensano anche che portano al risultato del test. Dipende anche dalle caratteristiche del compito-> certi richiedono alto fattore G e altri fattori S - G sempre compreso, al di là di caratteristiche S--> ora superata ma ha

dato basi di Analisi Fattoriale. La prima a superarla era Analisi multifattoriale che non c'era un solo G , ma + G

Dire di aver fatto unn analisi fattoriale è un espressione incompleta, bisogna dire tipo analisi, metodo, come rotazione assi, ecc -> ci stà un insieme di tecniche e procedure diverse per l'analisi della struttura dei dati, ma

tutte legate da rapp 1 numero elevato di var con un numero limitato di var latenti detti fattori-> da tanti dati operazione di sintesi - cerca somiglianze, correlazioni, individua delle dimensioni che interpreto e dico che tt le

var sono rapp fa un numero limitato di var latenti (mai misurate e solo ipotizzate che ci sono e che responsabili r

tra var- latenti stanno sotto, nascoste dai dati che noi vediamo) o ipotetiche dette fattoriL'analisi si può fare con 2 tipi di approccio fondamentali: esplorativo e confermativaEsplorativo: ricercatore esplora, senza avere struttura di qst dati, come struttura, dimensioni, quali var ->da insieme di dati li mette insieme e fa un analisi fattoriale esplorativa.

Confermativa: ricercatore con insieme di dati, hp un modello fondato su una teoria, dice che dovrebbero esserci n fattori /var latenti, e dice che tali var dovrebbero avere 1 dimensione e altra altre-> ipotizza una struttura da

teoria/modello già assodate. Vengono poi operativamente scritte e poi guarda FIT se modello hp si adatta ai dati empirici che abbiamo-> se non si adatta si falsifica ipotesi e rivedere tutto (no SPSS ma ISRAEL)IntroduzioneLe tecniche di analisi fattoriale sono nate e hanno avuto vasto impiego in psicologia,come corollario alla teoria dei test, grazie all’originale concezione di Spearman delle funzioni mentali (1904).La teoria di Spearman rappresenta una soluzione alle difficoltà sorte in ambitotestistico dovute al fatto che tali strumenti, sia quelli destinati a misurare la stessa funzione sia quelli destinati a misurare funzioni diverse, presentavano correlazioni positive tra loro.Spearman risolse questa difficoltà interpretando tale risultato come dovuto al fatto che tutti i test, di intelligenza e attitudinali, rappresentano misure più o meno impure di una stessa funzione.Secondo Spearman ogni prestazione dipende dalla cooperazione di due funzionimentali indipendenti: un fattore generale (G) e un fattore specifico (S), il primo agisce in tutte le prestazioni (di un individuo), il secondo è diverso per ogni prestazione.Il livello della prestazione dipende allora dal livello di due fattori, G e S, che sono presenti ciascuno in misura diversa nei singoli individui e concorrono in misura diversa in ogni diversa prestazione. Essendo indipendenti i due fattori sono privi dicorrelazione tra loro.Questa teoria ha orientato per diversi anni le ricerche e la prassi nel settore, finché Thurstone (1945) non propose una sua modifica, conosciuta come teoria multifattoriale. Egli ritenne che non esistesse un unico fattore generale, ma piuttosto diversi fattori, definiti comuni, i quali si riferiscono solo ad alcune delle variabili (o test) considerate.

Attualmente con il termine “analisi fattoriale” ci si riferisce ad un insieme di tecniche diverse per l’analisi della struttura dei dati, legate da un obiettivo comune, quello di rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i fattori.

L’approccio all’analisi fattoriale può essere esplorativo o confermativo. Nel primo caso lo scopo è essenzialmente quello di accertare l’esistenza di dimensioni soggiacenti tramite una vera e propria esplorazione dei dati di partenza. Nel secondo caso lo scopo è verificare ipotesi specifiche sulla struttura dei dati.

Scopi e procedure dell’analisi fattoriale

Ragioni per cui un ricercatore può voler eseguire l’analisi fattoriale:

a) esaminare se le correlazioni di un insieme di variabili possono essere spiegate da pochi costrutti sottostanti; queste var in genere sono nelle costruzione degli strumenti di misura (test, questionari, scale di atteggiamento, ecc - item che non misurino tutti la stessa cosa)

b) esaminare la validità di una teoria relativamente al numero e alla natura dei costrutti necessari per spiegare le correlazioni tra le variabili che si stanno studiando; (controllo item hp prima, testare la validità)

c) verificare risultati precedenti utilizzando un nuovo campione della stessa popolazione o di una popolazione differente. (es. controllo test tradotti se danno stessi risultati, ecc)

25/10/2010 mercoledì 20 ottobre 2010

18:47

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 41

Page 42: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Passi successivi per eseguire l’analisi fattoriale:

1. Selezionare le variabili da analizzare.(tipo scegliere scala Likert, ecc)2. Calcolare la matrice di correlazione (si deve decidere cosa fare con i dati mancanti: eliminare, sostituire con la media o con altro valore). (quando non si ha il risultato, il miglior sistema è mettere la media-> basta che siano tanti, e non sempre sullo stesso item-> metodo rozzo)3. Estrazione dei fattori. Individuare dimensioni sottostanti -> estrarre i fattori 4. Rotazione dei fattori. Primi estratti difficili da interpretare5. Interpretazione della matrice dei fattori ruotati. Da matrice fattori ruotati, bisogna capirne la natura e dargli un nome-> da analisi matematica a analisi di tipo qualitativo -> interpretazione dei fattori e nome fattori e dimensione6. Calcolo dei punteggi fattoriali. p.ti sogg di tutti gli item, dobbiamo trovare i punteggi del fattore

Il punto di partenza comune alle varie tecniche di analisi fattoriale, e ai diversi modelli, è la matrice di dati, soggetti per variabili.Siano v1,v2,v3,v4…… vz, le variabili rilevate su N soggetti. La matrice dei dati N X Z si presenta nella forma:

R è quadrata e simmetrica (r12 = r21), le caselle della diagonale principale sono vuote. Vediamo ora un esempio numerico.

Il punto di arrivo sarò una matrice con le var di saturazione. Matrice di saturazioni. Risultato dell'analisi fattoriale e indicano la forza dle legame tra var e fattore

Esaminando questa matrice possiamo individuare due sottogruppi di variabili e scoprire che le relazioni fra le variabili di uno stesso sottoinsieme sono più forti delle relazioni fra le variabili di sottoinsiemi diversi.

Con un grande numero di variabili e molte correlazioni diventa difficile esaminare il groviglio delle interrelazioni. L’analisi fattoriale è un modo di considerare queste interrelazioni ipotizzando l’esistenza di fattori latenti o costrutti fattoriali che spiegano i valori della matrice di correlazione. I fattori possono essere intesi come variabili latenti (ad esempio, un tratto di personalità, un atteggiamento) che si suppone abbiano dato origine alle risposte dei soggetti (Barbaranelli, p.103).Possiamo allora usare l’analisi fattoriale per verificare se il pattern di relazioni della matrice sopra riportata può essere spiegato dall’esistenza di variabili ipotetiche soggiacenti (due in questo caso), fonti della covariazione osservata tra le variabili.

L’input per l’analisi fattoriale è una matrice di correlazioni completa, le cui caselle della diagonale principale contengono un qualche valore.

L’analisi fattoriale considera quindi variabili standardizzate.

Fattori, variabili e loro relazioni

L’analisi fattoriale si basa sull’assunzione che uno o più fattori soggiacenti (o variabili latenti), di numero inferiore alle variabili osservate, siano responsabili della covariazione tra le variabili osservate.Non è modello generale perché poso avere 1 fattore, ma qst è un caso semplice perché hanno 1 solo fattore

F = fattore comune (riguarda più variabili)U

i = fattore unico (o specifico, secondo la terminologia di Spearman, tipico di ogni var, e comprende erroe di misura)

xi

= punteggio nella variabile osservata

Casi/ le var

Subito seleziono var, e sogg devono essere molti di + delle var - matrice di correlaz = matrice quadrata xkè stesso num riche e colonne e ho tt le var. trovo le correlazioni

Diagonale principale matrice

r12

Sub-matrice: le var 1,2,3 si corr in modo + forte che con le var 4,5,6

Var 4, 5, 6 corr tra loro + forte di qnt nn correlino cn 1,2,3

Noi hp che qst corr la diciamo perché sono tutte rappresentative di una sotto- dimensione = fattore

Diagramma di Path

Ci sono entità di cui parliamo e dei sentieri/frecce che indicano direzioni e collegamenti dell'influenza

Mancano delle frecce, es. tra fattori unici -> preciso significato-> mancanza tra fattori spec ifici e non correlate-> sono indipendenti (teoria classica: errori non devono essere correlati, ecc)Manca frecce tra F e u -> fattori comuni e fattori unici non sono correlati

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 42

Page 43: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

xi = punteggio nella variabile osservata

ai = coefficiente di saturazione(coeff ponderali, indicano un peso, nel caso quanto F pesa su V1, …V4) della variabile i nel fattore

comune F - frecce da fattori e var. la direzione indica l'influenza

ui = coefficiente di saturazione (indica qnt fattore unico pesa sulla variabile) della variabile i nel fattore unico U

i (comprendente il

fattore specifico e l’errore).V1,..V4 sono le var e la parte osservata

Il coefficiente di saturazione può assumere un valore compreso tra +1 e –1. sono coeff di correlazione, indica l'importanza che ha quel fattor per quel valore (solo nei modelli obliqui può essere maggiore); è una costante che nei modelli ortogonali rappresenta la correlazione tra variabile e fattore e indica l’importanza del fattore (o dei fattori nei modelli multidimensionali) nel determinare il punteggio osservato.

Il diagramma di path contiene anche altre informazioni:

cov (F,U1) = cov (F,U2) = cov (F,U3) = cov= (F,U4) = cov (U1,U2) = cov (U1,U3) =cov (U2,U3) = cov (U1,U4) = cov (U2,U4) = cov (U3,U4) = 0

Non c’è correlazione tra fattore comune e fattore unico e non c’è correlazione tra fattori unici.

Il modello ad un fattore comune (come quello di Spearman) può essere espresso algebricamente dall’equazione di specificazione, cioè dall’equazione che esprime il punteggio di un soggetto in una variabile (un item, un test) come funzione lineare dei due fattori: il fattore comune (che Spearman chiamava fattore G) e il fattore Unico (che Spearman chiamava specifico) indipendenti, cioè privi di correlazione tra loro. L’equazione di specificazione assume la forma seguente:

zpi = ai Fp + uiUip (1) equazione di specificazione

dove:

zpi = punteggio standardizzato della persona p nella variabile i - un p.teggio di un individuo in una variabile (Z standardizzato)ai = coefficiente di saturazione di i in F (costante per tutti gli individui). Già visto in diagramma di Path

Fp

= misura del fattore (della var latente, teorizzata, fattore), in unità standard, di F nella persona p -> standardizzata

ui = coefficiente di saturazione di i in U

i (costante per tutti gli individui). Cambia con a la misura dell'entità del fattore

Uip

= misura, unità standard, di Ui

nella persona p.

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 43

Page 44: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

algebriche

Varianza di una variabile i = saturazione var i al quadraro + saturazione var fattore u al quadrato =1Con equazione specificazione riesco a scomporre varianza in 2 parti

Sostituzioni:Elevata al quadrato

Sviluppo del quadrato di un binomio (a+b)2=a2+2ab+b2

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 44

Page 45: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

l'analisi fattoriale si fonda sulla scomposizione delle var di fattori unici e fattori comuni

Se ho "a" che è scopo analisi fattoriale, posso trovare "u"

Corr tra var e fattore

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 45

Page 46: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Il coefficiente di correlazione tra due variabili equivale al prodotto delle saturazioni delle due variabili nel fattore comune F.La covariazione tra le due variabili osservate è dovuta ad F, se questo viene rimosso, tra i e j non ci sarà più correlazione.

Una volta eseguita l’analisi fattoriale, possiamo disporre i risultati sotto forma di matrice (matrice fattoriale); questa avrà tante righe quante sono le variabili e tante colonne quante sono le variabili più una.

1 colonna per 1 var -> 1 fattore unico per ogni variabile

Posso tornare al punto di partenza e posso dire che qll var sono correlate perché condividono gli stessi fattori -> da matrice di saturazione torno alle matrice di correlazioni

Coeff correlaz tra 2 var è = al prodotto di 2 coeff di saturazione

Rapp. matrice

Coeff saturazione fatt unico sulla var -> conoscendo a trovo u

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 46

Page 47: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Possiamo scrivere i singoli punteggi sotto la forma di equazioni di specificazione:

Scomposizione di una varianzaConformemente all’equazione 2

i = a2i + u2

i, possiamo ricavare la matrice delle varianze dalla quale risulta, per ciascuna variabile, la quota di varianza dovuta ad F (varianza comune o comunanza, h2) e la quota di varianza unica, dovuta al fattore unico. Precisiamo che questa quota di varianza comprende a sua volta la varianza specifica e la varianza d’errore.

o comunalità differenza da 1

Fine lezione 25/10/2010

Lezione 26/10/2010

Fondamenti della rappresentazione geometrica dei modelli fattoriali

La rappresentazione geometrica dei modelli fattoriali segue le convenzioni seguenti:

1. ogni variabile è rappresentata mediante un vettore di lunghezza pari alla varianza (1) della variabile, cioè uno (ricordiamo che le variabili sono standardizzate) (un vettore è un segmento avente una direzione, un verso e una grandezza, in questo caso lavarianza di una variabile);2. CONVENZIONE DEL COSENO: due qualsiasi variabili i e j sono rappresentate da due vettori unitari che formano un angolo tale che cos ij = rij (convenzione del coseno)

Rapp. diagramma

Coeff delle corr

E si torna da dove si è partiti

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 47

Page 48: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

La rappresentazione geometrica della correlazione mediante il coseno dell’angolo formato dai vettori-variabile è una convenzione, quindi una decisione arbitraria, tuttavia la scelta della funzione del coseno risulta vantaggiosa:

a) il coseno è una funzione che assume valori da –1 a + 1, come la correlazioneb) è una funzione decrescente dell’angolo: tanto minore è l’angolo tanto maggiore è il coseno (e quindi la correlazione).

Vediamo alcuni esempi di rappresentazione vettoriale di coefficienti di correlazione

Analisi ortogonale: fattori indipendenti tra loro

Facciamo analisi + semplice

Estensione della CONVENZIONE DEL cosenoIl fattore (o i fattori comuni) e i fattori unici possono essere pensati come variabili (si può pensare in via teorica ad item che li misurino perfettamente) e quindi valgono anche per essi le convenzioni precedenti: possono cioè essere rappresentati come vettori di lunghezza unitaria che formano un angolo il cui coseno è 0, cioè come vettori perpendicolari (per questa ragione imodelli fattoriali con fattori non correlati sono detti modelli ortogonali)

I fattori, tuttavia, possono meglio essere rappresentati come assi (assi fattoriali) che danno origine ad un piano (se i fattori considerati sono due) o ad uno spazio, in cui si trovano i vettori-variabile (se i fattori sono più di due).

Nel caso del modello ad un fattore comune, l’insieme delle q variabili può essere allora rappresentato in uno spazio a q + 1dimensioni (q + 1 fattori, un fattore comune q fattori unici), tra loro ortogonali. Ogni vettore-variabile viene a cadere su un piano individuato dal fattore comune F e da quello unico Ui relativo a tale variabile.

Ortogonali perché formano 1 angolo di 90°

Se hanno una relazione positiva hanno un angolo di 45°

Se hanno una correlazione negativa è di oltre 100°

Corr negativa perfetta

Corr positiva perfetta

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 48

Page 49: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Consideriamo ora il piano formato dagli assi dei fattori F e Ui perpendicolari tra loro e in particolare la porzione di piano relativa ai semi-assi positivi. Possiamo dimostrare che l’angolo che il vettore della variabile Ui forma con l’asse del fattore F ha un coseno che equivale alla correlazione tra la variabile e il fattore, cioè alla saturazione della variabile nel fattore, ai.

Avendo fatto già la analisi fattoriale, e trovata la saturazione (correlaz tra la var e il fattore comune) si trova l'angolodel'inclinazione (localizzare il vettore)della var dato che il coseno di quell' angolo deve essere uguale alla saturazioneCoseno = correlazione

Posso fare le proiezioni

La var di una var 1 è composta da parte var fattore comune a2 e fattore unico u2

Allora se conveniamo di rappresentare le variabili come vettori di lunghezza 1, le proiezioni ortogonali di questi vettore sull’asse del fattore F sono i coefficienti di saturazione delle rispettive variabili nel fattore F.

I modelli plurifattorialiModello facile con 2 Fattori comuni- ortogonali (= non correlati tra loro) e 5 var

Il modello a due fattori comuni ortogonali

Fattore unico

Fattore comune

Variabile 1

Se introduco var j devo inserire un altro fattore unico di j che deve essere perpendicolare al fattore unico di i e al fattore comune di jModello dice che non c'è corr tra fattori unici (tra loro)& con i fattori comuniAvrei bisogno di 1 dim per il fattore comune + 4 p per i fattori unici -> 5 dim. Per qst non si può rapp tt spazio fattoriale, ma usiamo sotto spazi->rappresentato in uno spazio a q+1 fattore

SottospazioDella prima var iSe mettessi la 2°Dovrei fare un cubo

Triangolo rettangolo

αf j

Proprietà triangolo rettangolo

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 49

Page 50: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Assunzioni: cov (F1,F2) = cov (Fi,Ui) = cov (Ui, Uj) = 0

L’equazione di specificazione nel caso del modello a due fattori comuni diventa:

zip = ai1F1p + ai2F2p + ui Uip estensione equazione di specificazione

zip = punteggio in unità standardizzata dell’individuo p nella variabile i ai1 = saturazione della variabile i in F1 ->unico dato che si ha

F1p = misura in unità standard di F1 nella persona p ai2= saturazione della variabile i in F2

F2p = misura in unità standard di F2 nella persona p ui = saturazione della variabile i nel fattore unico Ui Uip = misura in unità standard di Ui nella persona pail se "0" io fattore non ha influenza sulla var -> saturazione alla var F1

N.B. La saturazione in un fattore comune può anche essere uguale a zero.

In base alla nuova equazione di specificazione possiamo scrivere:

a) la nuova espressione fattoriale della varianza:

b) la nuova espressione fattoriale della correlazione

rij = ai1aj1 + ai2aj2 prodotto delle saturazioni nei 2 fattori

c) la correlazione tra variabile e fattori comuni:

riF1 = ai1 riF2 = ai2

Esempio di diagramma di path per un modello con due fattori comuni

Frecce che mancano hanno peso = 0 che significa saturazione = "0"

0.0

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 50

Page 51: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Devo partire da matrice di correlazione, ma non ho da mettere la comunanza sulla diagonale principale dato che il dato l'avrò solo alla fine -> sul modo di inserire la varianza si distinguono i vari metodi di analisi fattoriale

In generale, dato un insieme q di variabili, misurate a livello di scala ad intervalli e standardizzate, queste possono essere espresse come combinazioni lineari di K fattori comuni e q fattori unici (essi pure espressi in unità standard) secondo dei coefficienti detti saturazioni.I fattori comuni contribuiscono al punteggio di almeno (minimo!) due variabili (cioè, saturano almeno due variabili), mentre i fattori unici contribuiscono al punteggio di una sola variabile.I fattori unici non sono correlati tra loro né con i fattori comuni; nei modelli ortogonali anche i fattori comuni non sono correlati.Mentre nei fattori obliqui anche fattori comuni possono essere correlati

L’equazione di specificazione è allora: k fattori

zip = ai1F1p + ai2F2p + …. aikFkp + si Sip + eiEip

Sip = misura in unità standard nel fattore specifico S della persona pE

ip= misura in unità nel fattore di errore, si può ancora scomporre in 2 parti: errore specifico, e l'errore. In realtà noi non siamo capaci scomporle, e le

prendiamo in modo cumulativo come fattore unico

L’espressione fattoriale della varianza è

L’equazione del modello dell’analisi fattoriale permette di scomporre la varianza di una variabile in varianza comune (detta comunanza o comunalità) e varianza unica.La comunanza (o comunalità) rappresenta la parte di varianza totale di una variabile che viene spiegata dai fattori comuni (derivati dalle correlazioni tra le variabili). L’unicità rappresenta la parte di varianza di una variabile non spiegata dai fattori comuni (varianza specifica + varianza d’errore).

La varianza di una variabile può essere così scomposta: Varianza totale = 1 = h2 + s2

i + e2i

Comunanza = h2 = 1 – u2i

Unicità = u2i = s2

i + e2i

FINE LEZIONE 26/10/2010Lezione 27/10/2010 = 0,0013 esercizi 1 , 2 , 3 appunti

LEZIONE DEL 2/11/2010Altri concetti importanti:

- complessità fattoriale di una variabile: si riferisce al numero di fattori che saturano in modo elevato (> .400 in valore assoluto, anche negativo) una variabile; nell'esempio le variabili 1,2,4 e 5 hanno complessità 1, la variabile 3 ha complessità 2;si può dire che +o meno .400 è un valore elevato. Quando è superiore satura in modo elevato la variabile e che correla positivamente (se negativo var e fattore correlano negativamente) elevato al quadrato da il coeff determinazione -> .4002=.16 e quindi ch il fattore spiega il 16% della varianza. .400 è una convenzione

NOI VGL CHE NELLE SOLUZIONI FATTORIALI CHE VARIABILI CON COMPLESSITA' 2,3, NON LE VOGLIAMO,

saturazioni

Si potrebbe aggiungere colonna tot della var e sarebbe per tutte 1

Parte dovuta dai fattori comuni si dice COMUNANZA (h2)

Varianza unica è "1-h2" se alta -> tanto errore di misura nelle nostre var

Ricostruiamo la matrice di correlazioni di partenza

V1*v3

Sulla diagonale principale ci sono le comunanze-> parte var dovuta all'azione dei fattori comuni

Attendibilità: var - quota di var d'errore + s (specificità var)

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 51

Page 52: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

NOI VGL CHE NELLE SOLUZIONI FATTORIALI CHE VARIABILI CON COMPLESSITA' 2,3, NON LE VOGLIAMO, sarebbe meglio che non ci sono, perché crea problema interpretazione: di quale var rapp il fattore quale è quella rappresentativa.Item ambigui vanno scartati perché misurano 1 o + dimensioni insieme che si vogliono studiare. UNA VARIABILE SATURA IN MODO PURO DI UN FATTORE quando presenta una saturazione superiore .400 solo in 1 dei fattori comuni -> var + complessità son variabili complicate perché non si sa cosa saturano

- determinazione fattoriale delle variabili: Quanto pesano i fattori su tutte le var nel loro insieme, o qst fattori che ho trovato, quanto pesano o quanto sono importanti. Per far quasto ci si riferisce alla:

Varianza comune:quota della varianza complessiva delle variabili osservate spiegata dai fattori comuni. (o spiegata dai fattori comuni)Si calcola sommando le comunanze delle singole variabili (il suo valore è inferiore al numero delle variabili,nell'esempio è 2.89). Saturazioni si possono elevare al quadrato e sommate per riga per trovare la comunanza. -->tabella 2/11/2010 data in classeVarianza totale: è uguale al numero delle variabili: var n° varanza è uguale al numero delle variabili stesse. è uguale alla somma delle varianze delle variabili cioè uguale al numero delle variabili (nell'esempio, 5). Ogni fattore, a sua volta, spiega una parte della varianza totale delle variabili. Per calcolare questa porzione di varianza(indicativa dell'importanza di quel fattore, nello specifico insieme di dati analizzato) si sommano le saturazioni del fattore elevate al quadrato (nell'esempio, F1 = .64 + .49 +.36 = 1.49; F2 = .04 + .36 + 60 + .36 = 1.40).Analisi fattoriale ha espreso 2 fattori che insieme esprimono il n% della varianza totSEMPRE SCRITTA: "L'ANALISI FATTORIALE HA ESTRATTO "N" FATTORI CHE INSIEME SPIEGANO L'N% DELLA VARIANZA TOTALE -> VAR TOT è UGUALE AL N° DELLE VARIABILI, PETRCHE' VARIABILI HANNO VQR 1IL PRIMO SPIEGA L'N% DELLA VARIABILE TOTALE E IL 2° SPIEGA L'N % DELLA VAR TOTALE-IL 1° FARTORE SPIEGA IL N% DELLA VARIANZA COMUNE E IL 2° SPIEGA N% DELLA VARIANZA COMUNE-

IMPORTANTE PER L'ESAME -> SCHEMA COSI' SI TROVA SEMPRE O COME ESERCIZIO O OUTPUT PER L'ANALISI FATTORIALESi può rapportare la quota di varianza spiegata da un fattore alla varianza comune: F1: 1.49 : 2.89 = x : 100 51.55%F

2: 1.40 : 2.89 = x : 100 48.44%

e si ottiene la percentuale di varianza comune spiegata da ogni fattore.Si può rapportarla alla varianza totale: F1: 1.49 : 5 = x : 100 29.8%F

2: 1.40 : 5 = x : 100 28 %

si riferisce al grado in cui le variabili osservate sono determinate dai fattori comuni; a questo proposito si fa riferimento alla varianza totale e alla varianza comune.

e si ottiene la percentuale di varianza totale spiegata da ogni fattore; si può rapportare la varianza comune alla varianza totale (2.89 : 5 = x : 100, 57.8%) e si ottiene la percentuale di varianza totale spiegata dai fattori comuni.

OPPURE TROVARE LA RELAZIONE TRA 2 VARIABILI DELLA MATRICE CON LA FORMULA

. rij = ai1aj1+ ai2aj2

saturazione fattore unico è 1 - comunanza tutto sotto radice

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 52

Page 53: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Analisi fattoriale2_08-09

Quando abbiamo soluzione fattoriale possiamo trovare la matrice di correlazioni -> nota la matrice fattoriale e possibile trovare la matrice di correlazioni che l'ha generata

L'equazione di Thurstone

data una matrice fattoriale (indicata con F o con A) che moltiplicata per la sua trasposta ci dà una matrice di correlazioni completa della comunanzacalcolare una matrice con un numero minimo di colonne tale che moltiplicata per la sua trasposta coi dà "r*"(matrice di correlazioni completa della comunanza)Abbiamo visto, sia nel caso del modello ad un fattore comune sia nel caso di quello con due fattori comuni, che quando è notala soluzione fattoriale (sono state cioè calcolate le saturazioni) è possibile ricavare la matrice di correlazioni corrispondente, completa di comunanze. In termini di algebra matriciale, questa operazione è espressa dall'equazione

per indicare si usano lettere latine, maiuscole, e in grassetto -> si stà parlando di una matrice

FF' = R*

(Oppure AA’ =R*, Barbaranelli, p. 117)

F = matrice fattoriale (con K colonne, quanti sono i fattori comuni e q righe, quante sono le variabili)F' = trasposta di FR*= matrice di correlazione riprodotta completa di comunanze

Questa equazione esprime matematicamente il problema della fattorializzazione: si tratta di calcolare una matrice (con un numero minimo di colonne) tale che moltiplicata per la sua trasposta dia R*.

matrice fattoriale ha come elementi le saturazioni ed è una matrice rettangolare (n° Fattori < variabili) matrice A è + giusto perché saturazioni si indicano con "a" -> meglio matrice chiamata "A"

Elementi di algebra matriciale

Matrice: si dice matrice un insieme di elementi disposti ordinatamente in righe e colonne a costituire una tabella, quadrata o rettangolare. Una matrice A m x n ha m righe e n colonne (per convenzione il numero delle righe si indica per primo); se m n, la matrice si dice rettangolare.

Gli elementi della matrice si indicano con aij (il primo deponente indica il numero della riga).

Una matrice quadrata ha lo stesso numero di righe e di colonne; si dice di ordine n (n righe = colonne). In una matrice quadratarettangolare = n° diverso di righe e colonne

gli elementi a11, a22, ….. ann costituiscono la diagonale principale, mentre gli elementi a1n, ….an1 costituiscono la diagonale secondaria.

Considerata una matrice quadrata A, si dice traccia di una matrice la somma degli elementi della diagonale principale

trA= a11 + a22 + …. + amm

Una matrice quadrata è simmetrica e quadrata intorno alla diagonale principale se è composta da elementi aij =aj i.. Le matrici di correlazione e covarianza sono simmetriche.

Matrice diagonale:una matrice simmetrica e quadrata in cui tutti gli elementi sono 0 eccetto quelli della diagonale principale:

diagonale principale della matrice

02/11/2010 B mercoledì 20 ottobre 2010

18:47

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 53

Page 54: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Matrice diagonale:una matrice simmetrica e quadrata in cui tutti gli elementi sono 0 eccetto quelli della diagonale principale:

Matrice identità è una matrice diagonale dove sono tutti io valori uguali a zero e uno solo sulla diagonale principale -> ogni valore della diagonale principale è "1" e tutti gli altri sono "0"

Operazioni con matrici e vettori

si possono fare calcoli con le matrice

Somma e sottrazione

Matrice somma. Due matrici A e B possono essere sommate e sottratte solo se sono dello stesso tipo (stesso numero di righe e di colonne). L'addizione consiste nel sommare gli elementi corrispondenti delle matrici

Matrice differenza. Per sottrarre due matrici è necessario che abbiano lo stesso numero di righe e lo stesso numero di colonne. La sottrazione si esegue calcolando la differenza degli elementi corrispondenti delle matrici.

L'addizione e la sottrazione di vettori seguono le stesse regole.

Moltiplicazione

Prodotto di matrici. Quello di interesse per noi, dato che Turstone dice che si moltiplica la matrice per la trasposta sua.Per moltiplicare fra loro due matrici si calcolano i "prodotti interni" di ogni riga della prima matrice per ogni colonna della seconda (la regola è riga x colonna). Due matrici sono moltiplicabili tra loro se sono 'conformabili' cioè se il numero di colonne della prima matrice (moltiplicanda) è uguale al numero di righe della seconda (moltiplicatrice). La matrice prodotto avrà il numero di righe della prima matrice e il numero di colonne della seconda.

L'elemento c12 è dato dalla prima riga di A per la seconda colonna di B: (2X7) + (6X1) + (0 X 3) = 20.

si deve trovare una matrice fattoriale con (mxn) con n°m<n ??? che riconduca alla matrice di correlazione

tutti elementi 0 eccetto diagonale principae

vettore colonna ->serie righe e una sola colonna

vettore riga-> + colonne e una sola riga

tutte e 2 "3 x 2"

moltiplicanda moltiplicatrice

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 54

Page 55: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

si deve trovare una matrice fattoriale con (mxn) con n°m<n ??? che riconduca alla matrice di correlazione

Autovalori (eigenvalue, radici caratteristiche, radici latenti): data una matrice quadrata di ordine n, si possonocalcolare(con equazione determinantale) n numeri reali (λ i) ottenuti da un’equazione detta equazione

determinantalese la matrice è n, posso calcolare n di questi valori, e che qst numeri hanno interessanti proprietà: n valori (λ i) autovalori chè è uguale al n° delle variabili, numero reale-la somma si qst elementi è uguale alla traccia della matrice (somma elementi sulla diagonale principale) -

Proprietà degli autovalori (eigenvalue):

- in una matrice quadrata il numero delle radici caratteristiche che si possono estrarre è n;- la somma delle radici caratteristiche della matrice è uguale alla traccia della matrice stessa;

Vettori caratteristici (autovettori, eigenvectors, vettori latenti): ad ognuno degli n valori (λ i) di una matrice di ordine n corrisponde un vettore caratteristico

Ogni autovalore di R è rappresentato da un numero, mentre ogni autovetture ha un’unica colonna e tante righe quante sono le variabili contenute in R.

La matrice delle saturazioni si ricava dalla matrice degli autovettori moltiplicata per la radice quadrata della matrice degli autovalori (che è una matrice diagonale) (Barbaranelli. 119)

i passi che si fanno:si mette una matrice qudrata che è qll di corrsi mette qlc sulla diagonale principalesi calcolano gli autovalori ( = n° var e loro sommma = n° var)si calcolano autovettorisi calcola matrice autovettori per radice quadrata matrice autovalori ->matrice saturazione

LEZIONE 3/11/2010

L'equazione di Thurstone e l'indeterminatezza della soluzione fattoriale

Ma torniamo all’equazione di Thurstone.

FF' = R*

F = matrice fattoriale (con K colonne, quanti sono i fattori comuni e q righe, quante sono le variabili)F' = trasposta di FR*= matrice di correlazione riprodotta completa di comunanze

Come abbiamo detto, questa equazione esprime matematicamente il problema della fattorializzazione: si tratta di calcolare unamatrice (con un numero minimo di colonne) tale che moltiplicata per la sua trasposta dia R*.

Di solito, per effetto di errori stocastici nella matrice R, la matrice di correlazione riprodotta non è esattamente uguale ad R. La matrice dei residui che si ottiene sottraendo da R, la matrice riprodotta R*, contiene le quote di correlazione tra variabili non dovute all'azione dei fattori comuni (se la soluzione è adeguata queste dovrebbero essere prossime a zero).

Indeterminatezza della soluzione fattoriale

La conoscenza delle correlazioni tra le variabili (il reale punto di partenza dell’analisi fattoriale) non consente di conoscere in modo inequivocabile la struttura fattoriale. Infatti uno stesso insieme di correlazioni può essere prodotto da strutture fattoriali diverse . Infatti:

- una particolare struttura di correlazioni può essere prodotta dallo stesso numero di fattori comuni, ma con diversa configurazione delle saturazioni fattoriali, come in questo esempio:

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 55

Page 56: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Altri elementi di indeterminatezza sono introdotti dalle rotazioni dei fattori, come vedremo.

A parità di n° di fattori devo scegliere i dati meno difficili, + chiari e con minimo n° di fattori

Come si raggiunge allora una qualche certezza sui risultati dell’analisi fattoriale? Si pongono alcuni postulati:

a) il postulato della parsimonia: se sia un modello ad un fattore comune sia un modello a due fattori comuni possono spiegare la covariazione tra le variabili si deve accettare quello ad un fattore;b) il postulato della semplicità: a parità di numero di fattori sono da preferire le strutture più semplici, con bassa complessità fattoriale; queste sono anche più facilmente interpretabili.

FF'= seconda riga per prima colonna->0,670 * 0,766 + (-0,232)* (-0,203)=0,5603

Da origine monofattoriale con seconda matrice con 2 fattori, si ottiene la stessa correlazione0,63 di variabili 1 e 2 potrebbe essere spiegata dalla saturazione di .9 la prima e .7 la seconda

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 56

Page 57: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Analisi fattoriale3_08-09

MODELLI DI ANALISI E METODI DI ESTRAZIONE DEI FATTORI

I modelli

Il modello dell’analisi fattoriale consente di mettere in relazione il punto di partenza (R) con il punto di arrivo: la matrice fattoriale contenente le saturazioni. Il problema è ora quello di calcolare queste saturazioni e di farlo in modo che il numero dei fattori che vengono usati per riprodurre R sia inferiore al numero delle variabili.

Estrazione delle componenti principali di una matrice di correlazioni, procedura id calcolo ideata da dei matematici, e si è incrociata con PS e si è vista che era una strategia utile per APPROSSIMARE una soluzione fattoriale.Una soluzione al problema del calcolo delle saturazioni è rappresentata dall’estrazione delle componenti principali dalla matricedi correlazioni. L’analisi delle componenti principali rappresenta una strategia utile per approssimare una soluzione fattoriale. (di defoilt su SPSS- se csi non si può dire di aver fatto un analisi fattoriale, ma un analisi delle componenti principali).Si basa sul calcolo degli autovalori e autovettori di R con lo scopo di sostituire le variabili osservate con nuove variabili che delle prime sono una combinazione lineare e ne sintetizzano l’informazione.

ci sono 2 grandi vie: modello delle componenti principali, dall'altro il modello dei fattori comuni:

Modello delle componenti principali (ACP)

ACP consente di trasformare q variabili standardizzate (z1, z2…..zq) in un insieme di nuove variabili - in maiuscolo E "C"= componenti principale(C1, C2, …. Cq), dette componenti principali, che sono combinazioni lineari di quelle originali e tutte indipendenti.

Nei termini dell’equazione di specificazione, date q variabili standardizzate e p individui, ogni punteggio zjp è esprimibile come combinazione lineare di q componenti secondo dei pesi (o saturazioni), aj1, aj2,……ajq

zjp = aj1C1p + aj2C2p + ……. ajqCqp

Manca fattore unico, tutti i componenti provengono da componenti comuni, e, se le variabili sono q noi vorremmo che i fattori fossero meno di q, mentre qui tutte le variabili originali, carrellate tra loro vengono tutte trasformate e ognuna ha ill suo peso per determinare il peso finale-> estrae tutta la varianza possibile e ha fattori tanti quanti sono le variabiliIn ACP il punteggio zjp è spiegato nei termini di q fattori (o componenti) senza fare distinzione tra fattori comuni e unici.È simile a trasformazione lineare, o regressione di regressione -> tutte hanno circa la stessa forma

Per trovare la varianza dal modello dovrei estrarle tutte le a, elevarle e sommarle e si avrebbe 1, cioè tuttta la varianza viene spiegata

In sintesi, le componenti principali di un insieme di dati si ricavano identificando la combinazione lineare delle variabili osservate che estrae (spiega) il massimo di variabilità dei dati stessi; quindi identificando, in sequenza, la componente, non correlata con la prima, che estrae il massimo della variabilità residua e così per le altre fino all’ultima estraibile.Nel modello ACP, non essendo previsti i fattori unici, per ogni variabile, la sommadei quadrati delle saturazioni delle q componenti, cioè la comunanza, è uguale ad 1.

Da notare tuttavia che lo scopo dell’analisi fattoriale non è quello di sostituire le variabili osservate con nuove variabili che sono combinazioni lineari delle prime e ne

sintetizzano l’informazione. L’analisi fattoriale si pone lo scopo di individuare poche dimensioni non osservabili che rendono ragione delle correlazioni tra le variabili.

Modello dei fattori comuni (AFC)

Prevede la scomposizione della varianza in in varianza comune e in varianza unica. Ci sono vari modi di estrarre, lascia modo ad approssimazioni maggiori, tutte specializzate per spiegare + varianza o comunanza comune

AFC prevede la scomposizione della varianza in varianza comune e varianza unica (specifica più errore). Nell’ambito di questo modello esistono diverse “tecniche di estrazione dei fattori”, finalizzate a spiegare più covarianza possibile, ovvero a rendere ragione al meglio delle correlazioni tra i fattori. La tabella 4.2 illustra le differenze tra le soluzioni secondo ACP e secondo AFC.

Il calcolo delle saturazioni (o estrazione dei fattori)

03/11/2010 B giovedì 21 ottobre 2010

18:13

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 57

Page 58: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Il calcolo delle saturazioni (o estrazione dei fattori)

I procedimenti di calcolo dell’analisi fattoriale si applicano ad una matrice di correlazione completa di comunanze.

La comunanza è = 1 e và messa nella diagonale principale dove devo mettere sempre valori, la comunanza deve spiegare tutta la varianza -> se voglio fare il calcolo per fattori comuni

Se invece uso varianza unica con il modello dei fattori comuni devo usare una stima della comunanza (R2è scelta defoult SPSS-> correlaz multipla di ogni variabile con tutte le altre)

La stima delle comunanze

In realtà le comunanze saranno note sola alla fine dell’analisi. E’ allora necessario procedere ad una stima delle stesse. Tali stime andranno collocate sulla diagonale principale della matrice di correlazione.

I metodi di stima sono diversi e dipendono in primo luogo dal modello teorico adottato.

variabili

a

Se trovi comunanze, elevandole ognuna e sommandole, risulta 1 A al quadrato per colonna e sommate, si ottiene un valore che rapportato ………………………………………………………………………………………………………………………...alla varianza tot (8) ottiene 32,2%

C ->

Fattori meno delle var (sl 3 colonne), che h2 diverso da 1

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 58

Page 59: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

I metodi di stima sono diversi e dipendono in primo luogo dal modello teorico adottato.

A) Nel caso del modello delle componenti principali, essendo la comunanza uguale ad 1 (ricordiamo che questo modello non distingue tra fattori comuni e fattori unici) le caselle della diagonale principale della matrice di correlazione conterranno il valore 1. Poiché in questo caso la comunanza iniziale (stimata) è uguale alla comunanza che si otterrà alla fine dell’analisi, essendo fissata dal modello teorico, non occorre procedere a stime e ricorrere a metodi iterativi per migliorare le stime stesse, come nel caso dell’analisi in fattori comuni.

B) Nel caso del modello in fattori comuni (AFC) si procede nel modo seguente:

si completa la matrice di correlazione inserendo sulla diagonale principale una stima della comunanza che può essere:- 1 (l’intera varianza della variabile e ciò costituirà una sovrastima della comunanza stessa);- R2, il coefficiente di correlazione multipla di ogni variabile con tutte le altre elevato al quadrato (questo esprime la quota di varianza che una variabile ha in comune con le altre) (è la stima usata per default da SPSS);molto simile alla varianza comune a come si usa nell'analisi fattoriale- l’rmax della colonna (per ogni variabile si sceglie come stima la correlazione più alta), è un metodo adatto quando il numero delle variabili è elevato (poco usato);in disuso- la correlazione media di una variabile con tutte le altre (poco usato).in disuso

si eseguono le iterazioni nel modo seguente: procedimento ITERATIVO (iterare = ripetere)

1) dopo aver inserito le stime della comunanza prescelte si procede al calcolo delle saturazioni (si estraggono i fattori) e vengono messi sulla diagonale, e ho le saturazioni, elevo, sommo e calcolo comunanze2) si calcolano le comunanze delle variabili rispetto ai fattori estratti (le somme delle saturazioni elevate al quadrato perogni variabile)3) si inseriscono le comunanze così calcolate nelle caselle della diagonale principale della matrice di correlazioni 4) si procede ad una nuova estrazione dei fattori5) si ricomincia dal punto 2 e la procedura viene ripetuta finché i valori delle comunanze diventano stabili (i valori iniziali e quelli finali differiscono di meno di .001).Si ripete con un minimo di 25 e ci si ferma quando la stima è precisa , molto vicina, a .001-> se metto 1 sulla diagonale principale non è possibile modificare

Nel caso dell’analisi in fattori comuni anche la soluzione fattoriale non ruotata non è unica.

Sintesi della procedura per il calcolo (estrazione dei fattori)delle componenti principali

Il calcolo delle saturazioni usa un algoritmo basato sull’algebra matriciale:

1. Sulla diagonale principale di R, come stima delle comunanze si introduce 1

2. Si determinano gli autovalori (eigenvalue) di R -> autovalori sono numeri reali che sono pari a n° variabili (n) e si ottengono dalla equazione detrminantale e si indica con λ sono tt le possibili soluzioni che matrice R e matrice λ abbia … = 0

un autovalore è un numero reale che si ottiene da una specifica equazione determinantale |R- λI| = 0. (determinante si parentesi con "|..|"

gli autovalori di una matrice di correlazione con 1 sulla diagonale principale sono n (= numero delle variabili)

la somma degli (n valori λ)autovalori è uguale alla traccia della matrice cioè è uguale al numero delle variabili.

Il primo autovalore corrisponde alla quota di varianza totale spiegata dalla prima componente. Il secondo e il terzo corrispondono, rispettivamente, alle quote di varianza totale spiegate dalla seconda e dalla terza componente e cosi via (sempre un po’ + piccolo a scendere).

Out_put SPSS 3/11/2010

La prima componente principale è quella che spiega più varianza possibile dei dati originali. La seconda componente spiega la maggior quota possibile di varianza residua e così via.

La somma dei quadrati di ciascuna colonna della matrice delle componenti è uguale al corrispondente autovalore di R e quindi alla quota di varianza spiegata dalla componente stessa.

La somma degli autovalori rappresenta la varianza totale estratta; poiché, secondo un teorema dell’algebra matriciale, la somma degli autovalorii è uguale alla traccia della matrice, e poiché abbiamo messo 1 sulla diagonale principale, la somma degli autovalori è uguale al numero delle variabili, cioè è uguale alla varianza totale.

Ma qual è l’utilità di un modello di analisi il cui il numero dei fattori estratti coincide con il numero delle variabili?

Il modello ACP non richiede di stimare le comunanze (uguali ad 1); non esegue quindi iterazioni per approssimare la

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 59

Page 60: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

migliore stima delle comunanze e la soluzione

(non ruotata) è unica. Il problema da affrontare è quello di decidere quante componenti principali considerare nell’interpretazione dei risultati. Infatti, se ne considerano solo alcune: quelle che contribuiscono maggiormente a spiegarela covariazione tra le variabili osservate. Nel prendere la decisione si seguono più criteri, alternativi o complementari.

Procedure per determinare il numero dei fattori

Ricordando che lo scopo dell’analisi fattoriale è quello di trovare il minor numero di dimensioni (o variabili latenti) che possono spiegare la maggior parte della variabilità dei dati e delle covariazioni tra le variabili, si deve affrontare il problema di quante componenti o fattori considerare. La domanda è: dove fermarsi con l’estrazione dei fattori?

Dato che non mi servono di estrerre tutti i componenti, e uso un criterio per determinare il limite di finire di estrarre

Per rispondere a questa domanda ci si può riferire ad una serie di tecniche alternative o complementari.

2 possibiltà criterio

A) criterio automatico di SPSS, continua finchè non hai autovalori maggiori di 1.estrare tanti componenti finchè autovalori non arrivano a 1 poi si ferma ,Nel caso del modello delle componenti principali si fa riferimento all’entità degli autovalori. L’autovalore massimo corrisponde alla quota di varianza totale spiegata dalla prima componente o fattore; il secondo e il terzo corrispondono rispettivamente alle quote di varianza totale spiegate dalla seconda e dalle terza e così via. Si considerano allora le componenti con autovalore maggiore di 1.è una sorta di autovalore medio 1Ricordando che la varianza totale è uguale al numero delle variabili e che la somma degli autovalori è uguale ad n, e quindi uguale alla varianza totale, se questa fosse equidistribuita tra le componenti, ogni autovalore dovrebbe essere uguale ad 1; con questo criterio (criterio di Kaiser) si considerano le componenti principali o fattori che riproducono una quota di varianza superiore a quella media (è il criterio usato per default da SPSS).

B) Si considerano le componenti o i fattori che spiegano non meno di una certa percentuale della varianza totale. I livelli possono essere 1%, 5%, 10%; il limite di questo metodo è la soggettività.

C) Si segue il metodo grafico dello scree-test (Cattell, 1966). Si costruisce un grafico che ha sull’ascissa X (componenti) i punti rappresentativi delle componenti o fattori e sull’ordinata y (autovalori) i corrispondenti autovalori. Quindi si disegna la linea che unisce i punti del grafico così determinati. Osservando tale linea si decide di fermarci con l’estrazione dei fattori prima del punto in cui il dislivello tra fattori successivi diventa esiguo e la forma della linea diviene quasi orizzontale. Questo metodo si chiama scree-test con un’immagine di tipo “geologico”, infatti scree è un termine che fa riferimento ai detriti ghiaiosi che si accumulano nella parte inferiore di una pendenza rocciosa. Cattell propose un metodo grafico rigorosoper giungere ad una decisione (si vedano anche le figure di Barbaranelli, p. 143).

LEZIONE 8/11/2010Test di kriserScree-test: considero n° componenti prima della caduta della curva, che spiegano la maggior quota della var, qll che vengono dopo hanno poca varianza

Il numero dei fattori prima dell’ultima caduta rappresenta il numero dei fattori da estrarre. Quindi saranno estratti tanti fattori quanti sono quelli il cui autovalore corrispondente si trova al di sopra del punto in cui la linea diventa piatta.

Quando si considera solo un certo numero delle prime componenti estratte, la quota di varianza spiegata cumulativamente da queste sarà inferiore alla varianza totale e, per ogni variabile, la comunanza sarà inferiore ad 1.

L’estrazione dei fattori nei modelli in fattori comuniQuesti metofi di estrazione sono concettualmente più vicini all'analisi fattoriale; spiegano la varianza comune che c'è tra le variabili el la varianza unica non viene considerata. Il problema è che dobbiamo partire da una matrice di correlazione completa di comunanze ma non abbiamo le comunanze. Si usa metodo degli assi principali often.

Nel caso dei modelli in fattori comuni, le comunanze, non conosciute a priori, devono essere stimate.

autovalori

componenti

Tutti circa questo andamento, quando diventa piatto si può tagliare e non estrarre più i valori

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 60

Page 61: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Esistono diversi metodi di estrazione dei fattori; presentiamo solo il metodo degli assi principali (AFP). Come quello delle componenti principali, tale metodo fa sì che ciascuno dei fattori spieghi il massimo possibile della varianza dei dati di partenza, il secondo il massimo possibile della varianza residua e così via in ordine decrescente. Quando su asse principale si mettono comunanze stimate, alcuni autovaliori potrebbero essere negativo, ma questo è una contraddizione perché la varianza avrebbe un segno negativo e qst non ha senso??? Cmq problema risolto dai matematici

La procedura di calcolo è praticamente identica a quella dell’ACP con la differenza fondamentale che ora non viene

analizzata la matrice di correlazioni completa, ma viene analizzata una matrice ridotta (Rh) la quale contiene nella

diagonale principale valori minori di 1 che rappresentano stime della comunalità di ciascuna variabile. In questo modo, invece di analizzare tutta la varianza della variabile (come in ACP), si analizza solo la varianza attribuibile ai fattori

comuni. I fattori vengono individuati estraendo gli autovalori e gli autovettori di Rh.

la diffrenza con altri metordi c'è nelle saturazioni in genere e rarissimamente nella struttura

Differenze tra ACP e AFP

Entrambi i modelli fanno riferimento ad uno stesso modello matematico, ma si differenziano per aspetti sia di calcolo sia concettuali.

ACP analizza la varianza totale delle variabili non distinguendo tra varianza comune e varianza unica; AFP analizza solo la varianza comune.

1.

Mntre in AFP si distingue tra fattori comuni e fattori unici, in ACP tutti i fattori sono invece “comuni”.2.La comunanza è uguale ad 1 in ACP, in AFP non è nota a priori e deve essere stimata.3.Il numero dei fattori comuni è inferiore al numero delle variabili, il numero delle componenti è uguale al numero delle variabili. In ACP non vengono ipotizzati fattori latenti, le componenti sono una trasformazione lineare delle variabili originali (ne rappresentano un sommario).

4.

In ACP si considerano gli autovalori di R completata con 1 sulla diagonale principale in AFP si inseriscono altri valori.5.In AFP si usa il metodo iterativo per la stima delle comunanze; ACP non prevede iterazioni. Ciò introduce un elemento di indeterminatezza nella soluzione di AFP; questa non è unica ma dipende dai valori iniziali di stima. usare metodo iterativo entra una soluzione di indetrminatezza fattoriale, diverse soluzione prima di arrivare a quelllivello statistico accettato

6.

Dal punto di vista matematico i due metodi sono simili e lo sono ancora di più quando si esegue l’analisi con il metodo degli assi principali e si pone 1 come stima della comunanza iniziale; in questo caso i due metodi differiscono per il fatto di prevedere (assi principali) o no (componenti principali) le iterazioni per la stima delle comunanze. se faccio fattori comunifaccio iterazioni o se uso altro no.

Dopo l’estrazione dei fattori, qualsiasi sia il metodo usato, si procede alla rotazione degli assi fattoriali.

------> visualizzazione out put SPSS già vista 3/11/2010

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 61

Page 62: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Analisi fattoriale4_08-09

LA ROTAZIONE DEGLI ASSI FATTORIALI

Le rotazioni fattoriali sono ottenuti attraverso alcuni "paletti"

Le soluzioni iniziali (non ruotate) sono ottenute in ottemperanza ad alcune restrizioni:- che vi siano K fattori comuni (o componenti, nel modello delle componenti principali)- che i fattori (o componenti) siano ortogonali, non correlate tra loro- che il primo fattore (o la prima componente) spieghi la maggior parte possibile della varianza- che il secondo fattore (o componente) spieghi la maggior parte possibile della varianza residua e così via (la quota di varianza spiegata dai fattori diviene così sempre più piccola).

La soluzione iniziale di solito non è del tutto chiara (spesso si verifica il fenomeno della complessità fattoriale), si può esserci il fenomeno della complessità fattoriale (satura in modo elevato + di 1 fattore), oppure 1 componente prim che satura tutte le variabili, e gli altri spiegano molto poco; è quindi necessario tentare di migliorare la soluzione ottenuta per renderla + interpretabile e semplice. Per fare ciò è necessario procedere alla rotazione degli assi.Con processo rotazione modifica la saturazione fattori e loro quote di varianza rendendole più equilibrate, ma non modifica ne il n° di fattori ne la quota di varianza piegata dai fattori

Riconsideriamo la rappresentazione geometrica del modello fattoriale. Se i fattori comuni sono k e le variabili sono q, le dimensioni del modello spaziale sono q + k. Un tale iperspazio non è rappresentabile. Possiamo rappresentare un sotto -spazio: lo spazio dei fattori comuni individuato dagli assi ortogonali dei fattori comuni.

Dobbiamo precisare che: i vettori-variabile non si trovano nello spazio dei fattori comuni (ogni variabile è satura del proprio fattore unico, perpendicolare ai fattori comuni); nello spazio dei fattori comuni è possibile tuttavia rappresentare le proiezioni dei vettori-variabile (figura 1).

Figura 1

A e B: vettori dei fattori comuni che individuano un piano (piano dei fattori comuni)V

j = vettore della variabile j

Uj = vettore del fattore unico (Vj e Uj individuano a loro volta un piano perpendicolare ad )Vc = proiezione sul piano del vettore-variabile Vj (Vc cade all'intersezione tra e e quindi appartiene ad entrambi)V

a = proiezione di V

c sul vettore fattoriale A.

Si può dimostrare che la proiezione di Vc su A è uguale alla proiezione di Vj, allora nei diagrammi che rappresentano lo spazio dei fattori comuni (quando i fattori comuni sono due e quindi lo spazio dei fattori comuni ha solo due dimensioni) o due delle sue dimensioni (quando ha più dimensioni) si possono rappresentare direttamente le saturazioni delle variabili nei fattori comuni (figura 2).

Fattore unico ortogonale a ed a b

variabile

Vettore è li in base a saturazione su A, B, u, proiezione V1 su piano alpha di ve

Vettore piano

Vettore pieno

Proiezione pinto vettore dal piano Beta al pano alpha

08/11/2010 B giovedì 21 ottobre 2010

19:27

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 62

Page 63: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Lasciando le variabili nelle posizioni che occupano nello spazio a k + q dimensioni (o a q dimensioni), mantenendo quindi le reciproche relazioni, possiamo ruotare gli assi fattoriali attorno alla loro origine, mantenendo inalterata la perpendicolarità (rotazione ortogonale) (figura 3).

Le diverse posizioni che gli assi fattoriali possono assumere ruotando intorno all'origine, forniscono ciascuna una diversa descrizione delle variabili in termini di coordinate sugli assi (non in termini di varianze comuni o comunanze)fattoriali stessi, tutte ugualmente valide dal punto di vista matematico e geometrico.

Si tratta allora di trovare una struttura che risulti privilegiata rispetto alle altre. Ricordiamo che qualsiasi esito delle rotazioni fattoriali spiega esattamente tantavarianza quanto ne spiega la soluzione iniziale. Quello che si cerca con la rotazione è una "semplificazione" della struttura .

Quale criterio migliore da seguire in questa ricerca?

Spazio dei fattori comuni, che se sono 2 è facile da rappresentare sul pianoSi possono usare le saturazione per indicare le coordinate per le variabili

Sul piano dei fattori comini non ho le variabili originali ma la proiezioni delle variabili, il valore vettore che originariamente era 1, ora con Pitagora trovo un numero diverso da 1

Il quadrato della var A e B costruito con l'ipotenusa è uguale la comunanza12+12=1

Con 2 fattori comuni , con un sistema di assi cartesiani, poso inserire la variabili

Assi possono ruotare intorno ad 1 punto d'origine, e poxono prendere ∞ posizioni

Le var si trovano csi sul piano a causa delle loro saturazioni, + il fattore unico, nel determinare posizione del vettore variabile, che cmq hanno una posizione fissa dato che hanno le correlazioni della matrice iniziale da rispettare ( poste dalle loro correlazioni)Fattori invece danno una strutture a questo sistema di variabile, e solo loro possono muoversi intorno all'origine. Cambiando gli assi intorno alle variabili, cambiano le coordinate sui nuovi assi -> cambiano le saturazioni. Sempre restando ortogonali. -> MODIFICO RIFERIMENTI MODIFICANDO I FATTORI

Se provo a calcolare la comunanza variabile A devo fare…, comunanza non è cambiata con rotazione, non è cambiata quota di varianza, ma son cambiate le saturazioni

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 63

Page 64: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Quale criterio migliore da seguire in questa ricerca?

Il criterio più importante è quello della struttura semplice. Di Thurstone

Struttura semplice:almeno una saturazione nulla(quasi nulla, 0 difficile) per ogni variabile: questo criterio riguarda la composizione fattoriale delle variabili, se soddisfatto le equazioni di specificazione risultano più semplici e risulta meno complessa anche l'interpretazione del significato di ogni variabile in termini fattoriali; vedere se per ogni variabile abbia una saturazione quasi pura su un fattore, per ecquazione di specificazione (il fattore se è 0, non è dovuta all'influenza di qll fattore)

a)

un certo numero di saturazioni nulle per fattore:(semplicità, leggibilità del fattore, se satura in tt le var, il fattore non mi distingue nulla) riguarda la semplicità dei fattori e la stima dei punteggi fattoriali (compositi) in tal caso implica solo una parte delle variabili;

b)

n per ogni coppia di fattori un certo numero di variabili dovrebbe avere saturazione zero in un fattore e saturazione significativa nell'altro : questo criterio riguarda la semplicità della composizione delle correlazioni tra le variabili.saturazione "0" su uno e "1"sull'altro

c)

In sintesi questo criterio si pone l’obiettivo di massimizzare il numero di zeri nelle righe e nelle colonne della matrice disaturazioni. Questo significa che ogni fattore deve saturare una minoranza di variabili e che ogni variabile deve essere spiegata possibilmente da un solo fattore (Barbaranelli p.149).

----> visualizzato out put spss esempio 2 motivazione [1]

Lezione 09/11/2010 da rotazione oblique

---> visualizzato out put spss esempio-output-tratti [1]

Come ottenere la struttura semplice?

Il metodo proposto da Thurstone è quello delle rotazioni grafiche. Oggi i pacchetti statistici traducono il concetto di struttura semplice in equazioni matematiche. Esistono molti algoritmi per eseguire la rotazione ortogonale. Il più usato è ilvarimax che tenta di minimizzare il numero delle variabili con saturazione elevata su un fattore; ciò dovrebbe aumentare l’interpretabilità dei fattori.

Il procedimento grafico di rotazione

La prima operazione consiste nel rappresentare la struttura fattoriale mediante diagrammi.

Per soddisfare il criterio della massima semplicità bisogna cercare, entro la zona in cui le proiezioni delle variabili sono il più possibile positive, una posizione degli assi fattoriali che determini un massimo di proiezioni nulle delle variabili (rappresentate da punti che indicano la proiezione dei vettori-variabile nello spazio dei fattori comuni considerati nel diagramma) in uno dei fattori. Basterà allora situare gli assi in modo da intercettare con uno di essi il maggior numero possibile di punti.

Trovata la posizione dei nuovi assi fattoriali F' 1 e F'2, restano da determinare le proiezioni dei punti variabile sui nuovi assi, cioè le saturazioni sui nuovi fattori.Una misura approssimativa delle saturazioni si può ottenere dal diagramma tracciando le perpendico lari ai due assi per ogni punto e misurando le relative coordinate (Figura 4).

Per calcolare con esattezza le saturazioni nei fattori ruotati si può ricorrere la procedimento di "trasformazione delle coordinate" tratto dalla geometria analitica.

con annullamento dato dagli 0 la saturazione è dovuta solo da alcuni fattori e non da tutti

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 64

Page 65: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

N.B. La dimensionalità dello spazio fattoriale non cambia dopo la rotazione (se abbiamo estratto m fattori, avremo ancora m fattori). Quelle che cambiano sono invece le saturazioni delle variabili nei fattori ruotati, e quindi la proporzione di varianza spiegata da ogni fattore; la varianza comune sarà più omogeneamente distribuita tra i fattori.

Le rotazioni oblique

In certi casi mantenere ortogonalità degli assi può essere una forzatura. (ad es. che sfaccettature diverse di un costrutto p uò essere una forzatura pensare che non siano correlate tra loro, alla fine sono solo delle specificazioni, sottoscale)

Si rinuncia alla ortogonalità dei fattori, si permette ai fattori di correlare, rispettando sempre la convenzione del coseno.

Talvolta è difficile raggiungere la struttura semplice rispettando l'ortogonalità dei fattori.

Ruotando obliquamente gli assi fattoriali è possibile posizionarli in modo che la struttura semplice venga meglio approssimata.

Nelle rotazioni oblique gli assi fattoriali possono prendere qualsiasi posizione nello spazio dei fattori comuni. Il cosenodell'angolo tra gli assi fattoriali indica (è uguale) la correlazione tra loro.

Esistono molte procedure di calcolo automatiche (la più usata è oblimin, è un metodo che semplifica la matrice delle saturazioni fattoriali, facendo in modo che che le variabili abbiano saturazioni il più possibile vicine a 0 in tutti i fatto ri tranneuno).

Se vedo che bifattorialità sono molto numerose significa che molte var sono correlate con 2 o più fattori e accetto questa situazioni

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 65

Page 66: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

La rinuncia all'ortogonalità degli assi ha alcune conseguenze importanti.

Quando si rinuncia, da un punto di vista geometrico, su assi obliqui le coordinate del vettore variabile e le sue proiezioni non coincidono

La figura rappresenta il piano fattoriale originato da F1 e F2 ortogonali e contemporaneamente il piano originato dagli assi F1' e F2'. OP è il vettore della variabile P 1 (più esattamente, la proiezione sul piano dei fattori comuni del vettore variabile P1).

Le coordinate di P1 rispetto ai due assi ortogonali F1 e F2 sono uguali alle proiezioni perpendicolari del vettore P 1 sui due assi; coordinate e proiezioni hanno la stessa lunghezza finché gli assi sono ortogonali.

Le coordinate di P1 rispetto agli assi obliqui F1' e F2' non si ottengono tracciando linee perpendicolari e misurando la distanza dall'origine fino ai punti di intersezione; si ottengono tracciando da P 1 due linee parallele ad F1' e F2': le distanze dall'origine ai punti di intersezione di queste linee con gli assi fattoriali sono le coordinate.

Le coordinate del vettore-variabile rispetto agli assi fattoriali obliqui rappresentano le saturazioni della variabile nei fattori considerati. La matrice di queste saturazioni delle variabili nei fattori obliqui è detta factor pattern matrix (matrice dei modelli). Queste saturazioni non sono equivalenti alle correlazioni (come nel modello ortogonale).

Tracciare una perpendicolare da P1 ad F1' consente di rappresentare la correlazione del vettore variabile P1 con F1' (lo stesso vale per F2').

FINE LEZIONE 09/11/2010Inizio lezione 10/11/2020 --- 20 min ritardo… cominviati miei appunti su output spss 10/11/2010 - &BLa matrice delle correlazioni dei vettori.variabile con gli assi fattoriali obliqui è dettafactor structure matrix (matrice di struttura).

Una soluzione obliqua porta quindi alla determinazione di due matrici:- pattern o modello (saturazioni o composizione fattoriale): contiene i coefficienti relativi all’impatto diretto di ciascun fattore sulle variabili, al netto dell’impatto di altri fattori. Rappresentano sostanzialmente l’influenza unica di ciascun fattore sulla variabile e corrispondono a coefficienti di regressione multipla- structure o struttura: contiene le correlazioni tra variabili e fattori.

Nei modelli ortogonali le due matrici coincidono: le saturazioni possono essere interpretate come correlazioni.Nei modelli obliqui le saturazioni talvolta possono essere maggiori di 1.00 (in valore assoluto) e non sono interpretabili come correlazioni.

Quando si interpreta una soluzione obliqua bisogna ricordare che:

a) la somma delle saturazioni al quadrato per riga non sarà uguale alla comunanza: allora le saturazioni di una struttura

ortogonali

Sempre fermo perché det dalla correlazione dei vattori-> sempre fermo

Quando gli assi sono obliqui, la proie

Proiezione è sempre perpendicolare (90°)

Coordinata punto P su f1 e data da parallela f1 e il punto che incrocia la parallela

UGUALI, STESSE REGOLE F1

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 66

Page 67: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

a) la somma delle saturazioni al quadrato per riga non sarà uguale alla comunanza: allora le saturazioni di una struttura obliqua non consentono di ricavare la proporzione di varianza di una variabile spiegata dai fattori (la comunanza

riportata nei tabulati è uguale alla somma delle saturazioni elevate al quadrato della matrice non ruotata);b) parimenti la somma dei quadrati delle saturazioni per colonna non è uguale alla quota di varianza totale spiegata dal fattore;

(nell'Spss vengono calcolate con le saturazioni della matrice non ruotata).c) i prodotti incrociati delle saturazioni non riproducono le correlazioni originali

Per calcolare la varianza spiegata da ogni fattore nella soluzione obliqua si deve(Barbaranelli, p.160):

a) moltiplicare le matrici modello e struttura “elemento per elemento”b) sommare gli elementi della matrice prodotto per colonna c) calcolare la percentuale rispetto alla varianza totaled) la somma per riga fornisce le comunanze.

Le complessità derivanti dall'uso delle strutture oblique possono talvolta far preferire quelle ortogonali.Gli studiosi su questo punto non sono d'accordo. Secondo alcuni, ad esempio Cattell,1952, le strutture oblique sono da preferire perché "in natura" difficilmente le dimensioni o fattori psicologici sono indipendenti. D'altra parte la strutturaortogonale è senz'altro più economica (soprattutto in fase esplorativa).Tuttavia se un'analisi obliqua rivelasse fattori molto correlati, per cui una soluzione ortogonale comporterebbe una notevole distorsione del quadro reale, la soluzione obliqua dovrà essere preferita.Quando si usa l'analisi fattoriale per la messa a punto di scale di misura è sempre conveniente eseguire una rotazione obliqua.Infatti i metodi ortogonali possono forzare troppo i fattori (le subscale) ad essere indipendenti. Inoltre se la soluzione indicherà che i fattori non sono correlati saremo sicuri della loro indipendenza.

Come approccio pratico conviene effettuare sempre una soluzione obliqua ed eventualmente passare alla soluzione ortogonale se nessuna delle correlazioni tra i fattori è maggiore di |.30|.

visualizzazione output SPSS 10/11/2010 e 10/11/2010 B sul quaderno

Fine lezione 10/11/2010

I punteggi fattoriali

Può essere spesso utile stimare i punteggi fattoriali, cioè i punteggi che i singoli individui hanno sui fattori identificatidall’analisi.

I metodi più usati per il calcolo dei punteggi compositi sono due.

1) Scegliere tutte le variabili che hanno saturazioni superiori ad un determinato valore di soglia prescelto (ad esempio, .40) e pure (monofattoriali). I punteggi grezzi di queste variabili possono essere sommati per ottenere una stima approssimativa del punteggio in questo fattore di un certo individuo (punteggio fattoriale composito). I punteggi grezzi delle variabili con saturazioni uguale o inferiore a -.40 vanno ricodificati in modo invertire il significato della variabile. Questo metodo ha lo svantaggio di utilizzare un livello di soglia arbitrario per determinare quali variabili hanno saturazioni sufficientemente elevate per essere usate come stime del punteggio fattoriale. Inoltre, a tutte le variabili che hanno una saturazione superio re ad una certa soglia viene attribuito lo stesso peso nel calcolo del punteggio fattoriale composito.

2) Anche la regressione multipla può essere usata per stimare i punteggi fattoriali in base alla seguente equazione:

Zfi = 1z1i + 2z2i + 3z3i + ……… nzni

L’equazione è una normale equazione di regressione multipla dove si utilizzano n predittori per prevedere una variabile criterio. Per calcolare i pesi per questa equazione è sufficiente conoscere le correlazioni tra i predittori (le variabili) e le correlazioni dei predittori con il criterio (il fattore). Questi ultime sono le saturazioni nei modelli ortogonali o i coefficienti della matrice structure nel caso delle rotazioni oblique. I coefficienti prendono il nome di factor score coefficients.

Eseguire l’analisi fattoriale

Vediamo ora quali sono i passi necessari per eseguire un’analisi fattoriale.

1. Selezionare le variabili da analizzare e calcolare la matrice di correlazione. Si deve anche decidere cosa fare con i d ati mancanti (eliminare, sostituire con la media o altro valore).

2 Estrazione dei fattori. A questo punto si devono prendere molte decisioni: a) scegliere il modello, ACP o ACF; b) nel

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 67

Page 68: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

2 Estrazione dei fattori. A questo punto si devono prendere molte decisioni: a) scegliere il modello, ACP o ACF; b) nel caso che si opti per ACF si deve decidere il metodo che si vuole applicare e la stima delle comunanze da utilizzare; c) determinare il numero di fattori.

3. Rotazione dei fattori per renderli più interpretabili.

4. Calcolo dei punteggi fattoriali. Alcune domande preliminari.Quanti soggetti si devono usare per poter poi eseguire l’analisi fattoriale?

La numerosità dei soggetti è connessa all’attendibilità della struttura fattoriale (cioè alla probabilità che una certa strut tura si ripresenti). In generale, la struttura fattoriale che emerge da un campione ampio è più stabile di quella che emerge da uncampione piccolo. Come per altre procedure statistiche bisogna considerare il numero dei soggetti sia in senso relativo (ad esempio, rispetto al numero di variabili da analizzare) sia in senso assoluto. Maggiore il numero di item che devono essere fattorizzati e maggiore il numero di fattori previsti, più soggetti dovrebbero essere inclusi nell’analisi. Si tenta in questo modo di ricercare un rapporto standard tra soggetti e item. Alcuni autori suggeriscono di avere dai 5 ai 10 soggetti per item, fino a 300 soggetti. Quando il campione supera i 300 soggetti, il rapporto può essere più basso. Naturalmente, la ripetizione su campioni separati è il mezzo migliore per dimostrare la generalizzabilità di una struttura.

Quale livello di misura è richiesto?

L’analisi fattoriale richiede che le variabili siano misurate almeno a livello ad intervalli o assunto tale. Questa richiesta è implicita nell’uso della matrice di correlazione come input per l’analisi.

Quante variabili per fattore?

In generale, è bene che il numero delle variabili sia 3 o 4 volte superiore al numero dei fattori. E’ bene quindi non considerare meno di 3 variabili marker per ogni fattore che si vuole individuare.

La costruzione di uno strumento di misura mediante analisi fattoriale

1. Definizione concettuale del costrutto (ed eventuale sua articolazione in una o più dimensioni).2. Definizione operativa e formulazione di un pool di item su cui i soggetti dovranno esprimere un giudizio mediante una scala di risposta che consente di ottenere misure assunte ad intervalli.3. Alla matrice di correlazione tra gli item si applica una prima analisi fattoriale, di solito con il metodo delle component i principali.4. Si fissa il numero dei fattori (mediante scree-test e considerazioni teoriche).5. Se la soluzione, che meglio spiega la struttura dei dati è monofattoriale, il costrutto è unidimensionale e gli item con saturazioni elevate rappresentano questa unica dimensione; se la soluzione è plurifattoriale il costrutto che stiamo studiando è pluridimensionale e gli item sono rappresentativi di tali diverse dimensioni.6. Si esegue una nuova analisi richiedendo il numero fissato di fattori, in genere si sceglie un modello in fattori comuni (metodo degli assi principali).

- ortogonale: i fattori non sono correlati (indipendenti)- obliqua: i fattori sono correlati.

7. Si sceglie anche il metodo di rotazione:

uguale o superiore a .400, in valore assoluto, in un solo fattore) vanno a costituire una scala fattoriale (o subscala) che in ricerche successive potrà essere usata da sola o insieme alle altre scale fattoriali emerse. Ogni scala fattoriale è unidimensionale e, se i fattori sono ortogonali, è indipendente dalle altre scale costruite contemporaneamente.

8. Si procede all’interpretazione dei fattori considerando gli item saturi di ognuno e si assegna a ciascuno un “nome”; gli item saturi in modo puro (con saturazione

calcolo del coefficiente alpha di Cronbach.9. Si passa a stimare la fedeltà dello strumento: per ogni scala fattoriale si procede al

10.Per ogni soggetto si calcola il punteggio su ognuna delle scale fattoriali (punteggi fattoriali: compositi o calcolati mediante regressione multipla). Se si usano i

punteggi fattoriali compositi è necessario che tutti gli item siano codificati nella stessa direzione. Tali punteggi sono più fedeli di quelli originali.

Esempio di presentazione dei risultati

La teoria del contenuto dello stereotipo di Glick e Fiske sostiene che gli stereotipi sono organizzati secondo due dimensioni: competenza e calore. Secondo la teoria dell’immagine, un’altra dimensione interessante è l’arroganza, soprattutto quando lo stereotipo riguarda un gruppo di alto status con il quale si percepisce una relazione competitiva.

Per rilevare lo stereotipo degli Usa abbiamo utilizzato alcuni tratti relativi a tali dimensioni.

La matrice di correlazione tra i 17 tratti è stata sottoposta ad analisi delle componenti principali: sono emerse tre componenti con autovalore maggiore di 1. Anche l’esame dello scree-test indica di limitare a tre il numero delle componenti da estrarre.

L’analisi è stata quindi ripetuta con il metodo degli assi principali. I tre fattori spiegano il 50.32% della varianza totale.

Del primo fattore , che spiega il 19.4 % della varianza totale, sono saturi in modo elevato (> |.400|) i tratti:

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 68

Page 69: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

- arrogante: .788

- ingannevole: .715

- egoista: .705

-assetato di potere: .633

- aggressivo: .633

- sicuro di sé .418

Possiamo definire questo fattore “arroganza e potere”.

I tratti saturi del secondo fattore (16.24 % della varianza totale) sono:

- amichevole .815

- di indole buona .667

- caldo .623

-ben intenzionato .604

Questo fattore rappresenta la dimensione del “calore”.

Del terzo fattore, che spiega il 14.68 % della varianza totale, sono saturi i tratti:

- capace .784

-competente .625

- efficiente .603

- abile .589

-intelligente .545

I tratti “degno di fiducia” e “sincero”sono bifattoriali.

Abbiamo eseguito anche una rotazione obliqua (metodo oblimin). L’esame della matrice pattern mostra che la struttura fattoriale è simile. I fattori “arroganza e potere” e “calore” risultano correlati (r= -.51), mentre i fattori “competenza” e “calore” sono indipendenti, come previsto dal modello.

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 69

Page 70: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

ULTIMA LEZIONE

Esercizi regressione sul quaderno

Esercizi interpretazione output

Qual è la variabile i dipendente e quali sono i predittori (VI)? Prodotti clurs1.Il modello di regressione multipla spiega adeguatamente i dati e perché?2.Vedere su tabella ANOVA (F) ->siy -> il valore dove + piccola di .05 mette in confronto l'indice di varianza della VD derivato dalla VI, con la varianza d'errore (non dovuto alle VI parte residua, no n spiegabile, modello spiega adeguatamente i dati perché la statistica F è significativa (var spiegata/var errore))-> quello + grande deve essere qll spiegato

3.

Quale VI ha il peso maggiore sulla VD? Guardo pesi B-> quale maggiore e quale minore (in valore assoluto!)4.

->VIP prossimo a 1 , cmq inferiore a 3 (di solito deve essere superiore a 1 ma non trp)a.

Problemi multi collinearità? Sia guardando le correlazioni , sia guardando le statistiche multicollineari -> indice di tolleranza deve essere prossimo a 1 (no .20 e .30)

5.

Quota della varianza della VD spiegata dalla VI? Tabellina riepilogo del modello -> R R2 R2corretto->si guarda qst6.

Non standardizzato?a.Equazione di regressione -> standardizzata?7.

calcolare IN BASE ALLA EQUAZIOE N DI REGRESSIONE IL PIINTEGGIO NON STANDARDIZZATO in Y DI UN SOGG CHE ABBIA I SEGUENTI PUNTEGGI iN x SULLE INDIPENDENTi? Si fa sostituendo agli x1,x2, x3, si prende l'equazione di regressione e al posto delle x metto i punteggi forniti

8.

Domande analisi fattorialeCalcolare la comunanza delle variabili?calcolare la comunanza delle variabili, trovata faccio1.Quota di varianza dovuto ai fattori unici2.Var comune siegata dai fattori è la somma di colonna delle comunanze e trovo % di var comune3.Se la vgl trovare x ognuno dei fattori? E Sommo saturazioni elevate al quadrato per colonna e faccio la % 4.Calcolare 5.Scrivere equazione specificazione relativa ala variabile 7 es 28 slide.? Trovo saturazione del fattor e unico (uno meno la comunanza sotto radice)

6.

Calcolare matrice di correlazioni riprodotta? Moltiplico matrice per la trasposta,per esame basta calcolare un paio di correlazioni

7.

Invece di calcolare la correlazionetra tutta la matrice, calcolo tra la variabile 1 e le variabile 2 o 3? Devo usare che la correlazione tra 2 variabili…

8.

Domanda 84 domande analisi fattoriale

ES

F1 F2 h2 u2i ui

V1 .7 .3 .49 .09 .58 .42

v2 .8 0 .64 0 .64 .36 .6

v3 ,7 0 .49 0 .49 .51

v4 .8 .6 .64 .36 1 0

v5 .6 .5 .36 .25 .61 .39

v6 .5 0 .25 0 .25 .75

v7 .6 .4 0 .16 .52 .48

v8 .7 .6 .36 .36 .85 .15

F1 .3,72 - 75,3%F2 1.22 24.7 sono autovalori4,94 è la somma delle comunanze46.5 spiegato dal 1 fattore15,25 spiegata dal 2° fattore

Z2i = .8 F1i+ 0 F21

Z8i = .873 F1i - .066 F2i poi vado a tabella comunalità, prendo comunanza var 8 e faccio 1 - .766 = .224, sotto radice: .473

Z8i = .873 F1i - .066 F2i +.473 U8iDomande per output

Nella iniziale c'è la stima delle comunanze e valori possono essere diversi se analisi componenti principali (1) se invece uso analisi 8in fattori comuni avrò correlazioni multipla al quadrato di una var con tt le altre per usarla come stima della comunanza

a.

Nella seconda avrò el comunanze estratte della soluzione che ho trovatob.

Qual è il significato dei valori presenti nella colonna "iniziale " della tabella comunalità'? E quale qll della colonna estrazione?1.

16/11/2010 dsmartedì 16 novembre 2010

11.04

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 70

Page 71: 11/10/2010 PRESENTAZIONE - Luca Verona · PDF fileSlide: tecniche1_08-09 ANALISI MULTIVARIATA Cosa si intende per analisi multivariata e perché bisogna ricorrere a qst. Xke gli indici

Perché vengono estratte 2 o 3 fattori o qll che viene? Vengono estratti 2 fattori perché sono 3 o 2 gli autovalori maggiori di 1 o perché il grafico indicava una caduta dopo i primi 2 valori

2.

A cosa equivale la somma degli autovalori iniziali? È uguale al n° delle variabili che è quindi la varianza totale3.Qual è la quota di varianza totale spiegata dal 1° , dal 2° e dal 3° fattore? Guardo nella % di varianza girata o no4.Perché una quota di varianza tot spiegata cumulativamente dai fattori comuni non ruotati e da qll ruotati si equivalgono? La rotazione lascia invariata la parte di varianza spiegata complessivamente, ma cambia la ridistribuzione della quota di varianza tra i fattori stessi

5.

La rotazione è ortogonale o obliqua? Oblimin è obliqua, se è ortogonale ho solo una dimensione ruotata, mentre obliqua ho 2 m atrici di rotazione e dei modelli

6.

Calcolare la correlazione riprodotta tra la variabile 1 o 27.Reimpostare ilo calcolo della matrice di correlaz riprodotta8.Scrivere l'equazione di specificazione? 1 meno comunanza astratta e valore sotto radice9.Se la rotazione è obliqua quale interpretazione fattoriale deve essere considerata? matice10.

TECNICHE MULTIVARIATE CORRELAZIONALI NELLA RICERCA (Piccolino's Copy) Pagina 71