Fonti, metodi e strumenti per l’analisi dei flussi...

13
Analisi delle Analisi delle corrispondenze corrispondenze È una tecnica che permette una rappresentazione sintetica di un numero elevato di variabili in un numero ridotto di nuovi costrutti chiamati fattori. La sintesi avviene attraverso la combinazione delle variabili di partenza . Scopo è semplificare un insieme ricco e complesso di dati. Le variabili che si usano per l’analisi delle corrispondenze semplici o binarie (e multipla) sono variabili categoriali. Se sono presenti variabili quantitative bisogna ridurle in classi cioè trasformarle in variabili qualitative ordinabili

Transcript of Fonti, metodi e strumenti per l’analisi dei flussi...

Page 1: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Analisi delle Analisi delle corrispondenzecorrispondenze

È una tecnica che permette una rappresentazione sintetica di un numero elevato di variabili in un numero ridotto di nuovi costrutti chiamati fattori. La sintesi avviene attraverso la combinazione delle variabili di partenza.

Scopo è semplificare un insieme ricco e complesso di dati.Le variabili che si usano per l’analisi delle corrispondenze

semplici o binarie (e multipla) sono variabili categoriali. Se sono presenti variabili quantitative bisogna ridurle in classi

cioè trasformarle in variabili qualitative ordinabili

Page 2: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze semplicisempliciIl caso più semplice di AC: ho 2 variabili categoriali con un

numero elevato di modalità inserite in una tabella di contingenza

Requisito: presenza di valori positivi nelle celleObiettivo: analisi della dipendenza fra le modalità delle due

variabili. Si studia la somiglianza o la diversità tra le modalità attraverso la costruzione dei profili riga (frequenze relative di riga) e dei profili colonna (frequenze relative di colonna)

Page 3: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze semplicisempliciI profili (riga o colonna) si considerano le coordinate di uno spazio a più

dimensioni pesate però per la rispettiva massa data dalla frequenza relativa (in questo caso facendo l’analisi sui profili riga, ossia come unità le testate e come variabile i tipi di articoli, la massa sarà data dalla percentuale di articoli scritti)

I profili riga: posso proiettarli in un piano a c dimensioni (dove c = numero di modalità della variabile in colonna)

Il profilo riga medio (quello calcolato sul totale) è il baricentro della nuvola di punti che si staglia sull’iperpiano (spazio a più dimensioni)

Andremo a calcolare le distanze tra i profili riga e il profilo riga medio attraverso una metrica della distanza: utilizziamo la distanza del chi-quadrato χ2 che tiene conto anche del peso (massa) delle modalità

Page 4: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze semplicisempliciScopo è sintetizzare in uno spazio a meno dimensioni (2

massimo 3) la nuvola di punti. Le due (max 3) dimensioni nuove dovranno essere dei fattori che intersecano meglio la nuvola di punti, cioè

si individua un sottospazio ottimale che consente di rappresentare al meglio le distanze tra i profili riga e il profilo medio

attraverso l’individuazione di fattori che esprimono il massimo della variabilità espressa dalle variabili originarie.

Lo spazio migliore è quello che massimizza l’inerzia (o variabilità) iniziale

Page 5: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

La scelta dei fattoriLa scelta dei fattoriNuovi fattori (che sono combinazione lineare dei profili riga

di partenza): per ogni fattori viene indicato quanta inerzia riescono a riprodurre. Il massimo numero di fattori prodotto è uguale al numero delle modalità. Se utilizzassi tutti i fattori avrei riprodotto il 100% della variabilità.

Quanta variabilità riprodotta accetto? Identifico una soglia a priori (solitamente il 70% di inerzia)Scelgo un numero fisso di fattori (ad esempio 2)Prendo solo valori di inerzia spiegata maggiori della mediaUtilizzo lo scree test, baso la scelta sul grafico

Page 6: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Lettura dei risultatiLettura dei risultatiPer ogni fattore scelto ho degli indici statistica calcolati in

base alle variabili di partenza che hanno contribuito a crearlo

Contributo assoluto: rappresenta la parte di inerzia del fattore dovuta alla modalità di riferimento. Per ogni fattore la somma di tutti i contributi assoluti è uguale a 100. il contributo assoluto di una modalità è proporzionale alla sua massa. Si valuta quanto una modalità ha influenzato il fattore in esame.

Page 7: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Lettura dei risultatiLettura dei risultatiContributo relativo (o coseno quadrato): permette di

valutare il contributo che un fattore fornisce alla riproduzione della dispersione (inerzia) di ogni modalità. Se è basso la modalità non è ben rappresentata dal fattore, se è alto è vero il contrario.

Page 8: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Lettura dei risultatiLettura dei risultatiCoordinata fattoriale: stabiliscono la posizione della

modalità sul fattore e possono avere segno positivo e negativo. Il valore 0 rappresenta la media delle coordinate sul fattore. Più il valore è distante dallo 0 più la modalità è significativa per il fattore.

Page 9: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze multiplemultipleL’analisi delle corrispondenze multiple (ACM) consente di

ridurre la rappresentazione delle osservazioni da uno spazio a k dimensioni ad uno spazio a k* dimensioni in cui k* k, procedendo per combinazioni lineari di variabili e avendo come obiettivo la minor perdita di variabilità possibile.

Le k* dimensioni costituiscono dei fattori ciascuno dei quali sintetizza un aspetto dell’insieme multivariato di informazione raccolta eliminando al tempo stesso la ridondanza di informazione.

L’ACM richiede la costruzione di una matrice disgiunta dei dati, essendo stata ideata per essere applicata a variabili di qualsiasi scala (anche nominale).

Per questo motivo l’ACM è particolarmente utile quando si abbiano dati qualitativi.

Page 10: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze multiplemultiplePer ogni variabile categoriale si definisce un insieme di

nuove variabili dette variabili indicatrici che assumono valori 0/1 di presenza o assenza. Con una semplice operazione algebrica i software trasformano la matrice dei dati nella matrice di Burt o matrice delle corrispondenze multiple che è una distribuzione multipla di frequenze: contiene tutte le tabelle di contingenze che si possono ottenere incrociando tutte le variabili immesse nell’analisi.

L’analisi prosegue sulla matrice di Burt.

Page 11: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Scelta delle variabiliScelta delle variabiliLe variabili possono essere attive nell’analisi e

contribuire alla formazione dei fattori oppure illustrative, proiettate sui piani fattoriali, ma non inserite all’inizio dell’analisi (cioè non contribuiscono alla formazione degli assi)

Nell’analisi delle corrispondenze multiple (e non nell’ac) la vicinanza tra modalità di variabili diverse può essere interpretata in termine di associazione tra variabili.

Page 12: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Configurazioni graficheConfigurazioni graficheCi sono alcune configurazioni grafiche tipiche:

A forma di ellisse intorno all’asse principale (al primo fattore)

Con nuvole separate: gli insieme non si compenetrano, si può fare una analisi separata tra due insiemi distinti

A ferro di cavallo, a parabola: il secondo fattore incide poco

A triangolo

Si possono inserire anche le traiettorie sulle modalità della stessa variabile

Page 13: Fonti, metodi e strumenti per l’analisi dei flussi turisticididattica.uniroma2.it/.../corsi/136045/corrispondenze.ppt · PPT file · Web view2012-05-15 · Analisi delle corrispondenze

Critiche:Critiche:Emerge ciò che è facilmente vedibile già dai

dati grezziProducono risultati instabili (i dati anomali

rischiano di influenzare il modello)Sono tecniche esplorative

Possibili soluzioni:Eliminazione dei casi anomaliRiclassificazione di alcune variabili per ridurre

le modlaità con pochi valoriAvere matrici di dati abbastanza grandi