Analisi bivariata
Dott. Cazzaniga Paolo
Dip. di Scienze Umane e [email protected]
Dott. Cazzaniga Paolo Analisi bivariata
Introduzione
Analisi bivariata:analisi delle relazioni tra due caratteristiche osservate sullestesse unità statistichestudio del comportamento di due caratteri consideraticongiuntamentemisura del grado di associazione tra due caratteri qualitativi,quantitativi e mistifornisce indicazioni riguardo al legame esistente tra coppie divariabiliil tipo di associazione dipende dalla natura dei caratteri
Dott. Cazzaniga Paolo Analisi bivariata
Tabelle di contingenza [1/5]
Sono tabelle doppie di frequenze di dati (nominali o ordinali)Le modalità delle variabili di riga danno il nome alle righeLe modalità delle variabili di colonna danno il nome alle colonne
Dott. Cazzaniga Paolo Analisi bivariata
Tabelle di contingenza [2/5]
Nella tabella seguente sono riportate le frequenze assolute congiuntenij : numero di unità che assumono la modalità xi e yj
Dott. Cazzaniga Paolo Analisi bivariata
Tabelle di contingenza [3/5]
Nella tabella seguente sono riportate le distribuzioni delle percentualiriga
Dott. Cazzaniga Paolo Analisi bivariata
Tabelle di contingenza [4/5]
Dott. Cazzaniga Paolo Analisi bivariata
Tabelle di contingenza [5/5]
Dott. Cazzaniga Paolo Analisi bivariata
Dipendenza, indipendenza e interdipendenza
Una variabile è detta indipendente o esplicativa se spiega o influenzale variazioni di una variabile dipendente (o criterio)
Analisi di dipendenza:descrive il modo in cui una variabile dipendente varia al variaredella variabile indipendente (il legame tra le variabili èunidirezionale o asimmetrico)dipendenza logica: esiste una relazione di causa effetto tra due opiù variabiliindipendenza logica: non esiste alcuna relazione di causa effettotra le variabili considerate
Analisi di interdipendenza:descrive come le modalità di un carattere variano al variare di unaltro carattere (legame bidirezionale o simmetrico)non è possibile stabilire una relazione di dipendenzanon è possibile individuare un carattere dipendente
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra due variabili nominali [1/3]
Permettono di verificare se esiste dipendenza tra due variabili e dimisurare l’intensità della dipendenza
Indice χ2 (chi quadro):usa la la frequenze congiunte nij delle coppie di modalità (xi , yj )si basa sulla frequenza teorica o attesa nij : valore cheassumerebbe la frequenza congiunta in caso di indipendenzanij si calcola usando le frequenze assolute marginalivengono calcolate le contingenze o scarti tra frequenzeosservate e teoriche: cij = nij − nij
χ2 =r∑
i=1
t∑j=1
c2ij
nij
dove r e t sono il numero di modalità dei caratteri X e Y .χ2 è nullo se i caratteri sono indipendentiχ2 è positivo se c’è dipendenza tra i due caratteri
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra due variabili nominali [2/3]
Il valore di χ2 aumenta all’aumentare della numerosità delcampione nPer avere una misura di distanza che non dipenda da n vieneintrodotto Φ2
Indice di contingenza quadratica media Φ2 (phi quadro)
Φ2 =χ2
n
Φ2 = 0 in caso di indipendenzaΦ2 ≤ min{(r − 1), (t − 1)} (r e t numero di modalità di X e Y )
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra due variabili nominali [3/3]
E’ possibile ottenere un indice di dipendenza che varia nell’intervallo[0,1]
Indice V di Cramer:
V =
√Φ2
min{(r − 1), (t − 1)}
V = 0 se i due caratteri sono indipendentiV < 0,3 se c’è una bassa dipendenza tra i caratteriV ≥ 0,3 se c’è una apprezzabile dipendenza tra i caratteriV = 1 se i due caratteri:
sono perfettamente associati e r = tX dipende perfettamente da Y se r < tY dipende perfettamente da X se r > t
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra due variabili ordinali [1/5]Le variabili ordinali contengono l’ordine delle modalità delle variabili
Per questo motivo possono esistere due tipi di relazione:Concordanza (relazione diretta) tra X e Y quando le modalità diordine elevato di X si associano più frequentemente a modalitàdi ordine elevato di Y , e viceversaDiscordanza (relazione inversa) tra X e Y quando le modalità diordine elevato di X si associano più frequentemente a modalitàdi ordine basso di Y
Indice γ (gamma) di Goodman e Kruskal:
γ =C − DC + D
dove C e D rappresentano il numero di coppie concordanti ediscordanti nei dati
−1 ≤ γ ≤ 1γ < 0 in caso di discordanza, γ > 0 in caso di concordanza|γ| ≥ 0,6 se esiste una associazione forte
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra due variabili ordinali [2/5]
Esempio:
γ = C−DC+D = 3251−2346
3251+2346 = 9055597 = 0,16
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra due variabili ordinali [3/5]
Esempio di γ = 1 e γ = −1:
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra due variabili ordinali [4/5]
Indice ρS (rho) di Spearman:misura la cograduazione tra graduatorie con molte modalità
ρS = 1− 6∑n
i=1 d2i
n(n2−1)
di è la differenza tra i ranghi di caratteri diversi dell’i-esima unità−1 ≤ ρS ≤ 1ρS = 1: stesso rango in entrambe le graduatorieρS = −1: perfetta discordanzaρS = 0 in caso di assenza di associazione
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra due variabili ordinali [5/5]
Esempio di calcolo dell’indice ρS di Spearman:
ρS = 1− 6∑n
i=1 d2i
n(n2−1) = 1− 6·148(82−1) = 0,83
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra caratteri quantitativi [1/7]
In questo ambito si parla di studio di correlazione:relazione tra due variabili tale che a ciascun valore della primavariabile corrisponda con una certa regolarità un valore dellasecondaè diretta o positiva quando variando una variabile in un senso, laseconda varia nello stesso sensoè indiretta o inversa quando variando una variabile in un senso,la seconda varia nel senso oppostodue variabili sono associate positivamente quando i valori soprala media di una tendono ad associarsi con valori sopra la mediadell’altra, e viceversadue variabili sono associate negativamente quando i valori soprala media di una tendono ad associarsi con valori sotto la mediadell’altra, e viceversa
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra caratteri quantitativi [2/7]
La correlazione può essere mostrata usando un diagramma adispersione (scatter plot)
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra caratteri quantitativi [3/7]
Covarianza:indice simmetrico per misurare la concordanza o discordanza tradue caratteri quantitativi
Cov(x , y) =1n
n∑i=1
(xi − x)(yi − y)
assume valori positivi se le due variabili co-variano in manieradirettaassume valori negativi se le due variabili co-variano in manierainversacresce (in valore assoluto) al crescere dell’associazioneesistente tra due variabili
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra caratteri quantitativi [4/7]
Coefficiente lineare ρ (rho) di Pearson:misura relativa della correlazione lineare tra due variabili
ρ =1n
∑ni=1(xi − x)(yi − y)√
1n
∑ni=1(xi − x)2 1
n
∑ni=1(yi − y)2
=Cov(x , y)
σxσy
ha lo stesso segno della covarianzamisura l’intensità della relazione lineare tra le variabili X e Yse la relazione lineare esiste ed è positiva, i punti si disporrannosu una retta ascendenteρ = 1 se c’è una perfetta correlazione lineare positivase la relazione lineare esiste ed è negativa, i punti si disporrannosu una retta discendenteρ = −1 se c’è una perfetta correlazione lineare negativala relazione lineare, diretta o inversa, è forte per |ρ| ≥ 0,7
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra caratteri quantitativi [5/7]
Relazione lineare positiva:
Relazione lineare negativa:
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra caratteri quantitativi [6/7]
Quando i due caratteri sono incorrelati, ρ = 0 (la covarianza ènulla)Esistono due tipi di incorrelazione: assenza di relazione lineare orelazione non lineare
Dott. Cazzaniga Paolo Analisi bivariata
Misure di associazione tra caratteri quantitativi [7/7]Esistono altri tipi di correlazione
Correlazione spuria (nonsense correlation) se i due fenomeninon hanno alcun nesso causaleCorrelazione indiretta se due variabili X e Y sono correlateperché in realtà correlate entrambe a una variabile Z
Guess the correlation
Dott. Cazzaniga Paolo Analisi bivariata
Regressione lineare semplice [1/2]
Regressione lineare:descrive la relazione che unisce due variabiliviene identificata una funzione matematica (retta) che esprime ivalori assunti da un carattere come funzione dei valori assunti daun altro caratteresi cerca di individuare la retta che rappresenti al meglio i puntiempirici (dati)viene usato il metodo dei minimi quadrati che minimizza lasomma degli scarti tra i valori osservati e quelli teorici (sulla retta)la retta di regressione migliora la previsione del caratteredipendente quando si conosce la modalità del carattereindipendente
Dott. Cazzaniga Paolo Analisi bivariata
Regressione lineare semplice [2/2]
La linea indica la retta di regressione
Come si inserisce la retta di regressione in Calc?
Dott. Cazzaniga Paolo Analisi bivariata
Dove studio questi argomenti?
Capitoli 12 del libro!
Dott. Cazzaniga Paolo Analisi bivariata
Top Related