L'analisi bivariata (associazione e cograduazione) L... · 2017. 12. 18. · Prof. Stefano Nobile...
Transcript of L'analisi bivariata (associazione e cograduazione) L... · 2017. 12. 18. · Prof. Stefano Nobile...
L'analisi bivariata
(analisi della varianza e correlazione)
Prof. Stefano Nobile Corso di Metodologia della ricerca sociale
L’analisi della varianza
(ANOVA)
• La tecnica con cui si esplorano le relazioni fra una variabile categoriale (nominale oppure ordinale) e una variabile cardinale (o quasi cardinale) si chiama analisi della varianza.
• L’analisi della varianza serve a studiare la relazione tra una variabile categoriale (X) e una variabile cardinale (Y):
– X è in ipotesi indipendente, le sue singole categorie (modalità) si definiscono “gruppi”;
– Y è in ipotesi dipendente da X.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 2
L’analisi della varianza
(ANOVA)
• Le modalità di una variabile cardinale sono troppo numerose perché una tavola di contingenza risulti leggibile, d’altro canto è possibile utilizzare misure di sintesi (medie e varianze) non utilizzabili per le variabili categoriali.
• Dunque se la X è categoriale e la Y è cardinale possiamo confrontare queste misure di sintesi calcolate per la Y entro i gruppi definiti dalla X.
• Lo scopo dell’analisi della varianza è testare l’ipotesi che la varianza di Y dipenda da X, o in altre parole che le medie dei gruppi costituiti dalle modalità di X sulla variabile Y siano significativamente differenti.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 3
L’analisi della varianza
(ANOVA) Esempio: i tassi di omicidio dipendono dal tipo di città nei quali avvengono.
L’analisi della varianza verifica l’ipotesi nulla:
H0: tutte le medie sono uguali tra di loro
Cioè:
H0:
il tasso di omicidi non dipende dal tipo di città dove si verificano
L’ipotesi alternativa è:
H1: almeno una media è diversa dalle altre
Cioè:
H1:
esiste almeno un gruppo identificato dal tipo di città per cui il tasso di omicidi
ha una media diversa da quella di un’altra.
L’ipotesi nulla viene rifiutata se c’è almeno un gruppo con una media
significativamente diversa da quella di un altro.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 4
Modello teorico: la devianza
La devianza rappresenta la somma dei quadrati degli scostamenti tra ogni punteggio e la media.
La formula della devianza:
SQ = 𝑦𝑖 − 𝑌𝑚2𝑁
𝑖=1
Viene riferita alle sue due componenti:
I diversi tipi di devianza:
• la devianza totale è la somma dei quadrati degli scarti (differenza tra i singoli punteggi e la media generale della variabile);
• devianza tra i gruppi: è la somma dei quadrati degli scarti (differenza tra i punteggi medi di gruppo e la media generale), ovvero la variabilità tra i diversi gruppi;
• devianza entro i gruppi: è la somma dei quadrati degli scarti tra i punteggi di ogni soggetto e la relativa media di gruppo, ovvero alla variabilità dei soggetti all’interno di ogni gruppo
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 5
La scomposizione della
varianza
• yi – ym = (yi – ym) + (yi – ym)
• Ossia: singolo valore – media generale =
(singolo valore – media entro il gruppo) +
(media di gruppo – media generale).
• Elevando al quadrato entrambi i membri
dell’equazione, si ottiene la devianza,
ossia il numeratore della varianza.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 6
La scomposizione della
varianza
• Dove p è il numero dei gruppi, n è il
numero dei casi, yij il singolo valore della
distribuzione, ŷ la media generale, ŷi la
media dei gruppi.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 7
yij - y( )2
j=1
ni
åi=1
p
å º ni yi - y( )2
i=1
p
å Å yij - yi( )2
j=1
ni
åi=1
p
å
Somma interna dei quadrati (devianza non spiegata)
Somma esterna dei quadrati (devianza spiegata)
Devianza spiegata e non
spiegata
• Il concetto di devianza spiegata (e quello di devianza non spiegata) fa riferimento alla capacità esplicativa della variabile categoriale (indipendente): – la devianza spiegata è la parte di variabilità della
variabile dipendente attribuibile alla variabile indipendente (nell’esempio è la parte della variabilità del tasso di omicidi attribuibile al tipo di città);
– la devianza non spiegata è la parte di variabilità di Y non attribuibile a X (cioè la parte di variabilità del tasso di omicidi non attribuibile al tipo di città).
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 8
La devianza totale
• La variabilità totale della variabile dipendente Y è descritta dalla devianza totale (cioè dalla somma dei quadrati degli scarti dalla media).
• La somma dei quadrati (SQ) di quanto il tasso di omicidi di ciascuna città si discosta dalla media generale del tasso di omicidi.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 9
La devianza spiegata
• La variabilità fra i gruppi (definiti dalle modalità di X) è descritta dalla devianza tra i gruppi (cioè dalla somma dei quadrati degli scarti tra le medie dei gruppi e la media generale, detta anche somma esterna dei quadrati o devianza spiegata):
• La somma dei quadrati di quanto il tasso di omicidi di ciascun gruppo individuato dal tipo di città si discosta dalla media generale del tasso di omicidi.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 10
La scomposizione della
varianza
• Ad ognuna delle devianze sono associati i
gradi di libertà:
– la devianza totale ha n − 1 gradi di libertà
(dove n è la numerosità dei casi);
– la devianza tra gruppi ha p − 1 gradi di
libertà (dove p è il numero dei gruppi);
– la devianza entro i gruppi ha n – p gradi di
libertà.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 11
La scomposizione della
varianza
• Dividendo la devianza per i gradi di libertà
si ottiene la stima della varianza della
popolazione.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 12
ni yi - y( )2
i=1
p
å
p-1
yij - yi( )2
j=1
ni
åi=1
p
å
n- p
Varianza tra i gruppi
Varianza entro i gruppi
I gradi di libertà
• Per ottenere le stime della variabile
dipendente, una volta che si hanno le
somme dei quadrati, sarà sufficiente
dividere ciascuna di esse per il numero dei
gradi di libertà.
N – 1 = (N – k) + (k – 1)
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 13
Gradi di libertà esterni
Gradi di libertà interni
Gradi di libertà totali
L’analisi della varianza
(ANOVA)
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 14
Tassi di omicidio
Città industriali Città commerciali Città politiche Totali
4,3 5,1 12,5
2,8 6,2 3,1
12,3 1,8 1,6
16,3 9,5 6,2
5,9 4,1 3,8
7,7 3,6 7,1
9,1 11,2 11,4
10,2 3,3 1,9
Somme 68,6 44,8 47,6 161,0
Medie 8,58 5.60 5,95 6,71
Numero casi 8 8 8 24
L’analisi della varianza (ANOVA):
somma dei quadrati interna
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 15
Tassi di omicidio
Città industriali Città commerciali Città politiche Totali
(4,3 - 8,58)2 (5,1 - 5,60)2 (12,5 – 5,95)2
(2,8 - 8,58)2 (6,2 - 5,60)2 (3,1 – 5,95)2
(12,3 - 8,58)2 (1,8 - 5,60)2 (1,6 – 5,95)2
(16,3 - 8,58)2 (9,5 - 5,60)2 (6,2 – 5,95)2
(5,9 - 8,58)2 (4,1 - 5,60)2 (3,8 – 5,95)2
(7,7 - 8,58)2 (3,6 - 5,60)2 (7,1 – 5,95)2
(9,1 - 8,58)2 (11,2 - 5,60)2 (11,4 – 5,95)2
(10,2 - 8,58)2 (3,3 - 5,60)2 (1,9 – 5,95)2
Somme 136,15 73,16 122,06 331,235
L’analisi della varianza (ANOVA):
somma dei quadrati esterna
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 16
Tassi di omicidio
Città industriali Città commerciali Città politiche Totali
(8,58 – 6,71)2 (5,60 – 6,71)2 (5,95 – 6,71)2
(8,58 – 6,71)2 (5,60 – 6,71)2 (5,95 – 6,71)2
(8,58 – 6,71)2 (5,60 – 6,71)2 (5,95 – 6,71)2
(8,58 – 6,71)2 (5,60 – 6,71)2 (5,95 – 6,71)2
(8,58 – 6,71)2 (5,60 – 6,71)2 (5,95 – 6,71)2
(8,58 – 6,71)2 (5,60 – 6,71)2 (5,95 – 6,71)2
(8,58 – 6,71)2 (5,60 – 6,71)2 (5,95 – 6,71)2
(8,58 – 6,71)2 (5,60 – 6,71)2 (5,95 – 6,71)2
Somme 27,9752 9,8568 4,6208 42,4528
L’analisi della varianza (ANOVA):
somma dei quadrati totale
• SQ totale = SQ interna + SQ esterna
• SQ totale = 331,235 + 42,303 = 373,538
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 17
SQ GL Stima
Totale 373,538 N – 1 = 23
Esterna 42,453 K – 1 = 2 21,23
Interna 331,235 N – k = 20 16,56
Rapporto F 21,23/16,53 1,28
Il test F di Fisher
• Infine, si calcola il test F, che serve a verificare l’ipotesi di uguaglianza delle medie confrontando varianza spiegata e varianza non spiegata:
• F = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑟𝑎 𝑔𝑟𝑢𝑝𝑝𝑖
𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑜 𝑖 𝑔𝑟𝑢𝑝𝑝𝑖
• Se l’ipotesi nulla è vera le due stime della varianza sono uguali; se è falsa la stima esterna è maggiore di quella interna.
• La statistica F ha una distribuzione campionaria conosciuta, segue una distribuzione F di Fisher, cioè si conosce il suo valore critico in base al quale respingere o accettare H0 a seconda dei gradi di libertà delle due stime.
• Esistono tabelle dei valori critici a seconda della significatività e la regola decisionale è: Rifiuto H0 se F (calcolato) > Fα (tabulato).
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 18
La forza della relazione: eta
quadrato
• Il confronto tra le medie dei gruppo può rendere conto della forza della relazione: tanto più le medie differiscono tra loro maggiore sarà la forza della relazione. Esistono però diversi coefficienti per quantificare questa forza, il più semplice è l’eta-quadrato, dato dal rapporto tra la somma dei quadrati esterna (cioè la devianza spiegata) e la somma dei quadrati totale (la devianza totale).
η2 = 𝑆𝑄 𝑒𝑠𝑡𝑒𝑟𝑛𝑎
𝑆𝑄 𝑡𝑜𝑡𝑎𝑙𝑒
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 19
La forza della relazione: eta
quadrato
• Varia tra 0 (assenza di relazione) e 1 (relazione perfetta, tutta la devianza di Y è attribuibile a X) ed è chiamato anche rapporto di correlazione di Pearson.
• L’eta-quadrato risente del numero delle categorie della variabile categoriale, quindi si deve fare attenzione nel confrontare eta-quadrati di una stessa Y con X aventi un numero di modalità differenti, inoltre presenta dei problemi se il numero dei casi in ogni gruppo è troppo ridotto.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 20
Correlazione e regressione
• Nel caso entrambe le variabili siano cardinali è possibile analizzare sia la forza che la forma della relazione, ma è necessario utilizzare due differenti strumenti:
– la correlazione serve ad analizzare la forza di una relazione;
– la regressione (la più semplice e utilizzata è quella lineare) permette di analizzarne la forma.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 21
Relazione lineare diretta
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 22
Relazione lineare inversa
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 23
Relazione non lineare
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 24
Assenza di relazione
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 25
Correlazione e regressione
• Questi due strumenti si differenziano anche per quanto riguarda la direzione della relazione: – la correlazione serve a quantificare la forza della
relazione, dunque non dipende dalla sua direzione (il valore del coefficiente è lo stesso sia che Y dipenda da X sia che X dipenda da Y);
– la regressione identificando la forma della relazione cambia a seconda della sua direzione: se ipotizziamo che Y dipenda da X avremo una funzione diversa di quella che otterremmo ipotizzando che X dipenda da Y.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 26
Il coefficiente di
correlazione
• Il coefficiente di correlazione r, detto anche
coefficiente di correlazione di Bravais-
Pearson, misura la forza di una relazione
tra due variabili cardinali:
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 27
Il coefficiente di
correlazione
• E’ il rapporto tra la covarianza fra X e Y e il prodotto delle deviazioni standard di X e di Y (se infatti dividiamo tutto per N, cioè per la numerosità campionaria otteniamo la covarianza al numeratore e il prodotto tra le varianze al denominatore).
• Questo coefficiente non dipende dalla direzione della relazione, e assume valore +1 in caso di perfetta relazione positiva; -1 in caso di perfetta relazione negativa e 0 in assenza di relazione (in caso di relazione perfetta i punti sono tutti allineati su una retta di regressione). Si tratta inoltre di un numero puro, quindi non risente dell’unità di misura delle due variabili in analisi.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 28
Coefficiente di correlazione
di Pearson
• Il coefficiente di correlazione di Pearson ha
diversi pregi:
– È insensibile ai mutamenti di scala
– È sensibile alla vicinanza dei punti alla retta di
regressione e quindi misura l’esattezza con cui
tale retta riproduce i valori di Y sulla base dei
valori di y, ossia misura il grado di adattamento.
– Il suo valore oscilla tra -1 (massima correlazione
negativa) e +1 (massima correlazione positiva)
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 29
La regressione lineare
semplice
• Descrive la relazione che associa due variabili
• Viene identificata una funzione matematica (retta) che esprime i valori assunti da un carattere come funzione dei valori assunti da un altro carattere
• Si cerca di individuare la retta che rappresenti al meglio i punti empirici (dati) viene usato il metodo dei minimi quadrati che minimizza la somma degli scarti tra i valori osservati e quelli teorici (sulla retta).
• la retta di regressione migliora la previsione del carattere dipendente quando si conosce la modalità del carattere indipendente.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 30
La regressione lineare
semplice
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 31
La regressione lineare semplice:
distorsioni imputabili agli outliers
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 32
Il coefficiente di
determinazione
• La devianza totale di un modello di regressione può essere scomposta in due termini:
– devianza della regressione attribuibile cioè alla relazione che sussiste fra y ed Y, calcolata come differenza dalla retta di regressione dal valore medio.
– devianza dell’errore (devianza residua) che non è imputabile alla relazione fra y ed Y ma ad altri fattori. Calcolata come differenza tra il valore osservato di Y e quello stimato.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 33
Il coefficiente di
determinazione R2
• In formula:
• Il coefficiente di determinazione R2:
0 ≤ R2 ≤ 1
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 34
Il coefficiente di
determinazione R2
• Il quadrato del coefficiente r è l’R-
quadrato. Dunque, se r è pari a 0,5 da un
lato possiamo dire che il 25% della
variazione della variabile dipendente è
spiegata da quella della variabile
indipendente, dall’altro non possiamo
interpretare un r = 0,5 come pari alla metà
della correlazione perfetta.
Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 35