DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA...

56
1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1. L’ANALISI QUANTITATIVA DEI DATI 1.1 Perché quantificare Nella ricerca sociale uno degli strumenti più utili è la quantificazione. Con questo termine si vuole definire il ricorso sistematico ai numeri per descrivere, mettere in relazione e spiegare i fenomeni osservati. Si potrebbe obiettare che la descrizione può essere fatta anche con il semplice uso delle parole e che la relazione tra due o più fenomeni può essere individuata sulla base della semplice logica, ma è difficile negare come la quantificazione consenta al ricercatore, oltre ad altri vantaggi, un grado di precisione notevolmente elevato. Affermare genericamente che, in Italia, gli studenti con maturità liceale raggiungono più facilmente la laurea dei compagni con altro tipo di diploma è, indubbiamente, meno rigoroso che partire dalla valutazione che, dei liceali, si laurea il 54%, degli studenti con tipo di diploma tecnico il 27% e con diploma professionale il 21%. Il ricercatore è in grado di rendere conto dei comportamenti umani senza quantificare? Se si vuole essere precisi e obiettivi la risposta non può che essere negativa: non si può fare scienza, umana o no, senza utilizzare delle cifre. Se mi limito a dire: “Carlo è alto” da un punto di vista scientifico la mia affermazione non ha nessun valore, può trattarsi di un bambino di prima elementare che è alto rispetto ai compagni della sua età. Dire che “fa freddo” non ha nessun significato sul piano scientifico, se ci sono 18 gradi a Luglio si può dire che fa freddo: queste affermazioni dipendono dalla situazione e dal punto di vista di chi le fa, si tratta, in altre parole, di enunciati soggettivi. Per renderli oggettivi bisogna usare delle cifre, delle misure: la quantificazione consente una maggiore precisione. È certamente più preciso misurare la percentuale di abbandoni che si verifica nell’Università italiana che affermare semplicemente che “in Italia gli abbandoni a livello universitario sono elevati”. Inoltre, poiché la quantificazione comporta l’operativizzazione dei concetti (nel senso che essi debbono essere definiti e resi misurabili) essa permette di valutare, in modo obiettivo, i fenomeni esaminati: ad esempio la riuscita negli studi può essere misurata usando la percentuale di diplomi o la media nelle votazioni ottenute. La quantificazione consente, inoltre, di fare delle comparazioni: il solo modo di verificare se Tizio è più anziano di Caio è di confrontare le rispettive età; se vogliamo confrontare la riuscita di A e B all’esame di Lingua Inglese, dobbiamo confrontare le loro rispettive votazioni: la quantificazione consente la comparazione dei dati. Poiché il ricercatore sociale deve accontentarsi, nella maggior parte dei casi, di studiare e analizzare dei campioni, solo la quantificazione gli consente, per mezzo delle varie procedure statistiche, di generalizzare i risultati ottenuti su campioni, anche piccoli, a tutta la popolazione di partenza. La quantificazione permette di individuare delle tendenze generali: con l’uso di misure, più o meno semplici, permette cioè di individuare le caratteristiche principali di un fenomeno, in modo che, anche partendo dallo studio di un grande numero di avvenimenti individuali, sia possibile ridurre la massa di dati di base e rendere più facilmente comprensibili le informazioni raccolte. La quantificazione permette, inoltre, la verifica sistematica delle ipotesi di ricerca, in modo che i risultati ottenuti siano attendibili e non opinabili come quelli basati solo sulle opinioni o le semplici intuizioni. Con questo non si vuole asserire che la quantificazione elimini i rischi d’errore nell’interpretazione dei risultati, per quanto precisi essi possano essere; inoltre il metodo impiegato può comportare uno o più errori, difficili da rilevare unicamente in base a calcoli statistici. Facciamo alcuni esempi: anni fa una rivista italiana riportando uno dei tanti “studi” americani, affermava che le persone che soffrono di miopia sono più intelligenti delle altre. Ovviamente, quello che si sarebbe

Transcript of DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA...

Page 1: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

1

DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA

A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER

(Proprietà letteraria riservata)

1. L’ANALISI QUANTITATIVA DEI DATI

1.1 Perché quantificare Nella ricerca sociale uno degli strumenti più utili è la quantificazione. Con questo termine si vuole

definire il ricorso sistematico ai numeri per descrivere, mettere in relazione e spiegare i fenomeni osservati. Si potrebbe obiettare che la descrizione può essere fatta anche con il semplice uso delle parole e che la relazione tra due o più fenomeni può essere individuata sulla base della semplice logica, ma è difficile negare come la quantificazione consenta al ricercatore, oltre ad altri vantaggi, un grado di precisione notevolmente elevato. Affermare genericamente che, in Italia, gli studenti con maturità liceale raggiungono più facilmente la laurea dei compagni con altro tipo di diploma è, indubbiamente, meno rigoroso che partire dalla valutazione che, dei liceali, si laurea il 54%, degli studenti con tipo di diploma tecnico il 27% e con diploma professionale il 21%.

Il ricercatore è in grado di rendere conto dei comportamenti umani senza quantificare? Se si vuole essere precisi e obiettivi la risposta non può che essere negativa: non si può fare scienza, umana o no, senza utilizzare delle cifre. Se mi limito a dire: “Carlo è alto” da un punto di vista scientifico la mia affermazione non ha nessun valore, può trattarsi di un bambino di prima elementare che è alto rispetto ai compagni della sua età. Dire che “fa freddo” non ha nessun significato sul piano scientifico, se ci sono 18 gradi a Luglio si può dire che fa freddo: queste affermazioni dipendono dalla situazione e dal punto di vista di chi le fa, si tratta, in altre parole, di enunciati soggettivi. Per renderli oggettivi bisogna usare delle cifre, delle misure: la quantificazione consente una maggiore precisione. È certamente più preciso misurare la percentuale di abbandoni che si verifica nell’Università italiana che affermare semplicemente che “in Italia gli abbandoni a livello universitario sono elevati”. Inoltre, poiché la quantificazione comporta l’operativizzazione dei concetti (nel senso che essi debbono essere definiti e resi misurabili) essa permette di valutare, in modo obiettivo, i fenomeni esaminati: ad esempio la riuscita negli studi può essere misurata usando la percentuale di diplomi o la media nelle votazioni ottenute.

La quantificazione consente, inoltre, di fare delle comparazioni: il solo modo di verificare se Tizio è più anziano di Caio è di confrontare le rispettive età; se vogliamo confrontare la riuscita di A e B all’esame di Lingua Inglese, dobbiamo confrontare le loro rispettive votazioni: la quantificazione consente la comparazione dei dati.

Poiché il ricercatore sociale deve accontentarsi, nella maggior parte dei casi, di studiare e analizzare dei campioni, solo la quantificazione gli consente, per mezzo delle varie procedure statistiche, di generalizzare i risultati ottenuti su campioni, anche piccoli, a tutta la popolazione di partenza.

La quantificazione permette di individuare delle tendenze generali: con l’uso di misure, più o meno semplici, permette cioè di individuare le caratteristiche principali di un fenomeno, in modo che, anche partendo dallo studio di un grande numero di avvenimenti individuali, sia possibile ridurre la massa di dati di base e rendere più facilmente comprensibili le informazioni raccolte.

La quantificazione permette, inoltre, la verifica sistematica delle ipotesi di ricerca, in modo che i risultati ottenuti siano attendibili e non opinabili come quelli basati solo sulle opinioni o le semplici intuizioni.

Con questo non si vuole asserire che la quantificazione elimini i rischi d’errore nell’interpretazione dei risultati, per quanto precisi essi possano essere; inoltre il metodo impiegato può comportare uno o più errori, difficili da rilevare unicamente in base a calcoli statistici.

Facciamo alcuni esempi: anni fa una rivista italiana riportando uno dei tanti “studi” americani, affermava che le persone che soffrono di miopia sono più intelligenti delle altre. Ovviamente, quello che si sarebbe

Page 2: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

2

dovuto scrivere è che chi legge molto e quindi ottiene buoni risultati nei Test di intelligenza, soffre molto più facilmente degli altri di problemi alla vista che generalmente portano alla miopia.

Per quanto riguarda i possibili errori dovuti al metodo basta considerare gli ormai infiniti articoli allarmistici che riportano “scoperte” di alimenti naturali, da sempre ritenuti innocui e che all’improvviso si dimostrano altamente cancerogeni: cavie, sottomesse a dosi fortissime di un certo alimento, sviluppano dei tumori. Non c’è tuttavia bisogno di essere grandi scienziati per capire che nessun organismo normale sarebbe mai in grado di assorbire dosi così massicce come quelle che vengono normalmente usate in questi tipi di esperimenti, di qualunque sostanza si tratti.

Dobbiamo ricordare, quindi, che la quantificazione è una garanzia di precisione e di oggettività ma non va usata per giustificare qualunque tipo di conclusione: va considerata una condizione necessaria ma non sufficiente

La descrizione numerica di un qualunque fenomeno sociale consente, oltre alla semplice numerazione di quante volte questo fenomeno si verifica (frequenza), di determinare, con l’aiuto di semplici operazioni matematiche, quale sia la sua importanza relativa all'interno del gruppo sociale a cui si riferisce: in tal modo, per fare un esempio, il numero di studenti che lasciano l’Università può essere trasformato in tasso di abbandono, ottenendo così un indicatore dell’importanza che questo particolare fenomeno riveste nella società italiana.

1.2. La matrice dei dati

Il disegno della ricerca implica l’individuazione e l’uso di strumenti di rilevazione delle informazioni

sulla realtà sociale atte a convalidare, o invalidare, l’ipotesi di partenza fatta dal ricercatore; questi strumenti di rilevazione, che la metodologia sociale ha da tempo messo a disposizione dei ricercatori sono non solo numerosi ma estremamente vari: tuttavia, qualunque metodo si voglia utilizzare, è indispensabile che i dati raccolti vengano organizzati in una forma che consenta di analizzarli in modo semplice e corretto. Per ottenere questo tipo di organizzazione è indispensabile quella che viene definita matrice dei dati: nell’uso corrente essa è costituita da una griglia rettangolare in cui vengono registrati i dati raccolti. Generalmente le righe della matrice rappresentano i casi, le unità di analisi, mentre le colonne rappresentano le variabili: in ogni cella della griglia vengono riportati i valori che ‘ogni’ determinato caso assume rispetto ad ‘ogni’ variabile considerata.

Fig. 1. Esempio di matrice di dati

1 2 72 3 24 2 5 2 1 73 1 26 2 4 3 1 73 2 26 3 4 4 2 72 0 27 3 4 5 2 74 3 28 3 5 6 2 72 3 22 2 3 7 1 74 2 28 2 4 8 1 73 1 30 1 5 9 1 73 1 30 1 4

10 2 74 1 26 1 4

Quando si affronta la fase della ricerca che consiste nel passaggio dai dati raccolti, ad esempio tramite questionario, ad una matrice di dati, per poter procedere all’analisi delle informazioni ottenute, ci si accinge a creare quello che viene definito il “file” di dati. La traduzione dall’inglese del termine file suggerisce la parola archivio ed in effetti un file consiste in un insieme di componenti dello stesso tipo, quindi una serie di dati verrà definito come “file di dati”.

L’analisi e l’interpretazione dei dati raccolti costituiscono la fase cruciale dell’intero processo di ricerca: l’organizzazione delle informazioni in una matrice è il primo passo che consentirà di iniziarne un esame approfondito.

L’informatica mette ormai a disposizione dei ricercatori numerosi package statistici specifici per le scienze sociali: uno dei più usati è l’SPSS, acronimo di Statistical Package for the Social Sciences. Questo “pacchetto” di programmi statistici consente di esaminare i dati applicando con facilità tutte le tecniche di analisi specifiche per le scienze sociali, dalle più semplici alle più sofisticate. Quando si entra nel programma la “finestra” che si presenta al ricercatore è quella relativa all’editor dei dati: una matrice in cui le righe corrispondono ai casi (le unità di analisi) e le colonne rappresentano le variabili.

Page 3: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

3

L’intera finestra (cfr. fig.2) è formata da numerosi componenti: in testa troviamo la barra con il nome del programma e l’informazione relativa al nome del file di dati su cui si intende lavorare. Nel caso dell’esempio, la scritta Senza titolo indica che non è stato ancora memorizzato un file di dati e quindi il tabellone è vuoto, in attesa, appunto, di nuovi dati.

Alla destra della barra del titolo si trovano tre pulsanti: il primo riduce ad icona il programma, il secondo consente, invece, di allargare il più possibile lo spazio della finestra: puntando il mouse su questi pulsanti e premendo il tasto di sinistra è possibile, per l’utente, modificare l’ampiezza della finestra in cui sta lavo-rando. Il terzo pulsante consente di chiudere il programma ed uscire da SPSS. Segue la barra relativa ai menu che possono essere aperti e che ha le seguenti voci di menu: FILE MODIFICA VISUALIZZA DATI TRASFORMA ANALIZZ A GRAFICI STRUMENTI FINESTRA ed, infine, ? 1. Posizionandosi su di esse e premendo il tasto di sinistra del mouse, si apre il menu prescelto e si fanno comparire tutti i sottomenu implementati dal programma:

Fig. 2. Finestra dell’Editor dei dati in SPSS Windows

La finestra dell’Editor dei dati SPSS presenta la possibilità di due tipi di visualizzazione: la visualizzazione dei dati, che vediamo nell’immagine precedente e la Visualizzazione variabili. I due pulsanti che riportano appunto VISUALIZZAZIONE DATI e VISUALIZZAZIONE VARIABILI consentono di passare da un tipo di finestra all’altra con un semplice clic sinistro del mouse. Mentre nella prima finestra vengono visualizzati i dati registrati, la seconda consente, tramite menu, di definire (o visualizzare se già definite) le variabili dando loro un nome, stabilendo se si tratta di una variabile numerica, stringa o di altro tipo, la sua lunghezza,, i decimali, un’etichetta della variabile, un’etichetta delle modalità delle variabili, eventuali valori mancanti, larghezza della colonna, livello di misurazione (cfr.Fig.3) Fig.3

1 . Che sostituisce l’HELP delle precedenti versioni e permettere di accedere alla Guida in linea

Page 4: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

4

Torniamo alla barra di menu: ad esempio premendo il tasto di sinistra del mouse alla voce ANALIZZA

della barra di menu, provochiamo la comparsa di un sotto-menu, a tendina, che ci permette di scegliere il tipo di statistica a cui sottoporre i nostri dati. Per scegliere una delle voci occorre posizionare il cursore del mouse sulla voce stessa e premere il tasto sinistro: compiendo questa operazione entriamo in una finestra di dialogo che ci guiderà nella richiesta di elaborazione.

Al fondo della finestra di SPSS troviamo la barra di stato: su di essa viene costantemente segnalato lo stato del programma. L’utente viene informato se il programma sta lavorando o se è in attesa di comandi, viene mostrato il numero di casi che si stanno elaborando e, per le procedure statistiche che lo richiedono, il numero di iterazioni. Sempre su questa barra viene segnalata l’eventuale presenza di un filtro dei dati (nel caso il ricercatore abbia richiesto al programma di compiere le elaborazioni richieste solo se si verificano determinate condizioni, sulla barra compare la scritta Filtro attivo). Sempre su questa barra viene anche segnalato se i dati in esame sono stati ponderati (in questo caso comparirà la scritta Peso attivo); infine, il messaggio Distingui attivo comparirà ad indicare che i casi in esame sono stati suddivisi, per l’analisi, in gruppi separati basati sui valori di una o più variabili.

Nella finestra di Editor dei dati, che potremmo definire ‘foglio di lavoro’, è possibile incominciare a re-gistrare i dati della propria ricerca: come si vede dalla figura, infatti, l’utente si trova automaticamente po-sizionato sulla prima cella in alto a sinistra della finestra dei dati, che risulta evidenziata da una linea di contorno più scura. Si può incominciare a digitare il primo valore, della prima variabile, del primo caso, valore che comparirà nella barra che si trova al di sotto delle voci di menu. Premendo il tasto di invio, il dato registrato viene memorizzato nella cella evidenziata mentre il cursore del programma si sposta nella cella successiva (in verticale): si passa quindi a registrare il valore del secondo caso relativo alla prima variabile, si preme invio, si passa al terzo caso e si procede così fino alla registrazione di tutti i valori di tutti i casi per quanto riguarda la prima variabile. Prima dell’inizio della registrazione dei dati, in testa ad ogni colonna re-lativa alle variabili, si può vedere l’indicazione [ var ], appena leggibile perché non ancora attiva. Appena il processo di introduzione dei dati ha inizio, invece, in testa alla colonna che si sta riempiendo, compare, nitido, il nome della variabile. Questo nome, attribuito in modo standard dal programma, è VAR00001, ma naturalmente l’utente potrà, in un momento successivo, variarlo a suo piacere. Sulla cornice della finestra dei dati, a sinistra, compare, inoltre, accanto ad ogni casella, un numero: è il numero del caso che si sta regi-strando. Registrati tutti i valori della prima variabile si può passare a registrare i valori della seconda va-riabile. Vi sono più modi per tornare in testa alla tabella dei dati: usando il mouse si può muovere il pulsante che si trova sulla barra verticale sulla destra della finestra; puntandovi il cursore del mouse lo si può trasci-nare fino all’inizio della tabella. Oppure, usando la tastiera, si possono premere contemporaneamente i tasti [Ctrl] e [����]. Tornati all’altezza del primo caso, ci si posiziona sulla seconda colonna, che corrisponde alla seconda variabile e si procede a memorizzarne tutti i valori e così via per tutte le variabili della ricerca in esame. Più pratico è però il metodo di memorizzazione dei dati “caso per caso” invece che “variabile per

Page 5: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

5

variabile”. Ci si posiziona, come per il metodo precedente, sulla prima casella e si registra il primo valore della prima variabile del primo caso ma, invece di premere invio, si usa il tasto di tabulazione [ ����| ] o la freccia a destra [���� ] per procedere orizzontalmente invece che verticalmente. Una volta premuta la freccia, il valore registrato compare nella casella e l’utente si trova posizionato sulla casella successiva che è la prima della seconda colonna: qui potrà registrare il valore della seconda variabile relativo al primo caso; premendo di nuovo la freccia ci si sposterà poi sulla terza colonna, dove verrà memorizzato il valore della terza variabile del primo caso... e così via fino alla registrazione completa dei valori di tutte le variabili per il primo caso. Si passerà quindi al secondo caso premendo il tasto [Invio] dopo l’ultimo dato del primo caso, oppure ci si servirà delle frecce o, ancora, si userà il mouse, per posizionarsi sulla seconda casella in alto a sinistra, relativa al valore, della prima variabile, del secondo caso. Si procederà a memorizzare tutto il secondo caso e ci si posizionerà sulla terza casella in alto a sinistra per registrare il valore della prima variabile del terzo caso e così via per tutti i casi della ricerca.

1.3. Editor dei dati e spostamenti all’interno del foglio di lavoro

Se occorre fare qualche correzione nei dati è sufficiente posizionare il cursore nella casella che li

contiene, digitare la correzione e premere [↵↵↵↵] (il tasto Invio). L’utente può copiare e/o muovere le celle che contengono i dati: per farlo è sufficiente posizionarsi su una delle caselle su cui si vuole operare, premere il tasto sinistro del mouse e trascinare il puntatore fino a selezionare tutte le celle. Scegliere Modifica dalla barra di menu e, se si vogliono copiare le celle (ad esempio per riprodurre dati uguali) fare clic su Copia, se invece si vogliono muovere le celle da un posto ad un altro fare clic su Taglia. Fatto questo, muovere il cur-sore nel punto in cui si vuole copiare o spostare le celle, fare clic per selezionarle, scegliere dalla barra di menu il comando Modifica e poi fare clic su Incolla.

Possono anche essere inserite nuove righe di dati: basta selezionare una cella sulla riga sotto quella dove si vuole inserire la nuova riga, scegliere dalla barra di menu Modifica ed Inserisci Caso. Per inserire una colonna occorre invece selezionare la cella a destra della posizione in cui deve avvenire l’inserimento e, suc-cessivamente, scegliere dal menu Modifica ed Inserisci Variabile.

Per cancellare colonne o righe è sufficiente selezionarle facendo clic sul nome della variabile (per le colonne) o sul numero di riga e scegliere Modifica e Taglia, oppure premere il tasto [Canc].

Per muoversi rapidamente nel tabellone dei dati si possono usare i tasti [�] per posizionarsi immediatamente sulla prima casella della riga e il tasto [Fine] per raggiungere l’ultima casella della riga; il tasto [Ctrl] premuto insieme al tasto [�] permette di andare sulla prima riga di una colonna e [Ctrl] premuto insieme al tasto [�] sull’ultima riga di una colonna.

I tasti [Pag�] e [Pag�] fanno scorrere la finestra verso l’alto o verso il basso mentre gli stessi tasti premuti contemporaneamente al tasto [Ctrl] permettono lo scorrimento a destra o a sinistra.

Sempre dal menu Modifica , scegliendo Trova è possibile digitare un valore che si desidera trovare (ad esempio un dato sbagliato) sulla colonna su cui si è posizionati e selezionarlo immediatamente.

1. 4. Definizione delle variabili

Quando il ricercatore ha terminato di memorizzare la matrice di dati può passare a definire meglio le variabili: abbiamo visto che il programma assegna ad ogni variabile registrata un nome standard che consiste nelle lettere VAR seguite da un numero di 5 cifre (es. VAR00001). La definizione delle variabili si effettua selezionando VISUALIZZAZIONE VARIABILI ed inserendo nelle varie colonne le definizioni desiderate.

In questa finestra il nome standard della variabile viene riproposto, evidenziato, nella casella contraddistinta dalla dicitura Nome. L’utente a questo punto può cambiare il nome della variabile scegliendo quello che preferisce e che maggiormente chiarifica il contenuto della variabile stessa, seguendo però alcune regole fondamentali: i nomi non devono superare (nella versione 14) i 64 caratteri alfa numerici, il primo carattere deve sempre essere alfabetico, non possono contenere spazi bianchi né terminare con il punto, non possono contenere caratteri speciali (! ? ’ *), possono essere usati una sola volta, cioè non è possibile

attribuire lo stesso nome a due variabili diverse2 . È altamente consigliabile usare un numero di caratteri il

2. Se si attribuisce il nome TITSTUD alla variabile che indica il titolo di studio dell’intervistato, per indicare la variabile relativa al titolo di studio del coniuge bisognerà usare un altro, diverso, nome.

Page 6: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

6

più possibile ridotto sia per compatibilità con versioni precedenti, sia per comodità di riscrittura del nome nel caso si usi la sintassi invece del menu.

La colonna che porta la scritta Etichetta ci consente di abbinare delle etichette3 alla variabile: queste etichette possono avere sino a 255 caratteri. Nel caso si tratti di una variabile qualitativa, alle sue modalità possono essere attribuite le etichette facendo clic sulla colonna Valori all’altezza della variabile da etichettare; si apre così una nuova finestra di dialogo che porta, nella barra di testa, la dicitura Etichette dei valori . Qui si può digitare il valore (in realtà un codice) e sotto un’etichetta che specifichi il significato del codice stesso. Ad esempio per la variabile SESSO valore 1 maschio, valore 2 femmina. Mentre si

attribuiscono le etichette si accende per ogni codice etichettato il pulsante Questo pulsante deve essere sempre ‘cliccato’ se si vuole che l’etichettatura sia registrata (nel riquadro centrale della finestra).

Fig. 4 – Attribuzione di etichette alle modalità

Tornati nel menu principale vediamo il pulsante che porta la scritta Mancante. Nelle ricerche a mezzo

questionario capita spesso che alcune registrazioni manchino: questo avviene soprattutto per le domande di opinione a cui gli intervistati omettono di rispondere; è quindi importante poter segnalare al programma determinati valori come mancanti, in modo da evitare che un numero eccessivo di risposte non date deformi o invalidi i calcoli che si vogliono effettuare. Con SPSS è possibile ovviare a simili inconvenienti facendo clic su questa colonna nel riquadro relativo alla variabile cui si vuole attribuire uno o più valori mancanti : si apre così una nuova finestra di dialogo in cui si possono definire sino a tre valori mancanti discreti, o, definire come tali un intervalli di valori ed un valore discreto.

Fig 5

3. Le etichette sono sequenze di caratteri associate ai nomi delle variabili o ai loro valori; il loro compito è di rendere chiaro il significato di un nome o di un codice

Page 7: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

7

Il pulsante Colonna consente di intervenire sulla larghezza delle colonne in cui vengono visualizzati i

dati, nella finestra relativa alla matrice dei dati (cioè la finestra di Editor dei dati ). La larghezza standard della colonna è determinata dalla larghezza della variabile così come è stata definita (8 al momento dell’immissione od un altro valore se la variabile è stata ridefinita con il comando Tipo).

La colonna Allinea permette dii decidere se si vuole che i dati siano allineati a sinistra, a destra (lo standard) oppure centrati. Infine la colonna Misura consente di definire, per ogni variabile il suo livello di misurazione: nominale, ordinale o scala. 1.5. Come salvare il file di dati

Una volta che i dati siano stati registrati e le variabili completamente definite è bene procedere subito al

salvataggio del file per non rischiare di perdere il lavoro fatto. Per salvare il file occorre posizionarsi sulla barra di menu scegliendo

File ⇒ Salva con nome

Page 8: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

8

Si apre così la finestra di dialogo Salva come che consente di dare un nome al proprio file e di memorizzarlo nella cartella scelta. Il salvataggio standard consente di creare un file SPSS Windows che può essere registrato o su disco rigido o su dischetto; l’estensione dei file SPSS windows è sempre .SAV, in quanto il programma ricerca automaticamente solo i files con questa estensione. Il ricercatore può, volendo, salvare il proprio file anche in altro formato (Dbase, Lotus, Excel, Portable ecc). Per farlo l’utente dovrà posizionarsi sulla lista di formati (elencati nella parte inferiore della finestra nel riquadro accanto alla dicitura Salva come) e selezionare quello prescelto. Scegliendo, infine, il pulsante Salva si manderà in esecuzione il comando.

Questo tipo di salvataggio dovrà essere eseguito la prima volta che si registra il file. Per salvataggi successivi sarà sufficiente selezionare

File ⇒ Salva Oppure sarà fare clic sul pulsante

eventuali cambiamenti e/o aggiunte ai dati verranno così registrati nello stesso file, con lo stesso nome. Solo se si desidera creare un nuovo file, lasciando immutato il primo, si dovrà ricorrere nuovamente a File/Salva con nome e si digiterà un nuovo, diverso, nome di file. 1.7. Richiamare un file SPSS Windows

Per richiamare un file salvato in formato SPSS windows sarà sufficiente selezionare File ⇒ Apri ⇒ Dati Si entrerà così nella finestra di dialogo Apri File :

Fig. 7– Finestra di apertura files

cliccando su Dati si aprirà una nuova finestra in cui si potrà scegliere, specificando il disco e la cartella, il file che si vuole richiamare. Facendo clic due volte sul nome del file prescelto, oppure selezionando il pulsante Apri, i dati verranno richiamati e si aprirà la finestra di lavoro in cui compariranno i dati e le variabili . 1.8. L’ambiente Syntax

Chi usa da molti anni il package SPSS ha spesso avuto a che fare con il cosiddetto “file di comandi”: si

tratta di un file in cui viene registrato un certo numero di comandi SPSS che dicono al programma quali dati deve usare, come deve leggerli, definirli, analizzarli. Quello che adesso il ricercatore fa aprendo le varie

Page 9: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

9

finestre di dialogo dei menu, nelle versioni DOS doveva essere indicato al programma scrivendo dei precisi comandi. In realtà questi comandi vengono tuttora impartiti ad SPSS, ma l’ambiente windows ha fatto sì che essi siano completamente “trasparenti” per l’utente. Se si vuole vedere a quali comandi corrispondono le varie azioni che si compiono nelle finestre di dialogo è sufficiente fare clic sul pulsante Incolla. Questa azione ha l’effetto di immettere i comandi (che il ricercatore ha costruito intervenendo nella finestra di dialogo) in una nuova finestra, che si chiama Sintax1 (nome standard che può essere cambiato) e costituisce l’Editor della sintassi SPSS:

Fig. 8. Finestra di Sintassi

In questa finestra il ricercatore può agire come se stesse usando un qualunque editor: può scrivere,

cancellare, correggere, copiare ecc. I comandi registrati in questa finestra vengono mandati in esecuzione, dopo essere stati selezionati (col mouse o con il tasto Shift [�] unitamente alle frecce) facendo clic sul pulsante ► oppure scegliendo sulla barra dei menu la voce Esegui

Abbiamo visto come, per mezzo di Incolla, si possa entrare nella finestra di sintassi: l’utente però può,

quando vuole, creare una nuova finestra di sintassi selezionando: File ⇒ Nuovo ⇒ Sintassi Si entrerà così in una finestra di sintassi, vuota, in cui il ricercatore potrà registrare tutta una serie di

comandi da mandare in esecuzione. Il contenuto di una finestra di sintassi può essere modificato, a piacere, con l’editor del programma.

I contenuti di queste finestre, cioè i file sintassi, possono essere salvati su disco e richiamati in qualunque momento. Quando si desidera salvare questi file occorre attribuire loro un nome di non più di 8 caratteri alfanumerici, seguito dall’estensione .SPS

Per richiamare un file di sintassi è sufficiente scegliere File ⇒ Apri ⇒ Sintassi Lavorando si potrà comprendere meglio l’utilità di questi file in cui si possono registrare comandi, anche

lunghi e noiosi, che possono venir richiamati, per essere nuovamente eseguiti, in qualunque momento. All’utente già esperto, o che abbia comunque già acquisito una certa conoscenza dei comandi SPSS sarà sufficiente, infatti, richiamare file Sintassi già creati, modificarli e mandarli in esecuzione, riducendo così, in modo notevole, i tempi di lavoro.

Se si è scritta una riga di comandi, ed il cursore è posizionato su tale riga, ma non si è sicuri della sintassi, facendo clic sul pulsante

che si trova sulla barra degli strumenti, nella parte superiore della finestra di sintassi, si può avere

immediatamente in linea la guida SPSS per la costruzione dei comandi. 1.9. La Sintassi SPSS

Page 10: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

10

La sintassi SPSS implica l’uso di alcune “parole chiave”, parole che hanno un valore particolare e che

non possono essere usate come nomi di variabili o di file; esse sono: THRU - BY - TO e servono, generalmente, a legare fra loro nomi di variabili (TO e BY) o valori (THRU).

In SPSS vengono usati anche i cosiddetti “delimitatori”: essi rappresentano la punteggiatura del linguaggio SPSS e si dividono in delimitatori comuni (lo spazio e la virgola) e speciali (virgolette o apici, parentesi, il segno di uguale (=), lo slash (/) che serve, ad esempio nell’etichettatura di variabili e modalità, ad indicare che il comando prosegue ed il punto (.), terminatore di comando che deve essere sempre inserito alla fine di ogni comando.

IL COMANDO RECODE

Nel corso di una ricerca una delle operazioni più correnti consiste nel ricodificare le variabili: infatti nella

prima fase di un'indagine capita facilmente di avere, per certe variabili, un grande numero di modalità. Un esempio può essere l'età degli intervistati di una inchiesta: una prima codifica di questa variabile, consistente nell'annotare semplicemente l'età di ogni individuo, dà luogo ad una distribuzione di frequenza con pochi casi per ogni valore e quindi poco significativa. È quindi importante poter procedere ad una ricodifica delle modalità raggruppandole, ad esempio, in classi di età. In SPSS le operazioni di ricodifica possono essere realizzate per mezzo dell'istruzione RECODE, il cui campo di specificazione contiene il nome della variabile da ricodificare e, tra parentesi, la lista dei vecchi valori della variabile che si vogliono raggruppare, separati da virgole o da spazi, il segno di uguale e il nuovo valore. Quando il nuovo valore comprende tutti i vecchi valori osservati, compresi tra due valori-limite, la scrittura può essere modificata con l'aiuto della parola chiave THRU: ad esempio si può scrivere 18 THRU 23=1 e questa forma abbreviata equivale a 18,19,20,21,22,23=1.

Quando il nuovo valore corrisponde a tutti i vecchi valori inferiori o uguali ad un valore limite, la scrittura può essere semplificata per mezzo della parola LOWEST. Per esempio la ricodifica di tutti gli individui di età inferiore o uguale a 23 anni può essere scritta:

RECODE VAR (LOWEST THRU 23=1). LOWEST può essere abbreviato in LO. Quando invece il nuovo valore corrisponde a tutti i vecchi valori superiori o uguali ad un valore-limite, la

scrittura può essere semplificata per mezzo della parola HIGHEST. Per esempio la codifica di tutti gli individui di età uguale o superiore a 50 anni può essere scritta:

RECODE (50 THRU HIGHEST=4). HIGHEST suo essere abbreviato in HI Quando il ricercatore desidera creare una categoria residua, può utilizzare la parola chiave ELSE che

riassume tutti i vecchi valori della variabile che non sono ancora stati specificati. La parentesi comprendente la parola ELSE deve apparire alla fine del campo di specificazione. Quando si deve operare la stessa ricodifica su più variabili è possibile rimpiazzarne i nomi con lista delle variabili stesse:

RECODE ETAMA ETAPA (60 THRU 68=1) (ELSE=0). RECODE PROVA1 TO PROVA5 (LO THRU 10=1) (11 THRU HI=2). Per la ricodifica delle variabili possono essere usate numerose parole chiave oltre a quelle già menzionate;

ad esempio MISSING e SYSMIS: la prima si riferisce alla ricodifica dei valori mancanti in input mentre SYSMIS si riferisce ai valori mancanti di sistema, validi cioè sia in input che in output.

Esempio: RECODE ETA (MISSING=9). in questo caso i valori mancanti assegnati dal ricercatore alla variabile ETA (età dell'intervistato) vengono

ricodificati nel valore 9.

Per non perdere i dati originali è indispensabile ricodificare sempre la variabile originale in una nuova variabile:

RECODE V10 (1,2=1) (3=2)(4=4) INTO STUDPA.

IL COMANDO COMPUTE Partendo da una o più variabili originali ed effettuando dei calcoli, è possibile creare delle nuove variabili. Se, per esempio, il ricercatore ha registrato i risultati delle 5 prove di un test, può creare una nuova

Page 11: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

11

variabile che rappresenti la media ottenuta nelle 5 prove, cioè la somma delle votazioni ottenute divisa per cinque. Questa operazione può essere realizzata per mezzo dell'istruzione COMPUTE che comprende, nel suo campo di specificazione, il nome della variabile calcolata, seguita dal segno di uguale e dall'espressione algebrica che definisce il calcolo. Le operazioni aritmetiche sono rappresentate dai simboli:

+ addizione - sottrazione * moltiplicazione / divisione ** elevazione a potenza I1 calcolo della media delle prove nel test può, ad esempio, essere scritta:

COMPUTE MEDIAVOTI = ((PROVA1+PROVA2+PROVA3+PROVA4+PROVA5)/5). Le parentesi vanno utilizzate secondo le regole abituali del calcolo algebrico. L'espressione algebrica più semplice che possa comportare l'istruzione COMPUTE è quella di

uguaglianza: COMPUTE NEWVAR=OLDVAR Si può creare così, ad esempio una variabile identica ad un'altra già esistente in modo da poter procedere

ad eventuali ricodifiche senza dover riscrivere tutti i valori originali. Oppure è possibile creare una nuova variabile (ad esempio un indice) data dalla somma (o da un qualunque tipo di calcolo matematico) su variabili originali.

Esempio: COMPUTE INDICESOC_CULT = PROFPA+STUDPA+STUDMA. Con questo comando si crea una nuova variabile, l’Indice di estrazione socio culturale dei soggetti, data

dalla somma delle variabili professione del padre, titolo di studio del padre e titolo di studio della madre. IL COMANDO IF

È possibile creare una nuova variabile, o un indice, partendo dalla combinazione di più variabili qualitative: questa operazione può essere realizzata per mezzo del comando IF. Questo è uno dei comandi più potenti del programma e permette anche di realizzare tutte le trasformazioni effettuate per mezzo di COMPUTE e RECODE. L'istruzione IF è composta da un'espressione logica: se la relazione indicata nell’espressione logica si verifica, allora il calcolo indicato nella seconda parte dell'istruzione viene effettuato. Nell'ipotesi contraria, il calcolo non è realizzato. L'istruzione IF si presenta dunque come un'istruzione COMPUTE condizionale. Mentre usando il COMPUTE il calcolo viene effettuato per tutti gli individui, nel caso dell' IF il calcolo risulta valido solo per gli individui per i quali l'espressione logica risulta vera.

Un'espressione logica può essere semplice o complessa: un'espressione logica complessa è formata da più espressioni logiche semplici. Un'espressione logica in SPSS si presenta come una relazione fra due quantità: nell'ipotesi più elementare la comparazione riferisce il valore preso da una variabile ad una costante numerica, i diversi tipi di relazione sono codificati per mezzo di sei operatori relazionali:

EQ (Equal to) = uguale a NE (Not equal to ) ~= non uguale a LT (Less than) < minore di GT (Greather Than) > maggiore di LE (Less than or equal to) <= minore o uguale GE (Greather Than or equal to) >= maggiore o uguale (Possono essere usate sia le abbreviazioni che i simboli) Così l'espressione logica “media generale superiore a 36” si scrive: MEDGEN GT 36 I sei operatori possono essere classificati in tre coppie di antinomie EQ e NE LT e GE

Page 12: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

12

GT e LE Per ogni coppia quando uno è vero l'altro e falso, quando uno è falso l'altro e vero. Ad ogni coppia di

antinomie può essere applicata la regola: delle due cose l'una. Gli operatori LT e GT sono dei contrari: quando uno è vero l'altro è falso, ma quando uno è falso l'altro

non è necessariamente vero, perché possono essere falsi entrambi quando le due quantità considerate sono uguali. La stessa proprietà è osservabile per le coppie LT ed EQ; gli operatori LT, GT ed EQ costituiscono una triade di contrari a cui si può applicare la regola: delle tre cose l'una. Gli operatori NE e GE sono dei subcontrari: quando uno è falso l'altro è vero, ma quando uno è vero l'altro non è necessariamente falso perché essi possono essere veri entrambi quando la prima quantità considerata è più grande della seconda. La stessa proprietà è osservabile per le coppie NE e LE, LE e GE; gli operatori NE, LE, GE costituiscono una triade di sub - continui a cui si può applicare la regola: di tre cose due. Vediamo di spiegare meglio con qualche esempio: immaginiamo uno studio demografico sull'età dei coniugi al momento del matrimonio: per ogni coppia è registrata l'età del marito (variabile ETAMARI) e quella della moglie (variabile ETASPOSA).

I1 ricercatore può voler costruire una variabile relativa alla differenza di età (DIFFETA), che prenda valore 1 quando l'età del marito è inferiore a quella della moglie, 2 quando è uguale e 3 quando è superiore. In questo caso si scriveranno tre istruzioni IF:

IF (ETAMARI LT ETASPOSA) DIFFETA=1. IF (ETAMARI EQ ETASPOSA) DIFFETA=2. IF (ETAMARI GT ETASPOSA) DIFFETA=3. Si vede in questo esempio che l'espressione algebrica che segue l'espressione logica si può ridurre

all'attribuzione di una costante; la stessa operazione può essere scritta: IF (ETAMARI - ETASPOSA LT 0) DIFFETA=1. IF (ETAMARI - ETASPOSA EQ 0) DIFFETA=2. IF (ETAMARI - ETASPOSA GT 0) DIFFETA=3. Si vede da questo secondo esempio che i termini da comparare fra loro possono essere costituiti da una

espressione algebrica (ETAMARI - ETASPOSA) e da una costante ( 0 ).

Una espressione logica complessa è costituita dalla riunione di più espressioni logiche semplici per mezzo degli operatori logici AND e OR. And ha lo stesso significato di "e" nel linguaggio corrente e l'espressione logica complessa, formata dalla congiunzione di due espressioni logiche per mezzo di questo operatore, è vera quando le due espressioni sono vere. Ad esempio:

(ETAMARI GE 18 AND ETASPOSA GE 18)

è vera solo nell'ipotesi in cui sia il marito che la moglie abbiano un'età superiore o uguale a 18 anni: l'espressione, quindi, ci permette di isolare le coppie in cui gli sposi sono maggiorenni.

L'operatore logico OR non ha lo stesso significato di "o" nel linguaggio corrente: si tratta infatti di un "o" logico che si può tradurre con e/o. In effetti l'espressione logica complessa formata dalla congiunzione di due espressioni logiche per mezzo dell'operatore OR è vera quando sia l'una, sia l'altra, sia entrambe le proposizioni risultino vere. Per esempio: ETAMARI GE 18 OR ETASPOSA GE 18 è vera in tre casi:

- il marito è maggiorenne, la moglie minorenne - il marito è minorenne, la moglie maggiorenne - i due coniugi sono maggiorenni

L'espressione è falsa solo nel caso in cui entrambi siano minorenni. Supponiamo che il ricercatore voglia costruire 4 variabili: SPMIN: (sposi minorenni) che valga 1 quando i coniugi sono minorenni e 0 negli altri casi SPMAGG: (sposi maggiorenni) vale 1 se i due coniugi sono maggiorenni e 0 negli altri casi SPMAGMIN: vale 1 se il marito è maggiorenne e la sposa minorenne, 0 negli altri casi SPMINMAG: vale 1 se il marito è minorenne e la sposa maggiorenne, 0 negli altri casi. Si costruisce inizialmente l'istruzione IF che determina le coppie per le quali SPMIN vale 1 (coppie di minorenni):

Page 13: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

13

IF (ETAMARI LT 18 AND ETASPOSA LT 18) SPMIN=1. che in linguaggio corrente significa: se il marito è minorenne e la moglie è minorenne, allora la variabile SPMIN (che viene creata in questo momento) varrà 1.

Esaminiamo ora le coppie per le quali la variabile SPMIN varrà 0: sarà sufficiente che uno dei coniugi sia

maggiorenne perché SPMIN sia uguale a 0: IF (ETAMARI GE 18 OR ETASPOSA GE 18) SPMIN=0. Nello stesso modo si può procedere per creare la variabile SPMAGG (coppie di maggiorenni): IF (ETAMARI GE 18 AND ETASPOSA GE 18) SPMAGG=1. IF (ETAMARI LT 18 OR ETASPOSA LT 18) SPMAGG=0. La variabile SPMAGMIN (coppie con marito maggiorenne e moglie minorenne) verrà costruita con le istruzioni: IF (ETAMARI GE 18 AND ETASPOSA LT 18) SPMAGMIN=1. IF (ETAMARI LT 18 OR ETASPOSA GE 18) SPMAGMIN=0. Infine la variabile SPMINMAG (coppie con la sposa maggiorenne ed il marito minorenne verrà creata con: IF (ETAMARI LT 18 AND ETASPOSA GE 18) SPMINMAG=1 . IF (ETAMARI GE 18 OR ETASPOSA LT 18) SPMINMAG=0.

In SPSS è previsto anche un operatore supplementare NOT che permette di costruire la negazione di una espressione logica; questo operatore non è indispensabile: si può sempre, con l’aiuto dei 6 operatori relazionali e dei due operatori logici, costruire la negazione di una espressione logica. Se riprendiamo le istruzioni che consentono di creare la variabile SPMIN vediamo come può essere usato l'operatore NOT; è sufficiente scrivere: IF (NOT(ETAMARI LT 18 AND ETASPOSA LT 18)) SPMIN=0

Come si vede l'istruzione IF non è molto semplice da usare ed è assai facile commettere errori di logica. Per cercare di evitarli si può procedere a numerose traduzioni tra il linguaggio comune e la scrittura logica; ad esempio: analisi del problema, scrittura dell'espressione logica, ‘ritraduzione’ dell'espressione in lin-guaggio comune. È anche utile costruire la negazione dell'espressione scritta senza utilizzare l'operatore NOT. Spesso la difficoltà di costruire l'espressione negativa o l'assurdità della formula ottenuta rivelano un errore nella scrittura dell'espressione positiva.

Quando l'espressione positiva è difficile da scrivere, può essere utile cominciare con il costruire l'espressione negativa e poi dedurne quella positiva. Infine, se il ricercatore ha una certa padronanza dell'algebra di Boole, è bene scrivere l'espressione in formula simbolica prima di tradurla nella sintassi SPSS.

COMANDI DI SINTASSI PER L’OTTENIMENTO DELLE VARIE PROCEDURE STATISTICHE

FREQUENZE (distribuzioni di frequenza)

FREQUENCIES VARIABLES=varlist . Oltre a varie opzioni si possono richiedere numerose statistiche (prima del punto e dopo lo slash (/) /STATISTICS= MEAN STDDEV MINIMUM MAXIMUM RANGE MODE KURTOSIS MEDIAN SUM

Esempio

FREQUENCIES VAR=V02 TO V20/STATISTICS=mean. Oppure, più semplicemente: FREQ V02 TO V20/STAT=MEAN. CROSSTABS (Tavole di contingenza) CROSSTABS TABLES=varlist BY varlist [BY...] [/varli st. CELLS= COUNT ROW COLUMN/STATISTICS= CHISQ.

Page 14: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

14

ESEMPIO: CROSSTABS TABLES=V02 BY TIPODIP /CELLS=COUNT ROW/STATISTICS=CHISQ. DESCRIPTIVES (DESCRITTIVE)

DESCRIPTIVES [VARIABLES=] varname … varname [/SAVE] [/STATISTICS=[DEFAULT** ] [MEAN** ] [MIN** ] [SKEWNESS]] [STDDEV** ] [SEMEAN] [MAX** ] [KURTOSIS] [VARIANCE ] [SUM ] [RANGE] [ALL] Esempio: DESCRIPTIVES VARIABLES=ALIMENTI REDDITO, CARNE TO VERDURA, TIPODIETA/STATISTICS=VARIANCE DEFAULT /MISSING=LISTWISE. DESCR ETA REDDITO V12 TO V16. MEANS (COMPARAZIONE DI MEDIE) MEANS [TABLES=]{varlist} BY varlist [BY...] [/varlist...] [/STATISTICS=[ANOVA ] [{LINEARITY}] [ NONE** ]] Example: MEANS TABLES=ETA TO ETAISCR BY SESSO /STAT(ISTICS)=ANOVA.

CORRELAZIONE CORRELATIONS ORELAV GUADAGNO /PRINT=TWOTAIL NOSIG. REGRESSIONE LINEARE REGRESSION /VARIABLES={varlist }] /DEPENDENT=varlist [/METHOD= ENTER (STEPWISE ESEMPIO: REGRESSION VARIABLES=POP15,POP75,REDDITO,CRIMINAL /DEPENDENT=CRIMINAL /METHOD=ENTER. Oppure, più semplicemente: REGRESSION /DEPENDENT tfreq /METHOD=ENTER etascpol v16 v47 . REGRESSIONE LOGISTICA LOGISTIC REGRESSION VAR=freq2 /METHOD=ENTER sex soccult2 tipodip2 lav2 /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

Page 15: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

15

ANALISI DEI GRUPPI (CLUSTER ANALYSIS)

(PER STANDARDIZZARE I DATI: DESCR LIBRICA NLIBRILE PIALEGG ESTRCULT/SAVE) CLUSTER ZLIBRICA ZNLIBRIL ZPIALEGG ZESTRCUL/ METHODE=WARD/PLOT=NONE/PRINT=NONE/ SAVE=CLUSTERS (1,4).

ANALISI FATTORIALE ESPLORATIVA

FACTOR /VARIABLES SODD1 TO SODD4 ROUTINE1 TO ROUTINE4 /MISSING LISTWISE /ANALYSIS SODD1 SODD2 SODD3 SODD4 ROUTINE1 ROUTINE2 ROUTINE3 ROUTINE4 /PRINT INITIAL KMO EXTRACTION ROTATION /FORMAT SORT /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /SAVE REG(ALL) /METHOD=CORRELATION .

Page 16: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

16

La “pulizia dei dati”

Quando il file di dati è stato creato è indispensabile procedere alla correzione degli eventuali errori che

possono essersi verificati durante la raccolta o la registrazione delle informazioni. Pertanto il primo passo che il ricercatore deve compiere consiste nel richiedere al programma il calcolo delle frequenze di tutte le variabili introdotte nel file: solo esaminando attentamente tali variabili ci si può rendere conto se vi sono modalità non previste (ad esempio un codice 5 o 6 nella variabile “Titolo di studio” se essa prevede solo quattro codici: 1= elementari, 2= scuola dell’obbligo, 3=diploma, 4= laurea). Nel caso si riscontrino valori estranei a quelli prestabiliti è necessario risalire al mezzo di raccolta delle informazioni, si tratti di questionari o d’altro: l’errore può essere avvenuto durante la registrazione su computer ed in tal caso sarà facile correggere l’inesattezza sostituendo il valore effettivo a quello sbagliato, oppure può trattarsi si un errore verificatosi durante la raccolta delle informazioni. In questo secondo caso la possibilità di correzione diventa minima perché difficilmente si potrà risalire all’intervistato per porre nuovamente la domanda: spesso si è costretti ad aggiungere i casi che presentano valori errati o incongruenti alle mancate informazioni, incrementando così i cosiddetti “missing values”, i valori con cui si codificano le risposte non date o scorrette, che vanno considerati perduti e, quindi, eliminati dal file.

Di norma, prima di procedere all’analisi dei dati vera e propria, il ricercatore valuta, per ogni variabile, la percentuale di risposte ottenute ed i cosiddetti outliers, termine con cui si definiscono i valori di una variabile talmente estremi da risultare del tutto incoerenti rispetto alla serie complessiva dei dati: il problema degli outliers consiste nella loro capacità di distorcere, anche gravemente, l’interpretazione dei dati. Si prenda ad esempio una ricerca degli anni ’80 sull’uso del tempo libero degli abitanti della città di Torino: alla domanda relativa al numero di libri letti nell’ultimo anno cinque individui (su oltre 500) indicavano valori altissimi (oltre 90 libri letti). Questi casi estremi alzavano a 8 il numero medio di libri letti in un anno dai torinesi intervistati, mentre il valore della mediana (misura meno sensibile agli outliers) risultava essere 5. Ignorando la presenza di questi valori estremi ed usando la media, si sarebbe, quindi, corso il rischio di sopravvalutare la capacità di lettura del campione in esame. Nel caso si riscontri la presenza di outliers, dunque il ricercatore deve ricalcolare la media escludendo i valori giudicati incongruenti nel complesso della distribuzione esaminata oppure usare, al posto della media, troppo sensibile ai valori estremi, la mediana.

L’organizzazione delle informazioni in una matrice è, dunque, il primo passo che consentirà di iniziarne un esame approfondito e di procedere, secondo passo, alla pulizia dei dati.

Alla creazione del file fa seguito la fase che viene definita: “pulizia” dei dati; il ricercatore deve identificare i possibili errori commessi durante la registrazione delle informazioni. A questo scopo è bene richiedere, per prima cosa, le frequenze di tutte le variabili introdotte nel file di dati. L’SPSS risponde a questa richiesta fornendo un listato con tutti i valori delle variabili di cui sia stata richiesta la frequenza, le frequenze assolute e relative di ciascuno di questi valori, i casi in cui la risposta non è stata data (missing data).

2. L’analisi monovariata

L’analisi e l’interpretazione dei dati raccolti costituiscono la fase cruciale dell’intero processo di ricerca: partendo dalla matrice dei dati il ricercatore deve, innanzi tutto, prendere in esame singolarmente tutte le variabili del suo file (ripulite da errori, missing values ed eventuali outliers).

Questa prima fase, che può essere definita “esplorativa”, è fondamentale in quanto anche se nel disegno della ricerca vengono generalmente già previste le analisi che dovranno essere attuate con le informazioni raccolte, la loro effettiva realizzazione dipende dalla quantità e qualità dei dati ottenuti e quindi da una iniziale accurata disamina delle variabili considerate singolarmente. Per fare ciò è necessario procedere alla classificazione delle tecniche di analisi a seconda del tipo di variabili trattate, differenziandole a seconda che si tratti di variabili nominali, ordinali (categoriali) o misurabili a livello di scale a intervalli o di rapporti (cardinali).

Page 17: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

17

2.1. Le distribuzioni di frequenza

La forma più semplice per esaminare la matrice di dati consiste nel “contare” il numero di persone che sceglie ognuna delle possibili risposte (modalità) di una domanda (variabile). Il risultato di questa semplicissima operazione viene definito “distribuzione di frequenza”. Se si considera, ad esempio, la variabile “Tipo di diploma” la distribuzione di frequenza sarà la seguente:

Tab. 1 – Esempio di distribuzione di frequenza (output Spss Windows)

Questo esempio riproduce l’output4 fornito dal programma Spss, che dà, oltre alla distribuzione di

frequenza, le percentuali, le cosiddette “percentuali valide” (cioè depurate dalle eventuali risposte mancanti e da quelle che si desiderano togliere dal calcolo) e le percentuali cumulative.

Le frequenze assolute hanno una valenza meramente descrittiva del campione e non consentono alcun tipo di confronto tra campioni diversi. È quindi necessario calcolare anche le cosiddette frequenze relative, cioè il rapporto fra le frequenze assolute ed il totale dei casi. Di norma, tuttavia, non ci si limita al calcolo di questo semplice rapporto ma si preferisce trasformarlo in percentuali, moltiplicandolo per cento. In pratica si preferisce rapportare le frequenze assolute non alla popolazione totale effettiva ma a 100. L’utilizzo delle percentuali è fondamentale in quanto permette la comparazione di distribuzioni relative a campioni con un differente numero totale di osservazioni.

Il ricercatore sociale si trova a dover analizzare variabili di tipo diverso: si va, infatti, da quelle di tipo qualitativo (o categoriali) a quelle quantitative (o cardinali). Poiché l’analisi dei dati consiste appunto nel tentativo di misurare le differenze fra le diverse modalità delle variabili di una indagine, è indispensabile

usare, a seconda del tipo di variabile, scale diverse di misurazione5. La distinzione fra tipi di scale è fondamentale perché consente di determinare il tipo di analisi statistica appropriata: per le variabili di tipo nominale sono indicati solo alcuni tests non-parametrici, quelle ordinali consentono l’impiego dei tests non-parametrici, mentre le variabili misurabili con scale a intervalli o di rapporti consentono l’uso di tests parametrici.

Le statistiche relative all’analisi monovariata vengono generalmente suddivise in tre gruppi: − misure di tendenza centrale − misure di dispersione − misure relative alla forma della distribuzione

4 Con il termine output si indica il risultato di tutte le elaborazioni che vengono richieste. 5 Per quanto riguarda la classificazione e le scale (o livelli) di misura delle variabili si rimanda al relativo capitolo.

V15 TIPO DI DIPLOMA

74 9.1 9.1 9.1

242 29.7 29.7 38.8

34 4.2 4.2 43.0

56 6.9 6.9 49.9

12 1.5 1.5 51.4

176 21.6 21.6 73.0

30 3.7 3.7 76.7

162 19.9 19.9 96.6

28 3.4 3.4 100.0

814 100.0 100.0

1 MAT.CLASSICA

2 MAT.SCIENTIFICA

3 DIPL.MAGISTR.

4 LICEO LINGUIST.

5 MAT.ARTISTICA

6 RAGIONIERE

7 GEOMETRA

8 PERITO

9 ALTRO DIPLOMA

Totale

ValidiFrequenza Percentuale

Percentualevalida

Percentualecumulata

Page 18: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

18

2.2.1. Le misure di tendenza centrale

Il ricercatore, al di là della conoscenza dei dettagli di ogni modalità o valore (forniti dalla distribuzione di

frequenza), deve poter individuare, per ogni variabile, degli indici che consentano di sintetizzare la distribuzione stessa e, quindi, riassumano l’insieme delle informazioni fornite, permettendo così di concentrare, in un unico valore, l’informazione fornita da una serie di dati. Moda, mediana e media sono le tre misure di tendenza centrale che consentono, appunto, di individuare i valori caratteristici che si trovano al

centro di una distribuzione di frequenza6. La moda

La moda è la misura di tendenza centrale più semplice da valutare in quanto è costituita dal valore o dalla

modalità con frequenza più elevata: se, ad esempio, richiediamo la distribuzione di frequenza della variabile relativa al tipo di diploma degli intervistati di un campione, come nell’esempio (cfr. Tab. 1) ci viene fornita una tabella con una distribuzione in cui la moda è costituita dalla modalità 2 (che ha come frequenza assoluta 242).

Talvolta una distribuzione può avere due o più valori modali e, in tal caso, si parla di distribuzione bimodale o multimodale: l’esistenza di più di una moda, tuttavia, complica l’interpretazione della distribuzione. A tale inconveniente si aggiunge il fatto che nel calcolo di questa misura non intervengono tutti i valori della distribuzione: il vantaggio di questo indice consiste nel poter essere calcolato per qualunque tipo di variabile in quanto il livello di misurazione minimo richiesto è quello nominale.

La mediana

La mediana è la misura di tendenza centrale che divide la distribuzione in due parti uguali: questo

parametro separa una serie statistica ordinata in due gruppi che comprendono ognuno, approssimativamente, il 50% dei dati. Il fatto che la mediana si situi a metà della distribuzione consente di conoscere i valori maggiormente rappresentativi del campione. Poiché la mediana indica la posizione centrale può essere calcolata soltanto per variabili misurabili almeno a livello di scala ordinale.

Se si considera una distribuzione semplice7 per calcolare la mediana occorre, dopo averla ordinata, verificare se il numero delle osservazioni è dispari o pari. Nel primo caso il ricercatore non ha bisogno di effettuare nessun calcolo in quanto la mediana sarà costituita dal valore al di sotto e al di sopra del quale viene a trovarsi il 50% dei dati. Consideriamo, ad esempio, il numero di impiegati che lavorano in 7 diversi reparti amministrativi universitari:

4 6 7 9 11 13 15

la mediana di questa distribuzione è data dal valore 9, in quanto vi sono 3 casi prima di esso, ed altri 3 se ne contano dopo.

Se il numero di osservazioni della distribuzione è pari, la mediana corrisponde alla media aritmetica delle due osservazioni centrali:

4 6 7 9 11 13 15 18 Nell’esempio la mediana si situerà fra 9 e 11 e sarà data da:

(9+11)/2 =10 impiegati Il calcolo della mediana risulta un poco meno semplice se deve essere effettuato su di una distribuzione di

frequenza o su dati raggruppati in classi. Nell’esempio della distribuzione di frequenza relativa all’età, per calcolare la mediana occorre applicare la seguente formula:

6 Di qui la definizione di misure di tendenza centrale. 7. Per distribuzione semplice si intende quel tipo di distribuzione in cui viene considerato un solo valore per ogni modalità. Nelle distribuzioni di frequenza, al contrario, per ogni modalità viene considerata la frequenza, cioè più valori.

Page 19: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

19

Mdn = li + [(0,5n-Σfb)/fw] × i

dove li è il limite inferiore dell’intervallo di classe in cui è situata la mediana; 0,5n è la metà della frequenza totale; fb è la frequenza cumulata più alta al di sotto dell’intervallo che comprende la mediana; fw è la frequenza entro l’intervallo in cui si trova la mediana; i è l’ampiezza della classe.

Si consideri ad esempio, la distribuzione di frequenza dell’età delle matricole di Scienze Politiche di Alessandria in una ricerca del 1988 (cfr. Tab. 2.1). Per quanto riguarda la distribuzione dell’esempio si procede dividendo il campione per 2 (102/2=51) e si trova che la 51ma osservazione è quella che divide la distribuzione in due parti uguali. Per determinare il valore di li controlliamo le frequenze cumulative e vediamo che la cinquantunesima osservazione corrisponde alle frequenze del valore 20, per cui il limite di classe inferiore è 19,5. La somma delle frequenze al di sotto dell’intervallo che contiene la mediana equivale a 40, la frequenza dell’intervallo che contiene la mediana è 22; poiché, infine, i dati non sono raggruppati la i della formula, cioè l’intervallo di classe sarà 1. Avremo quindi: Mdn = 19,5 + ((51-40)/22)x 1 Mdn = 20

Tab. 2.1. - Distribuzione di frequenza dell’età degli intervistati8 ETA Età degli intervistati Valid Cum Value Label Value Frequency Percent Percent P ercent

18.00 1 1.0 1.0 1.0 19.00 39 37.9 38.2 39.2 20.00 22 21.4 21.6 60.8 21.00 9 8.7 8.8 69.6 22.00 7 6.8 6.9 76.5 23.00 1 1.0 1.0 77.5 24.00 1 1.0 1.0 78.4 25.00 4 3.9 3.9 82.4 26.00 2 1.9 2.0 84.3 27.00 2 1.9 2.0 86.3 28.00 1 1.0 1.0 87.3 29.00 2 1.9 2.0 89.2 30.00 1 1.0 1.0 90.2 31.00 2 1.9 2.0 92.2 32.00 1 1.0 1.0 93.1 33.00 1 1.0 1.0 94.1 34.00 2 1.9 2.0 96.1 36.00 2 1.9 2.0 98.0 44.00 1 1.0 1.0 99.0 47.00 1 1.0 1.0 100.0 ------- ------- ------- Total 102 100.0 100.0

Può accadere che, per meglio descrivere una distribuzione, si voglia indicarne un punto in termini di

percentuali di valori che cadono al di sotto di quel punto: per indicare il valore al di sotto del quale si trova una determinata percentuale di valori individuali si usa il termine percentile. Poiché, come si è appena detto, la mediana divide la distribuzione in due parti uguali, costituisce cioè il valore al di sopra e al di sotto del quale si trova il 50% dei valori individuali, essa viene anche definita come cinquantesimo percentile (P50).

I percentili che vengono usati più frequentemente sono il 25°, il 50° ed il 75°. Il valore del 25° percentile è detto anche 1° quartile (Q1), poiché un quarto dei valori si trova al di sotto di esso. Il secondo quartile (Q2) è la mediana, mentre il terzo quartile (Q3) corrisponde al 75° percentile, in quanto il 75% dei valori viene a trovarsi al di sotto di esso.

8 Viene qui riportata la distribuzione di frequenza di una variabile cardinale al solo scopo di rendere più agevole la comprensione del procedimento di calcolo della mediana.

Page 20: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

20

La media La media aritmetica è la misura di tendenza centrale più comunemente usata e la più rappresentativa e

costituisce il valore medio di una distribuzione. Essa costituisce, inoltre, la base di statistiche più complesse. Il calcolo della media per le distribuzioni semplici avviene in base alla formula:

xx

ni= ∑

la media aritmetica è data, dunque, dalla sommatoria dei valori individuali di una distribuzione, divisa per il totale delle osservazioni.

Per le distribuzioni di frequenza si ha:

xf x f x f x f x

nn n= + + + +1 1 2 2 3 3 ...

dove f1 f2 ... fn sono le frequenze che corrispondono a ciascun valore della variabile. Si parla, in questo caso,

di media ponderata e la formula per calcolarla sarà:

xf x

ni i= ∑

Per la variabile Età del precedente esempio, il calcolo avverrà, dunque, moltiplicando ogni valore per la

sua frequenza (1 x 18, 39 x 19, 22 x 20 ...1 x 47), sommando i prodotti ottenuti e dividendo il risultato per 102, che è il totale delle osservazioni valide del campione in esame.

Per calcolare la media di una distribuzione di frequenza con dati raggruppati in classi, è indispensabile calcolare, per prima cosa, il valore che meglio rappresenta l’intervallo di classe: a questo scopo si usa il punto medio di ogni intervallo. Ad esempio per un intervallo di età 18-20 il punto medio sarà 19 e verrà con-siderato come il valore che meglio rappresenta l’intervallo. Nella formula del calcolo della media, nel caso di dati raggruppati, al valore verrà, quindi, sostituito il punto medio dell’intervallo e la formula risulterà così trasformata

xf m

ni i= ∑

dove fimi è la frequenza di ciascuna classe moltiplicata per il punto medio dell’intervallo.

L’inconveniente principale di questa statistica è di essere troppo sensibile ai valori estremi: quando la distribuzione include valori molto diversi (o estremi), la media perde di rappresentatività ed è la mediana, in questo caso, a costituire la misura di tendenza centrale più significativa.

2.3.2. La scelta della misura di tendenza centrale

La scelta delle misure di tendenza centrale dipende dal tipo di livello di misurazione delle variabili che si

stanno analizzando e dal tipo di informazione che si desidera. Per le variabili misurate a livello nominale la misura più adatta potrà essere la moda: non avrebbe certo senso calcolare la media della variabile sesso ma è interessante sapere se, nel campione in esame, prevalgono i maschi o le femmine. Anche per variabili misurabili con altri tipi di scale la conoscenza della moda può rivestire un certo interesse: esso, infatti, indica il valore più rappresentativo, in quanto più frequente, di una certa distribuzione.

La mediana viene usata per variabili il cui livello di misurazione è ordinale o più alto. Essa risulta particolarmente utile quando i valori estremi della distribuzione possono distorcere la media.

La media deve essere usata solo a livello di scale a intervalli o di rapporti: è questa l’unica misura di tendenza centrale che prende in considerazione tutti i valori della distribuzione.

La tabella che segue illustra le relazioni esistenti fra misure di tendenza centrale e livello di misurazione delle variabili:

Validità d’ uso

Page 21: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

21

Livello Media Mediana Moda Nominale no no sì Ordinale no sì sì Intervalli sì sì sì Rapporti sì sì sì

LE MISURE DI DISPERSIONE (o VARIAZIONE) Per riassumere adeguatamente le caratteristiche principali di una distribuzione, il ricercatore deve conoscere, oltre alle misure di tendenza centrale anche le cosiddette misure di dispersione. Infatti un aspetto importante di un insieme di dati è proprio il grado di variazione dei suoi valori, che viene definito dispersione. Questa ci permette di misurare il grado di dispersione o di concentrazione della distribuzione di una variabile, cioè in che misura i suoi valori sono simili o diversi fra loro.

Le misure di variazione, dunque, sono quelle misure che riassumono come i valori sono concentrati o dispersi: nel primo caso si dice che i valori sono omogenei, nel secondo si dice che sono eterogenei: due distribuzioni possono avere uno stesso valore centrale ma presentare dispersioni molto diverse. I parametri di dispersione più usati sono il campo di variazione, la differenza interquartile , la varianza e la deviazione standard o scarto quadratico medio.

Il campo di variazione

La misura più semplice di variabilità di un gruppo di dati è il campo di variazione (o range) che è

costituito dalla differenza fra il valore minimo ed il valore massimo della distribuzione: LHRange −=

H = valore massimo L = valore minimo La varianza e la deviazione standard

La varianza permette di misurare la dispersione dei dati attorno alla media ed è costituita dal rapporto fra la somma dei quadrati delle deviazioni dalla media ed il totale dei casi. Per deviazione dalla media si intende la differenza fra un qualunque dato della distribuzione e la media della distribuzione stessa e viene descritta come x xi − .

La formula della varianza è:

σ 22

= ∑ −f x x

Ni i( )

Se si analizzano i dati di un campione estratto da una popolazione piuttosto ampia è necessario, per

ottenere una stima migliore della varianza della popolazione, dividere per N-1, per cui la formula viene corretta in questo modo:

sf x x

ni i2

2

1= ∑ −

−( )

Un valore della varianza ampio significa che i valori sono abbastanza dispersi; valori piccoli indicano che le osservazioni sono abbastanza simili: un valore 0 indicherebbe che tutti i valori sono uguali. SCARTO QUADRATICO MEDIO ( DEVIAZIONE STANDARD)

Page 22: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

22

Poiché la varianza viene calcolata elevando al quadrato le differenze dalla media, per avere un’unità di

misura che non sia espressa al quadrato ma sia la stessa unità di misurazione con cui sono espresse le osservazioni, al ricercatore conviene calcolare la radice quadrata della varianza, calcolare, cioè, la deviazione standard o scarto quadratico medio, che si ottiene con la formula:

sf x x

ni i= ∑ −

−( )2

1

È la misura di dispersione più frequentemente usata; è basata sulla media

sf x x

ni i= ∑ −

−( ) 2

1

Consideriamo 2 serie di valori: 27 28 29 30 31 32 33 15 20 25 30 35 40 45 Queste due serie provengono da due gruppi distinti formati ciascuno da 7 bambini dei quali è stato misurato il peso in chilogrammi. La media di entrambe è 30 (27 + 28 + 29 + 30 + 31 + 32 + 33) / 7 = 30 [1] (15 + 20 + 25 + 30 + 35 + 40 + 45) / 7 = 30 [2] tuttavia la seconda serie ha un campo di variazione maggiore della prima Range 1 33 - 27 = 6 Range 2 45 - 15 = 30 Per confrontare la dispersione delle due serie possiamo sommare gli scarti di ciascun valore dalla media. Questa somma ci permette di valutare se i valori si allontanano più o meno dal centro.

Scarto dalla media Serie 1 Scarto dalla media Serie 2 27-30 = -3 15-30 = -15 28-30 = -2 20-30 = -10 29-30 = -1 25-30 = -5 30-30 = 0 30-30 = 0 31-30 = 1 35-30 = 5 32-30 = 2 40-30 = 10 33-30 = 3 45-30 = 15 Totale = 0 Totale = 0 Sussiste però un problema: a causa dei segni negativi, la somma degli scarti darà sempre 0. Per ovviare a questo inconveniente possiamo elevare ogni scarto al quadrato, perdendo in tal modo il segno negativo.

Scarto dalla media Serie 1 Scarto dalla media Serie 2 (27-30)2 = 9 (15-30)2 = 225 (28-30)2 = 4 (20-30)2 = 100 (29-30)2 = 1 (25-30)2 = 25 (30-30)2 = 0 (30-30)2 = 0 (31-30)2 = 1 (35-30)2 = 25 (32-30)2 = 4 (40-30)2 = 100 (33-30)2 = 9 (45-30)2 = 225

Totale = 28 Totale = 700

Come ci si poteva aspettare i valori ottenuti per la seconda serie sono più grandi di quelli ottenuti per la prima. Per riportare questi valori ad una grandezza più ragionevole si può calcolarne la media dividendo la somma per 7: troviamo così quella che viene chiamata VARIANZA che è 4 (28/7) per la prima serie e 100 (700/7) per la seconda. Ma per togliere i segni meno abbiamo dovuto elevare al quadrato, quindi avremo dei pesi in chilogrammi al quadrato. Per tornare ad avere una grandezza nella stessa unità della serie originale possiamo fare la radice quadrata della varianza, ottenendo quello che in Italia viene definito SCARTO QUADRATICO MEDIO (e nei paesi anglossassoni è definito DEVIAZIONE STANDARD)

Page 23: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

23

Otteniamo così rispettivamente 2 e 10 Più la deviazione standard è piccola più la serie è vicina alla media , più è grande più la serie ha valori

che si allontanano dalla media.

2.5. Le misure relative alla forma della distribuzione

Queste misure considerano la disposizione dei valori in una distribuzione (rispetto alla curva normale) e quindi l’asimmetria e la forma della distribuzione stessa.

L'Asimmetria (o Skewness) è un indicatore del modo in cui le frequenze si raggruppano sulla curva di

una distribuzione di frequenza: se il suo valore è zero la curva è simmetrica, corrisponde, cioè, alla curva normale e media, mediana e moda coincidono. Se l’indicatore di asimmetria è maggiore di zero si ha una distribuzione asimmetrica a destra (di segno positivo): ciò significa che i casi si raggruppano sulla sinistra della curva e che, nella distribuzione esaminata, la maggior parte dei valori è inferiore alla media. Se, al contrario, l’indicatore di asimmetria è minore di zero si ha una distribuzione asimmetrica a sinistra (di segno negativo), i casi si raggruppano sulla destra della curva e la maggior parte dei valori è superiore alla media. In linea di massima un valore dell’indicatore superiore a 0.8 in valore assoluto (cioè considerato indipendentemente dal segno) segnala una rilevante asimmetria della distribuzione.

Un altro indicatore del tipo di forma della curva di una distribuzione è la Curtosi, che consente di rilevare

se si verifica una maggiore o minore concentrazione di valori intorno alla media. La distribuzione di certe variabili può essere più alta e più stretta: questa forma indica che la varianza è piccola in quanto vi è un’alta concentrazione di valori intorno alla media; in questo caso la media è molto rappresentativa (in quanto la dispersione intorno ad essa è minima) e la curva viene definita leptocurtica (dal greco lepto = sottile). La curva che ha una dispersione di osservazioni intorno alla media “normale” è simile alla curva normale e viene definita mesocurtica (dal greco mésos = medio). Una curva larga ed appiattita viene, invece, definita platicurtica (da platys = largo) ed indica una varianza piuttosto grande in quanto si verifica un’elevata dispersione dei valori intorno alla media. Se il valore dell’indicatore è positivo significa che la curva della variabile è leptocurtica, se è 0 la distribuzione è mesocurtica, se è negativo è platicurtica.

Tutti i pacchetti statistici hanno specifiche procedure che consentono di ottenere in modo facile e veloce,

attraverso gli appositi Menu, le distribuzioni di frequenza delle variabili che si vogliono esaminare e le principali statistiche relative all’analisi monovariata. Ad esempio Spss mette a disposizione, nel menu Analizza � Statistiche descrittive, la voce Frequenze che apre una apposita finestra in cui compare, in un riquadro sulla sinistra, l’elenco di tutte le variabili del file che si sta analizzando. Selezionando le variabili che si vogliono analizzare se ne può, così, ottenere velocemente la distribuzione di frequenza e, agendo sul pulsante specifico, se ne possono avere le relative statistiche e/o i grafici.

Finestra “Frequenze” di Spss Windows

Page 24: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

24

2.6. La rappresentazione grafica

Oltre che per mezzo delle tavole di frequenza le informazioni possono essere rappresentate anche in

forma grafica: proprio per le distribuzioni di frequenza il vecchio detto “un’immagine vale più di mille parole” si dimostra assai spesso veritiero in quanto un grafico è in grado di sintetizzare un gran numero di cifre. Fra i grafici più usati ricordiamo il diagramma a barre, l’istogramma, il grafico a torta (o diagramma circolare.

Consideriamo ad esempio la variabile “Tipo di diploma” di cui abbiamo già visto la distribuzione di frequenza: con l’aiuto del programma Spss possiamo ottenere un grafico riassuntivo che consente di cogliere immediatamente le informazioni desiderate:

Il diagramma a barre, come quello qui mostrato, viene usato per la rappresentazione grafica di variabili

misurabili a livello di scala nominale o ordinale: esso è costituito da una serie di rettangoli9 (barre) il cui numero è determinato dal numero delle modalità e la cui altezza è direttamente associata alla frequenza di ciascuna modalità. Si può scegliere di costruire il grafico sulla base delle frequenze assolute o sulle percentuali (come nell’esempio). Questo tipo di diagramma è uno dei più semplici e dei più usati e può essere presentato con le barre poste in modo verticale od orizzontale.

9 Attualmente tutti i package statistici consentono la costruzione di grafici bidimensionali o tridimensionali come questo dell’esempio.

TIPO DI DIPLOMA

ALTRO DIPLOMA

PERITO

GEOMETRA

RAGIONIERE

MAT.ARTISTICA

LICEO LINGUIST.

DIPL.MAGISTR.

MAT.SCIENTIFICA

MAT.CLASSICA

Per

cent

40

30

20

10

0 3

20

4

22

7

4

30

9

Page 25: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

25

Anche il diagramma a torta viene usato per variabili nominali od ordinali: il cerchio, la torta, rappresenta la totalità dei casi esaminati ed ogni settore, ogni porzione di torta, è associato alla frequenza di una modalità. Poiché si avranno, quindi, tanti settori quante sono le modalità della variabile, questo tipo di diagramma è più adatto a rappresentare variabili con non più di sei o sette modalità:

Per le variabili metriche il grafico più adeguato è l’istogramma: esso può assomigliare, a prima vista ad

un diagramma a barre ma fra i due vi è una differenza sostanziale: i rettangoli dell’istogramma sono disposti in modo contiguo, senza il minimo spazio intermedio, in quanto servono ad illustrare variabili continue, anche se sono state create (dal ricercatore o dal programma) delle classi. Queste possono essere più o meno ampie e, abitualmente, vengono costruite in modo da presentare tutte la stessa ampiezza. Spss, ad esempio, raggruppa automaticamente i valori in intervalli di cui mostra il punto medio e, a richiesta, sovrappone

all’istogramma dei dati del campione che si sta analizzando la curva normale, consentendo in tal modo di controllare immediatamente quanto la distribuzione della variabile esaminate si avvicini o differisca da quella “normale”. 3. L’analisi bivariata

L’osservazione dei comportamenti sociali o individuali permette di constatare come essi, spesso, non

siano indipendenti tra loro: si nota che fra i diversi fenomeni osservati esistono determinate associazioni o relazioni. Il trovarsi di fronte ad un certo numero di avvenimenti o comportamenti diversi porta a domandarsi se esista una relazione fra di essi, se siano, cioè, legati fra loro: non ci si può, quindi, accontentare di esaminarli singolarmente ma si cerca di individuare l’esistenza di relazioni che li uniscano. Quindi per quanto l’analisi monovariata sia importante e, almeno inizialmente, indispensabile, l’interesse maggiore del ricercatore sociale si rivolge allo studio delle relazioni fra variabili: molto spesso, del resto, le stesse ipotesi di ricerca si esprimono appunto in questa forma. Si procede, pertanto, ad effettuare quella che viene definita

Titolo di studio del padre

19.7%

30.0%

36.9%

13.5%elementari

medie

superiori

laurea

E T A '

5 0 . 0

4 7 . 5

4 5 . 0

4 2 . 5

4 0 . 0

3 7 . 5

3 5 . 0

3 2 . 5

3 0 . 0

2 7 . 5

2 5 . 0

2 2 . 5

2 0 . 0

3 0 0

2 0 0

1 0 0

0

S td . D e v = 4 . 8 6

M e a n = 2 5 . 3

N = 8 1 4

Page 26: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

26

“analisi bivariata”: essa può avere obiettivi meramente descrittivi o, come accade più frequentemente, avere finalità esplicative che consistono nell’analisi delle relazioni causali fra due variabili, una indipendente e una dipendente.

Nella ricerca sociale, dove le variabili sono di tipo prevalentemente qualitativo, uno dei metodi più diffusi per procedere a questo tipo di analisi è la costruzione delle tavole di contingenza (dette anche incroci, tabelle a doppia entrata o tabulazioni incrociate). Si tratta di tabelle in cui, in uno spazio bidimensionale, vengono presentate le combinazioni delle categorie di due variabili, “incrociate” fra loro, e che ne mostrano, quindi, simultaneamente, le variazioni. In una tavola di contingenza a due variabili si hanno due assi, uno orizzontale ed uno verticale: sul primo sono riportate le categorie della variabile che formerà le colonne della tabella, sul secondo le categorie della variabile che formerà le righe. La dimensione di una tavola di questo tipo è data dal numero delle variabili che la compongono, indipendentemente dal numero delle categorie: una tavola che prende in considerazione una sola variabile (come si è visto nell’analisi monovariata) è “ad una dimensione”, una tavola che comprende due variabili è “a due dimensioni” ed è quella usata nell’analisi bivariata.

Nell’analisi multivariata si studiano tavole a k dimensioni, dove k è un qualunque numero superiore a due. Elemento fondamentale delle tabelle di contingenza sono le “celle”: esse sono formate dall’intersezione

d’una riga e d’una colonna; il numero di celle è uguale al prodotto del numero di righe e di colonne (r × c). La distribuzione delle osservazioni nelle celle determina la struttura dei dati ed è compito dell’analisi descriverla ed analizzarla.

Generalmente l’analisi statistica bivariata si può riassumere secondo la formula: la variabile A è associata alla variabile B (oppure A è in relazione con B): questa concomitanza viene definita co-occorenza quando le variabili sono di tipo qualitativo, correlazione quando le variabili sono quantitative (categoriali).

Si consideri un esempio di “incrocio” fra due variabili qualitative quali l’eventuale attività lavorativa degli studenti di Scienze Politiche di Torino ed il loro tipo di diploma (ricodificato in “maturità liceale” ed altro tipo di diploma); si può ipotizzare una relazione di causa - effetto: l’aver seguito studi liceali (variabile indipendente “Tipo di diploma”) può influire sul fatto di essere studenti a tempo pieno o lavorare, saltuariamente o in modo continuativo (variabile dipendente “Attività lavorativa”).

Se si usa un qualsiasi package statistico, ottenere una tavola di contingenza è molto semplice: ogni programma mette a disposizione una procedura che consente di incrociare fra loro due (o più) variabili.

In Spss Windows si può, usando il menu, selezionare le voci: Analizza � Statistiche descrittive �Tavole di contingenza e richiedere, dall’interno della specifica finestra di lavoro (cfr. grafico) le tabelle desiderate, con le

relative statistiche. Grafico Finestra di menu (SpssWindows) per il calcolo delle tavole di contingenza

Page 27: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

27

L’esecuzione del comando produce un output contenente la tabella richiesta e tutte le statistiche specificate (cfr. grafico)

Grafico . - Tabella a doppia entrata: output della procedura Tavole di contingenza

Poiché gli incroci vanno letti nella direzione causa→effetto10

, avendo posto la variabile considerata

‘indipendente’11 TIPODIP per colonna, sono state richieste, appunto, le percentuali per colonna. Si vede così che oltre il 61% degli studenti in possesso di diploma liceale, non lavora o fa solo lavori saltuari, mentre il 39% circa ha un lavoro stabile. Degli studenti con altro tipo di diploma il 38% non lavora o lo fa occasionalmente mentre il 62% ha un impiego stabile. Va ricordato, tuttavia, che le percentuali, considerate da sole, non tengono conto dell’insieme dei dati: dire, perciò, che il 62.3% dei non-liceali ha un lavoro stabile corrisponde solo ad un esame parziale della tabella, in quanto, se ci si limita a tale affermazione, non si tiene conto del complesso dei casi considerati. Un metodo migliore di lettura della tabella è dunque quello di non limitarsi ad asserire che il 61% degli ex-liceali non lavora ma confrontare questa percentuale (di colonna) con il totale di riga relativo agli intervistati che studiano a tempo pieno, totale marginale che corrisponde alla media degli studenti che non lavorano o lo fanno solo occasionalmente. Questo metodo di

lettura viene definito “dello scarto dall’indipendenza”12: si tratta infatti di verificare se le due percentuali sono uguali fra loro (nel qual caso si potrebbe asserire che fra tipo di diploma ed attività lavorativa non vi è relazione e le due caratteristiche sono fra loro indipendenti) o se invece differiscono. Qualora si riscontri una differenza fra la percentuale di colonna ed il totale di riga (come nel caso dell’esempio) si può procedere ad un’ulteriore analisi, misurando tale differenza e controllando se si tratta di uno scarto positivo o negativo: nel primo caso si potrà affermare di avere uno scarto positivo dall’indipendenza, un’“attrazione positiva” fra riga e colonna (nell’esempio si ha un 61% di liceali che studiano a tempo pieno su una percentuale complessiva di non lavoratori pari a poco più del 48%). Nel caso la percentuale di colonna risultasse inferiore alla percentuale media di riga, si verificherebbe una “attrazione negativa”, un deficit rispetto all’indipendenza.

3.1. La lettura del chi-quadrato

Una prima lettura della tabella è già stata sufficiente ad indurci a pensare che tra le due variabili esista, effettivamente, una relazione: gli studenti di estrazione liceale sono studenti a tempo pieno in misura maggiore dei compagni con altro tipo di diploma e fra le due caratteristiche esiste un’attrazione positiva. Per

10. cfr. H. Zeisel, Ditelo con i numeri, Marsilio, Bologna, 1968, pp. 53-63. 11. Se si pongono in relazione due variabili è detta indipendente la variabile che può provocare mutamenti nell'altra ma non può esserne influenzata; viene, invece, detta dipendente la variabile che può venir influenzata ma non può a sua volta condizionare la variabile con cui è posta in relazione. 12. Cfr. J.P. Benzécri, L'analyse des données, Paris, Dunod, 1973

ATTIVRIC Eventuale attività lavorativa * TIPODIP Tipo di diploma

228 168 396

61.3% 38.0% 49%

144 274 418

38.7% 62.0% 51%

372 442 814

100.0% 100% ****

Conteggio

% entroTIPODIP Tipodi diploma

Conteggio

% entroTIPODIP Tipodi diploma

Conteggio

% entroTIPODIP Tipodi diploma

1 no/lavori saltuari

2 lavoro stabile

ATTIVRIC Eventuale attivitàlavorativa

Totale

1 liceali

2 nonliceali

TIPODIP Tipo didiploma

Totale

Page 28: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

28

testare in maniera più analitica l’influenza che l’estrazione liceale sembra avere sull’attività lavorativa durante gli studi universitari e poter affermare che la relazione individuata non è casuale, si può usare un particolare test di indipendenza: il chi-quadrato che, partendo dall’ipotesi di indipendenza delle due variabili, opera sulle percentuali marginali. Se le due variabili fossero indipendenti si dovrebbero trovare, nelle celle, valori che dipendono unicamente dai valori totali marginali.

Il test chi-quadrato (χ2) è uno dei test che, calcolando la differenza tra frequenze osservate e frequenze attese, aiuta a determinare se esista una relazione sistematica fra due variabili. La sua formula è:

χ22

= −Σ ( )f f

fo e

e

dove fo è la frequenza osservata in ciascuna cella ed fe è la frequenza attesa: il chi-quadrato, dunque, è dato

dalla sommatoria della differenza tra frequenze osservate e frequenze attese, al quadrato, fratto le frequenze attese.

Come si può vedere dalla formula, il valore del chi quadrato risulta tanto più grande quanto maggiore è la differenza tra frequenze attese e frequenze osservate.

Se non c’è relazione fra due variabili di un campione allora ogni deviazione dai valori attesi che si verifica in una tabella basata su di un campione casuale è dovuta al caso. Ora, mentre delle piccole differenze possono ragionevolmente essere dovute al caso, è improbabile che lo siano valori di chi-quadro abbastanza grandi. Poiché la relazione esistente fra le due variabili nella popolazione madre, o universo, non è conosciuta, si considera che non esista relazione fra due variabili quando il valore del chi-quadrato è piccolo (in questo caso si parla di indipendenza statistica). Al contrario un valore di chi-quadrato grande implica l’esistenza di una relazione sistematica fra le variabili stesse. Per determinare se esiste una relazione sistematica è necessario determinare la probabilità di ottenere un valore di chi-quadro uguale o più grande di quello calcolato dal campione quando le variabili sono realmente indipendenti e questo dipende, almeno in

parte, dai gradi di libertà13. I gradi di libertà variano con il numero di righe e di colonne: in una tabella vengono calcolati moltiplicando il numero di righe meno 1 per il numero di colonne meno 1. La loro importanza è data dal fatto che la probabilità di ottenere uno specifico valore di chi-quadro dipende dal numero di celle della tavola. Nell’esempio si ha un chi-quadro di 48.843: la probabilità di ottenere, per il solo effetto del caso, un valore uguale o superiore con 1 grado di libertà è dello 0.000, cioè meno di 1 volta su 1000.

Questa probabilità viene anche definita livello di significatività: se è molto piccola (normalmente meno di 0.05 o di 0.01) l’ipotesi che le due variabili siano indipendenti può essere rifiutata. Spss, quando viene richiesto il calcolo del chi-quadrato, fornisce il valore calcolato del test, i gradi libertà e la probabilità (o livello di significatività).

L’output fornito dal programma Spss Windows, avendo selezionato Chi-quadrato per la tabella dell’esempio è il seguente:

Come si vede, il livello di significatività è sufficientemente basso da permettere di respingere l’ipotesi

nulla di indipendenza delle due variabili considerate.

13. Si definiscono gradi di libertà i valori in un campione che, nel calcolo di una statistica, sono liberi di variare.

Chi-quadrato

43.826b 1 .000

42.899 1 .000

44.208 1 .000

.000 .000

43.772 1 .000

814

Chi-quadrato di Pearson

Correzione di continuità a

Rapporto diverosimiglianza

Test esatto di Fisher

Associazionelineare-lineare

N. di casi validi

Valore dfSig. asint.

(2 vie)Sig. esatta

(2 vie)Sig. esatta

(1 via)

Calcolato solo per una tabella 2x2a.

0 celle (.0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimoè 180.97.

b.

Page 29: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

29

ALCUNI CENNI DI STATISTICA

Per una migliore comprensione del test del χ 2 diamo qualche nozione statistica su cos’è e su come si

calcola. Si tratta di un test d’indipendenza: misura lo scarto fra le frequenze attese (dette anche teoriche) e le frequenze osservate. Si calcola, come prima accennato, con la formula:

a

ao

f

ff 22 )( −Σ=χ

Le frequenze attese (o teoriche) corrispondono al numero di individui che dovrei teoricamente ritrovare in ogni cella se le variabili fossero totalmente indipendenti. La formula per calcolarle è la seguente

casi dei totaleNumero colonna Totale rigaTotale ×=f a

Consideriamo l’incrocio fra il Tipo di diploma dell’intervistato e l’eventuale Attività lavorativa

Tavola di contingenza TIPODIP * ATTLAV

144 82 146 372

106 60 276 442

250 142 422 814

Conteggio

Conteggio

Conteggio

1 LICEO

2 ALTRO DIPLOMA

TIPODIP

Totale

1 NONLAVORA

2 LAVOROOCCASION.

3 LAVOROSTABILE

ATTLAV

Totale

Per calcolare le frequenze attese della cella 1-1 (liceo-non lavora) dovrò moltiplicare 372 (totale di riga) per 250 (totale di colonna) e dividere il risultato per 814 (numero totale dei casi, ottenendo 114,3. Stesso calcolo per tutte le celle.

Cella 1-1 372 X 250 / 814 = 114,3 Cella 1-2 372 X 142 / 814 = 64,9 Cella 1-3 372 X 422 / 814 = 192,9 Cella 2-1 442 X 250 / 814 = 135,7 Cella 2-2 442 X 142 / 814 = 77,1 Cella 2-3 442 X 422 / 814 = 229,1 Per meglio comparare frequenze osservate e frequenze attese costruiamo una tabella che le mostri entrambe

Tavola di contingenza TIPODIP * ATTLAV

144 82 146 372

114.3 64.9 192.9

106 60 276 442

135.7 77.1 229.1

250 142 422 814

Conteggio

Conteggio

Conteggio

1 LICEO

2 ALTRODIPLOMA

TIPODIP

Totale

1 NONLAVORA

2 LAVOROOCCASION.

3 LAVOROSTABILE

ATTLAV

Totale

(144-114.3)2 /114.3 + (82-64.9)2 / 64.9 + (146-192.9)2 / 192.9 + (106-135.7)2/135.7 + (60-77.1)2 /77.1+ (276-229.1)2/229.1 =

Page 30: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

30

882.9 / 114.3 + 292.41 / 64.9 + 2199.61 / 192.9 + 882.9 / 135.7 + 292.41 /77.1+ 2199.61/229.1 =

7.72 + 4.51 + 11.40 + 6.51 + 3.79 + 9.60 = 43.53 χ 2= 43.53

I GRADI DI LIBERTA’ Si definiscono gradi di libertà i valori di un campione che, nel calcolo di una statistica, sono liberi di variare. Per il Chi quadrato si calcolano moltiplicando le righe meno 1 per le colonne meno 1:

gl = (r –1) X (c – 1) Nella tabella precedente che ha due righe e tre colonne, ad esempio, avremo:

gl = (2-1) X (3-1) = 2 i gradi di libertà corrispondono alle frequenze che bisogna conoscere (oltre ai totali marginali) per calcolare le altre frequenze Se nella tabella abbiamo solo due frequenze note (oltre ai marginali) si possono calcolare tutte le altre frequenze. Ad esempio conoscendo solo la frequenza della cella 1-1 (144) e della cella 2-3 (276) :

a. Cella 2-1 = 250 - 144 =106 b. Cella 1-3 = 422 - 276 =146 c. 144 +146= 290 d. Cella 1-2 = 372 - 290 = 82 e.106 + 276 = 382 f. Cella 2-2 442 – 382 = 60

Tavola di contingenza TIPODIP * ATTLAV

Conteggio

144 d. 82 b. 146 372

a. 106 f. 60 276 442

250 142 422 814

1 LICEO

2 ALTRO DIPLOMA

TIPODIP

Totale

1 NONLAVORA

2 LAVOROOCCASION.

3 LAVOROSTABILE

ATTLAV

Totale

Quindi, in realtà, nella tabella solo due frequenze potevano variare (le due conosciute). Tutte le altre, legate ai totali marginali, dipendono da queste due, i 2 gradi di libertà della tabella.

Ora ho il χ 2 = 43,53 e i gradi di libertà = 2

Se il χ 2 trovato supera il numero che si trova sulle Tavole del Chi quadrato (si trovano in ogni libro di

statistica) in corrispondenza dei gradi di libertà calcolati ed alla soglia di significatività scelta (generalmente 0,05) possiamo rifiutare l’ipotesi nulla ( H0 ) di indipendenza delle variabili. Il programma SPSS ci fornisce sia il valore del chi quadrato, sia i gradi di livertà, sia la significatività del test, senza costringerci a ricercarla sulle Tavole: se la significatività è 0.05 o inferiore si può respingere l’ipotesi nulla di indipendenza delle variabili.

Tavola di contingenza TIPODIP * ATTLAV

144 372

276 442

250 142 422 814

Conteggio

Conteggio

Conteggio

1 LICEO

2 ALTRO DIPLOMA

TIPODIP

Totale

1 NONLAVORA

2 LAVOROOCCASION.

3 LAVOROSTABILE

ATTLAV

Totale

Page 31: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

31

Misure di associazione

Il Chi-quadrato aiuta il ricercatore a decidere se le variabili considerate siano o meno indipendenti fra

loro, ma non dice nulla rispetto alla forza della relazione esistente. Ciò è dovuto al fatto che questo test è influenzato dalla grandezza del campione e dall’ampiezza della tabella. Vi sono alcune misure di associazione che, pur basandosi su chi-quadrato, sono in grado di minimizzare l’influenza dei gradi di libertà e dell’ampiezza del campione: i risultati di questi test variano, generalmente, da 0 a +1 (un coefficiente 0 indica indipendenza, un coefficiente +1 una relazione massima fra le variabili).

Queste misure del grado di associazione servono per minimizzare i due diversi tipi di errore in cui si può incorrere nell’analisi statistica. L’errore di I tipo o αααα, che consiste nel respingere come falsa l’ipotesi nulla quando essa è vera; l’errore di II tipo o ββββ consiste nell’accettare come vera l’ipotesi nulla quando essa è falsa.

Fra le numerose misure di associazione che SPSS mette a disposizione dell’utente consideriamo, in dettaglio, il Phi e la V di Cramer.

Il coefficiente Phi è dato dalla radice quadrata del rapporto fra chi-quadro e numero dei casi:

PhiN

= χ 2

Poiché questo coefficiente può assumere valori maggiori di 1 per tabelle non quadrate, cioè con dimensioni superiori a 2x2, per tavole più ampie si usa la V di Cramer. La formula per ottenere questo coefficiente è:

)1(

2

−=

kNV

χ

dove k è uguale a (righe -1) oppure a (colonne - 1) a seconda di quale dei due valori risulti minore.

Nella tabella dell’esempio l’output della richiesta dei due coefficienti è la seguente:

Misure simmetriche

.231 .000

.231 .000

814

Phi

V di Cramer

Nominale pernominale

N. di casi validi

Valore Sig. appross.

Più il valore del coefficiente è elevato, più è forte il legame fra le variabili Per la V di Cramer abbiamo V < 0,10 troppo debole V tra 0,10 e 0,39 accettabile ma debole V ≥ 0,40 moderata V ≥ 0,75 forte

Un esempio dell’output determinato dalla richiesta del coefficiente V di Cramer è la seguente:

Page 32: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

32

Nell’esempio si può rifiutare l’ipotesi nulla ed affermare che, fra le due variabili, vi è effettivamente dipendenza e di livello accettabile.

Il test Gamma

Per variabili a scala ordinale si possono usare altri tipi d test, che prescindono dal calcolo del χ 2 . Uno

fra i più usati è il Gamma: una statistica basata sull’ordine relativo delle variabili. Il Gamma misura la forza di associazione fra coppie di variabili ordinate: il suo calcolo comporta la valutazione sistematica di tutte le coppie di osservazioni possibili presenti nella tavola di contingenza in esame e, precisamente a) la determinazione del numero totale di coppie concordanti dissimili b) la determinazione del numero totale di coppie discordanti dissimili. Una coppia di osservazioni è concordante quando una delle due è superiore all’altra in entrambe le variabili

Fiducia sindacati Fiducia grandi imprese Nessuna Solo un po’ Molta Tot. Freq.assolute (Count) Molta 52 140 163 355 Solo un po’ 131 219 53 403 Nessuna 55 54 57 166 Totale 238 413 273 924 Per esempio un intervistato che ha molta fiducia tanto nelle grandi imprese quanto nei sindacati occupa una posizione superiore a quella di un intervistato che non ha alcuna fiducia in entrambe le istituzioni. Una coppia di osservazioni è discordante, invece, quando una delle due è superiore all’altra in una variabile, ma inferiore nella seconda variabile. Ad es. uno dei membri della coppia ha molta fiducia nelle imprese ma poca nei sindacati, mentre l’altro ha poca fiducia nelle imprese ma molta nei sindacati la formula di Gamma è

QPQP

+−

dove P sono le coppie concordanti e Q le coppie discordanti. Se il Gamma è positivo significa che le coppie concordanti sono più numerose delle discordanti (associazione positiva), viceversa se il segno è negativo (associazione negativa) Nel caso della nostra tabella il Gamma è 0.31: questo valore suggerisce che fra la fiducia nelle grandi imprese e quella nei sindacati esiste un’associazione positiva accettabile ma non forte.

Qui di seguito viene riportato un elenco delle misure di associazione che è possibile richiedere tramite il programma:

� Statistiche per variabili di tipo nominale:

Coefficiente di contingenza Phi e V di Cramer

Misure simmetriche

.232 .000

.232 .000

814

Phi

V di Cramer

Nominale pernominale

N. di casi validi

ValoreSig.

appross.

Senza assumere l'ipotesi nulla.a.

Viene usato l'errore standard asintotico in baseall'assunzione dell'ipotesi nulla.

b.

Page 33: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

33

Lambda (fornisce il Lambda simmetrico e asimmetrico ed il tau di Goodman e Kruskal) Coefficiente di incertezza (simmetrico e asimmetrico)

���� Statistiche per variabili ordinali: Gamma d di Somers tau-b di Kendall tau-c di Kendall

• Coefficienti di correlazione di Pearson e di Spearman: Per tabelle in cui sia le righe che le colonne contengano valori ordinati, l'opzione Correlazioni calcola il coefficiente di correlazione di Spearman, rho . Il coefficiente rho di Spearman è una misura di associazione tra punteggi di rango. Se entrambe le variabili delle tabelle sono quantitative, l'opzione Correlazioni calcola il coefficiente di correlazione di Pearson, r, una misura dell'associazione lineare tra le variabili.

• Kappa di Cohen: valida solo per tabelle quadrate in cui i valori di riga e di colonna siano identici. Serve, ad esempio, per valutare la concordanza di due stimatori.

• Coefficiente di rischio (calcolato solo per le tavole 2x2).Consente di ottenere la valutazione del coefficiente di rischio e il rapporto odd.

• McNemar: il test di McNemar è un test non parametrico che si calcola in presenza di due variabili dicotomiche correlate. Consente di verificare le variazioni della risposta utilizzando la distribuzione del chi-quadrato. È particolarmente utile per individuare le variazioni della risposta in disegni sperimentali del tipo 'prima e dopo'.

• Eta: è una misura di associazione adeguata quando si analizza una variabile dipendente a intervalli ed una variabile indipendente categoriale (con un limitato numero di categorie). Eta varia fra 0 ed 1, è asimmetrica e non assume una relazione lineare fra le variabili.

3. Rappresentazione grafica di una tabella di contingenza

Con l’aiuto di un qualunque package statistico è anche possibile costruire un grafico relativo all’incrocio

di due variabili. In Spss Windows, ad esempio, il menu Grafici consente di creare facilmente e velocemente il grafico relativo alla tavola di contingenza precedentemente illustrata.

Eventuale attività lavorativa

lavoro stabileno/lavori saltuari

Per

cent

uale

70

60

50

40

30

20

10

0

Tipo di diploma

liceali

non liceali

62

38 39

61

Page 34: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

34

4. Confronto fra le medie

Un interessante metodo di analisi di coppie di variabili, quando il livello di misurazione della variabile

dipendente è, almeno, ad intervalli, mentre la variabile indipendente è nominale, ordinale o dicotomica, è dato dalla procedura Comparazione delle medie. Questa procedura è molto simile alla Tavola di contingenza ma in essa vengono calcolate misure quali la media, la varianza e la deviazione standard della variabile dipendente, rispetto alle categorie della variabile indipendente.

Se, ad esempio, si volesse analizzare il diverso comportamento degli studenti rispetto all’età di iscrizione alla facoltà di Scienze Politiche a seconda dell’attività lavorativa, si potrebbe, appunto, usare questo tipo di procedura. Avendo a disposizione, ad esempio, la variabile ETASCPOL relativa all’età in cui gli studenti si sono iscritti alla facoltà: l’età media all’iscrizione della popolazione complessiva del campione risulta essere di 20,25 anni, ma l’ipotesi è che essa differisca se gli intervistati sono studenti a tempo pieno oppure hanno un lavoro stabile. Per verificare questa ipotesi si può, dunque, usare la procedura Confronta medie.

Per attivarla in Spss Windows è sufficiente selezionare da menu: Statistica ⇒ Confronta medie ⇒ Medie.

L’output di questa procedura, per l’esempio fatto, con la scelta della variabile Età di iscrizione a Scienze Politiche come dipendente ed Eventuale attività lavorativa come indipendente si presenta come segue:

Come si vede il programma fornisce la descrizione della popolazione: viene data la media, la deviazione standard ed il numero dei casi dell’“Età al momento dell’iscrizione a Scienze Politiche”, separatamente per ogni sottogruppo della variabile “Eventuale attività lavorativa” e per la popolazione complessiva. Si può in tal modo constatare, ad esempio, (rispetto all’età media normale di iscrizione all’università che può essere considerata di 19/20 anni) gli studenti di Scienze Politiche si iscrivono, complessivamente, in ritardo, cioè dopo i 21 anni. Questo però è solo il dato generale in quanto, grazie alla procedura che consente di analizzare meglio il campione, si può vedere come siano gli studenti che hanno un lavoro stabile ad alzare l’età media di iscrizione. Mentre infatti gli studenti che lavorano a tempo pieno si sono iscritti, in media, alla facoltà a 23 anni circa (quando cioè uno studente tradizionale sta per terminare il corso di studi) quanti non lavorano o hanno solo attività saltuarie, sono quasi in regola con la normale età di iscrizione.

La richiesta dell’analisi della varianza, opportunamente richiesto, fornendo il test F e la sua significativi-tà, consente al ricercatore di respingere l’ipotesi nulla dell’uguaglianza delle medie.

L’ANALISI DELLA VARIANZA

OLTRE ALLE TAVOLE DI CONTINGENZA ED ALLA COMPARAZIONE FRA LE MEDIE ESISTONO ALTRE TECNICHE DI ANALISI BIVARIATA, AD ESEMPIO L’ANALISI DELLA VARIANZA. Questa tecnica (che già abbiamo considerato e utilizzato come opzione parlando del confronto fra le medie) calcola la relazione di dipendenza fra due variabili ma impone maggiori restrizioni degli incroci. Si può usare quando la dipendente è quantitativa, misurabile a livello di intervalli o di rapporti. Questo determina una minore applicabilità nella investigazione sociale, in cui predominano le variabili qualitative (categoriali). LA SUA FINALITA’ E’ PROVARE L’ESISTENZA DI DIFFERENZE FRA I GRUPPI (CATEGORIE) FORMATI DA UNA VARIABILE INDIPENDENTE CATEGORIALE (ES. Titolo di studio, Eventuale attività

ETASCPOL

20.2480 250 1.6606

19.9296 142 1.4324

22.7368 418 4.3130

21.4765 810 3.5358

ATTIVRIC1 NESSUNA

2 SALTUARIA

3 STABILE/CONTINUAT.

Totale

Media NDeviazione

std.

Page 35: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

35

lavorativa, ecc.), RISPETTO AD UN’ UNICA VARIABILE DIPENDENTE CARDINALE. PERCIO’ SI USA UNA VARIABILE INDIPENDENTE, IN FUNZIONE DELLA QUALE SI FORMANO GRUPPI DISTINTI DI TRATTAMENTO. Costituiti i gruppi, si verifica la media di ogni gruppo rispetto alla variabile dipendente : SE SI OSSERVANO DIFFERENZE FRA LE MEDIE DEI GRUPPI SI PROCEDE ALLA COMPARAZIONE DELLA VARIANZA DEI GRUPPI E SE NE MISURA LA SIGNIFICATIVITA’. Se la VARIANZA FRA I GRUPPI supera LA VARIANZA ALL’INTERNO DEI GRUPPI significa che si verifica una maggiore eterogeneità fra i gruppi a fronte di una scarsa variabilità all’interno di essi e pertanto si può affermare che esiste una differenza fra i gruppi. LA SIGNIFICATIVITÀ si verifica con test statistico F [se si hanno più di due gruppi o con il t (che è la radice quadrata di F) se i gruppi sono solo due). Come per qualunque prova di significatività si paragonano i valori empirici (“t” e “F”) con quelli teorici (che troviamo nelle corrispondenti tavole t di Student e F di Fisher). Si fissa un livello di significatività in funzione della precisione che il ricercatore vuole avere per la sua stima (generalmente 0,05) e si calcolano i gradi di libertà [per la somma dei quadrati fra i gruppi i gradi di libertà corrispondono al numero dei gruppi meno 1(k-1) e per la somma dei quadrati all’interno dei gruppi al numero dei casi del campione meno i gruppi (N-k). Se il valore empirico supera quello teorico la differenza dei gruppi acquista significatività statistica ed è possibile generalizzare. ESEMPIO DI CALCOLO DELL’ANALISI DELLA VARIANZA

Un esperto di comunicazione deve preparare la campagna elettorale per un candidato. Prepara 3 diversi tipi di programmi elettorali e sottopone ognuno di questi programmi a 5 diversi gruppi di elettori, ottenendo così 15 diversi indici di gradimento i cui risultati sono riportati nella tabella. Si vuole conoscere il gradimento medio per ogni tipo di programma e individuare il programma più gradito agli elettori.

PROG1 PROG2 PROG3 86 77 80 79 75 75 83 69 73 85 74 64 76 71 76

Medie: 81.8 73.2 73.6

1. Si calcolano le medie dell’indice di gradimento per i 3 Programmi 2. Si calcola la Media generale (o gran media) = 76.2 3. Si calcolano gli scarti di ogni indice di gradimento rispetto alla gran media e si elevano al quadrato:

∑ ∑ −i j

ij XX 2)(

(es. 86-76.2=9.8 ; (9.8)2 = 96.04)

96.04 0.64 14.44 7.84 1.44 1.44 46.24 51.84 10.24 77.44 4.84 148.84 0.04 27.04 0.04 ΣΣΣΣ 227.60 85.8 175.00 Si calcola la somma totale dei quadrati (227.6+85.8+175) che è 488.4 La somma totale dei quadrati è detta DEVIANZA TOTALE .

SSTO = 488.4 = DEVIANZA TOTALE

Page 36: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

36

La DEVIANZA TOTALE può essere scomposta in due parti devianza tra gruppi e devianza entro i

gruppi (o residua)

DEVIANZA TOTALE = DEVIANZA TRA GRUPPI + DEVIANZA ENTRO I GRUPPI

SSTO = SSB + SSW

Per calcolare la DEVIANZA ENTRO I GRUPPI (o Somma dei quadrati all'interno dei gruppi within groups) si applica la formula

∑∑ −=i j

ij XXSSW 2)(

Si calcolano, cioè, gli scarti di ogni valore rispetto alla media del suo gruppo e li si eleva al quadrato

ES. 86 - 81.8(media gruppo 1) = 4.2, (4.2)2 = 17.64

17.64 14.44 40.96 7.84 3.24 1.96 1.44 17.64 0.36 10.24 0.64 92.16 33.64 4.84 5.76 Σ 70.8 40.8 141.2 SSW = 252.8 La DEVIANZA TRA GRUPPI ( somma dei quadrati fra i gruppi (between)) è data dalla

DEVIANZA TOTALE MENO LA DEVIANZA ENTRO I GRUPPI

(Somma totale dei quadrati meno la somma dei quadrati all'interno dei gruppi): SSB = SSTO-SSW = 488.4 - 252.8 = SSB=235.6 Le VARIANZE vengono calcolate dividendo le devianze per i rispettivi gradi di libertà: per la DEVIANZA FRA I GRUPPI i gradi di libertà sono dati da k-1 (dove k = numero dei gruppi)

varianza fra i gruppi = devianza fra i gruppi diviso i gradi di libertà

MSB= SSB/(k-1) = SSB/2 = 235.6/2= 117.8

per la DEVIANZA ENTRO I GRUPPI i gradi di libertà sono dati da N – k (N=numero totale dei casi e k= numero dei gruppi)

varianza entro i gruppi = devianza entro i gruppi diviso i gradi di libertà

MSW=SSW/(N-k) = SSW/12 = 252.8/12 = 21.06667

La significatività si verifica con il test statistico F che è dato dal rapporto fra la varianza tra i gruppi e la varianza entro i gruppi. F = MSB/MSW = 117.8/21.06 = 5.59 Se F è superiore al valore dell’F critico in corrispondenza ad un livello prefissato di probabilità (generalmente 0,05) e ai gradi di libertà delle due varianze, allora potremo reespingere l’Ipotesi nulla H0 : µ1 = µ2 ... µk

Page 37: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

37

ed accettare l’Ipotesi alternativa H1 : almeno una µj maggiore delle altre Si controlla, sulle tavole, in base ai gradi di libertà, il valore F trovato con il valore F delle tavole, detto F critico. Se l’F trovato è maggiore o uguale all’ F critico, possiamo rifiutare l'ipotesi nulla (H0), se è minore dobbiamo accettarla e dire che tutte le medie sono uguali. La procedura SPSS ANOVA univariata

Riassumendo abbiamo visto che l’analisi della varianza è una tecnica di misurazione della significatività statistica della differenza fra medie. Quando la differenza deve essere calcolata solo fra due valori medi può essere usato il t test, il quale rappresenta, si potrebbe dire, un particolare caso di analisi della varianza, in quanto può essere applicato solo a coppie di distribuzioni. L’analisi della varianza può, invece, essere usata per testare l’ipotesi nulla che le medie di tre o più popolazioni siano uguali. Questa tecnica statistica consiste nell’esaminare la varianza del gruppo riferita alla media del gruppo stesso e la varianza fra i gruppi riferita alla media del campione complessivo: le conclusioni circa le medie della popolazione sono basate su queste due varianze stimate. Perché possa essere usato, questo tipo di analisi comporta alcune fondamentali ipotesi di base: • La misurazione delle variabili deve essere a livello di intervalli o di rapporti. • La distribuzione della popolazione deve essere normale. • Le varianze dei gruppi nella popolazione devono essere omogenee (cioè si postula che le distribuzioni

della variabile dipendente all’interno delle categorie della variabile indipendente abbiamo la stessa varianza (condizione che gli statistici definiscono omoschedasticità).

• I campioni devono essere casuali e indipendenti, come anche i soggetti, in ciascun gruppo considerato (in altre parole nelle categorie della variabile indipendente non devono esserci gli stessi soggetti ).

Per usare l’analisi della varianza ad una via (l’analisi avviene rispetto a gruppi definiti in base ad una determinata variabile fattore) il ricercatore deve selezionare:

Analyse Compare Means One-Way ANOVA

In tal modo si apre una finestra in cui va selezionata, dalla lista nel riquadro a sinistra, la variabile indipendente: se la variabile è Numero di corsi frequentati (FREQANNO) la si seleziona e si fa clic sulla freccia [] posta accanto al riquadro Dependent List. Si seleziona anche la variabile che dovrà determinare i gruppi, nell’esempio ATTIVRIC, e la si sposta sotto Factor. Se non si desiderano opzioni o statistiche particolari facendo clic su OK si manda in esecuzione la procedura.

Nella parte inferiore della finestra One-Way ANOVA vi sono tre pulsanti: Contrast, Post-Hoc ed Options.

L’analisi della varianza indica se esiste una differenza fra le medie dei tre gruppi di rispondenti, ma non dove questa, eventualmente, si verifichi: non spiega se il gruppo 1 sia differente dal gruppo 2 e dal gruppo 3, oppure il gruppo 2 differisca da entrambi gli altri gruppi. La risposta a questi quesiti può essere ottenuta confrontando le medie dei sottogruppi per mezzo di due tipi di procedure. Il primo tipo è riferito a previsioni fatte “a priori”: il ricercatore potrebbe aver ipotizzato, ad esempio, che il gruppo 3 differisca significativamente dal gruppo 2 ma non dal gruppo 1. Questi confronti possono essere ottenuti facendo clic sul pulsante Contrasts, ma richiedono buone basi sia statistiche che metodologiche (ipotesi forti) e non verranno qui prese in considerazione.

Il secondo tipo di procedure di confronto è costituito dai tests Post hoc, o di comparazione multipla. Per

attivare questi tests bisogna selezionare il pulsante Post-Hoc ed accedere alla relativa finestra: I tests messi a disposizione dal programma sono:

•••• Least-significant difference: equivale all’applicazione di t test multipli fra tutte le coppie di gruppi. •••• Test di Bonferroni: è una modifica del Least-significant difference test. •••• Duncan’s multiple range test: per questo test si può specificare soltanto un livello di significatività di

0.01, 0.05 e 0.10. •••• Student-Newman-Keuls test: la p è di 0.05. •••• Tukey’s honestly significant difference test: la p è di 0.05.

Page 38: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

38

•••• Tukey’s b: la p è di 0.05. •••• Scheffè: questo è un test per confrontare coppie di medie e richiede una grande differenza fra le medie

per essere significativo; la p può avere un valore tra 0 e 1.

Con il pulsante Options, infine, è possibile richiedere il test di omogeneità delle varianze delle popolazioni e l’analisi descrittiva della comparazione delle medie.

Lettura dell’output della procedura One way L’analisi della varianza, come si è visto, testa l’uguaglianza delle medie in base all’assunto che tutte le categorie, gruppi o medie campionarie provengano da un campione casuale di soggetti indipendenti e che derivino dalla stessa popolazione. Se si testa l’uguaglianza delle medie di tre categorie, l’ipotesi nulla si presenta, simbolicamente, in questo modo

H0 1 2 3:µ µ µ= = L’ipotesi alternativa potrebbe essere H1 = non tutte le medie sono uguali; in altri termini, l’ipotesi di ricerca

potrebbe essere che almeno due delle medie differiscano. Riassumendo quanto detto sul calcolo dell’analisi della Varianza ribadiamo che si tratta di un’analisi basata sul confronto di due tipi di varianza dei gruppi del campione: quella fra i gruppi (o somma dei quadrati fra i gruppi) e quella all’interno dei gruppi (o somma dei quadrati all’interno dei gruppi). Il primo passo consiste nell’esaminare la variabilità totale: se infatti si considerano i gruppi come un tutto unico, la variabilità totale (SST= Sum Square Total) può essere calcolata usando la varianza, in base alla formula:

SST x xj

c

i

nj

ij= −

= =∑ ∑

1 1

2( )

dove:

xx

nj

c

iji

n j

= = =∑ ∑

1 1 è la media aritmetica generale;

xij = l’iesima osservazione del gruppo j ;

nj = numero di osservazioni presenti nel gruppo;

n = numero totale di osservazioni; c = numero dei gruppi.

La variazione totale o somma totale dei quadrati SST consente di stimare le differenze esistenti fra ogni valore Xij e la media aritmetica generale x . Ma la somma totale dei quadrati può essere suddivisa fra

variazione o somma dei quadrati fra i gruppi (dato che le medie aritmetiche campionarie dei gruppi spesso non risultano uguali) identificata con SSB (Sum Square between) e variazione o somma dei quadrati all’interno dei gruppi SSW (Sum Square within) in quanto i valori, all’interno di ciascun gruppo sono diversi. Si ha quindi: Somma totale dei quadrati = (somma dei quadrati fra i gruppi) + (somma dei quadrati all’interno dei gruppi) cioè:

SST= SSB + SSW La somma dei quadrati o varianza fra i gruppi è data dal quadrato delle differenze fra la media

aritmetica campionaria di ogni gruppo e la media aritmetica generale, ponderata in base al numero delle osservazioni dei gruppi.

SSB n x xj

j

c

j= −

=∑

1

2( )

dove: nj = numero di osservazioni nel gruppo j

xj = media aritmetica campionaria del gruppo j

x = media aritmetica generale La somma dei quadrati, o varianza, all’interno dei gruppi , si misura, invece, calcolando la differenza

tra ciascun valore e la media aritmetica del gruppo cui esso appartiene e sommando i quadrati di tali differenze per tutti i gruppi.

Page 39: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

39

SSW x xj

c

i

ni

ij j= −

= =∑ ∑

1 1

2( )

dove: xij = iesima osservazione presente nel gruppo j

xj = media aritmetica del gruppo j

Per procedere a questo tipo di analisi è importante il calcolo dei gradi di libertà. Questi, per la somma dei

quadrati fra i gruppi, sono dati da k-1, cioè il numero dei gruppi meno uno. I gradi di libertà per la somma dei quadrati all’interno dei gruppi sono, invece, dati da N-k, cioè dal numero dei casi di tutti i gruppi meno il numero dei gruppi.

Dividendo le somme dei quadrati per i rispettivi gradi di libertà si ottengono le medie dei quadrati, che stimano la variabilità media all’interno e fra i gruppi. La varianza stimata fra i gruppi (Mean Squares Between) è basata su quanto le medie dei gruppi varino fra loro; la varianza stimata all’interno dei gruppi (Mean Squares Within) è basata sulla quantità di variazione delle osservazioni all’interno di ciascuno dei gruppi: se l’ipotesi nulla è vera i valori delle due stime risultano molto simili e il loro rapporto è uguale o prossimo ad uno. Se, al contrario, esiste effettivamente una differenza, la varianza fra i gruppi sarà significativamente maggiore della varianza all’interno dei gruppi.

Il test statistico che si usa per testare l’ipotesi nulla che tutti i gruppi abbiano le stesse medie nella

popolazione, si chiama F14

ed è calcolato, appunto, come rapporto fra la media della somma dei quadrati fra i gruppi e la media della somma dei quadrati all’interno dei gruppi:

F= MSB/MSW

L’output fornito da SPSS è il seguente:

Output dell’analisi della varianza a una via

Descrittivi

FREQANNO

250 3,81 2,070 ,131 3,55 4,07 0 8

142 3,04 1,909 ,160 2,73 3,36 0 6

422 1,51 2,001 ,097 1,32 1,70 0 12

814 2,48 2,259 ,079 2,33 2,64 0 12

1 NON LAVORA

2 LAVORO OCCASION.

3 LAVORO STABILE

Totale

N MediaDeviazion

e std.Errore

std. Limite inferiore Limite superiore

Intervallo di confidenza 95% perla media

Minimo Massimo

ANOVA univariata

FREQANNO

881,321 2 440,661 109,424 ,000

3265,971 811 4,027

4147,292 813

Fra gruppi

Entro gruppi

Totale

Somma deiquadrati df Media dei quadrati F Sig.

Test post hoc

14. Prende il nome dallo statistico R. A. Fisher

Page 40: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

40

Confronti multipli

Variabile dipendente: FREQANNO

Bonferroni

,77* ,211 ,001 ,26 1,27

2,30* ,160 ,000 1,91 2,68

-,77* ,211 ,001 -1,27 -,26

1,53* ,195 ,000 1,06 2,00

-2,30* ,160 ,000 -2,68 -1,91

-1,53* ,195 ,000 -2,00 -1,06

(J) ATTLAV

1 NON LAVORA

2 LAVORO OCCASION.

3 LAVORO STABILE

1 NON LAVORA

2 LAVORO OCCASION.

3 LAVORO STABILE

1 NON LAVORA

2 LAVORO OCCASION.

3 LAVORO STABILE

(I) ATTLAV

1 NON LAVORA

2 LAVORO OCCASION.

3 LAVORO STABILE

Differenza framedie (I-J) Errore std. Sig. Limite inferiore Limite superiore

Intervallo di confidenza 95%

La differenza tra le medie è significativa al livello .05.*.

Il programma calcola la somma dei quadrati fra i gruppi (nell’esempio: 881.321), con i rispettivi gradi di

libertà: 3 categorie di ATTIVRIC danno k=3, quindi, dalla formula, si avrà 3-1= 2 gradi di libertà per SSB. La somma dei quadrati all’interno dei gruppi dà 3265.971, con 811 gradi di libertà (Numero dei casi di tutti i gruppi =814, gruppi=3, per cui in base alla formula si ha 814 - 3=811). La media dei quadrati fra i gruppi è data dal rapporto:

Mean Squares between = 881.321/ 2 = 440.661

mentre la media dei quadrati all’interno dei gruppi è data da: Mean Squares within = 3265,971/ 811 = 4.027 L’F sarà quindi dato da:

F = 440.661 / 4.027 = 109.424

La probabilità di F, nell’esempio, è molto bassa (Prob. 0.000) ed è quindi possibile rifiutare l’ipotesi

nulla, si può cioè affermare che esiste una differenza significativa fra il numero medio di corsi seguiti nei gruppi formati dall’attività lavorativa degli studenti.

L’F, dunque, ha indicato che i gruppi hanno medie differenti, tuttavia non è bene limitarsi a questo test: è opportuno sottoporre i dati anche ad un test che confermi l’ipotizzata omogeneità della varianza delle popolazioni, in quanto, se le varianze nella popolazione non fossero uguali, cadrebbe uno dei presupposti essenziali che consentono l’uso di questo tipo di analisi. Per testare l’omogeneità delle varianze, in SPSS, bisogna selezionare, nella finestra One-Way ANOVA, il pulsante Options e, nella sotto-finestra che automaticamente si apre, fare clic sul quadratino accanto alla voce Homogeneity of variance: Il programma fornisce il Levene Test in cui l’ipotesi nulla è che le varianze siano omogenee. L’output, per il nostro esempio, è il seguente: Output relativo al test di omogeneità delle varianze

Test di omogeneità delle varianze

FREQANNO

1,159 2 811 ,314

Statistica di Levene df1 df2 Sig.

poiché il livello di significatività è alto, non è possibile respingere l’ipotesi nulla di omogeneità delle varianza delle popolazioni e quindi l’uso dell’analisi della varianza è da ritenersi corretto. Nel caso di mancata omogeneità della varianza si può ugualmente procedere all’analisi usando, però un test che ‘superi’ questa condizione. Il più usato è il test T2 o test di Tamhane.

Page 41: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

41

5. La logica delle relazioni causali Come già detto, soprattutto nella ricerca sociale, si tende a stimare gli avvenimenti in termini di causa ed

effetto, considerando implicito e naturalmente acquisito il concetto di causalità. Tuttavia è fondamentale porsi il problema del reale significato di affermazioni più o meno generiche quali” il fumo provoca il cancro” o “la diffusione della droga causa un aumento della criminalità”. In altri termini, il ricercatore deve chiedersi cosa significhi affermare: la variabile indipendente A causa una variabile dipendente B. Una relazione di causa → effetto si verifica soltanto in presenza di tre precise condizioni: I. La causa deve precedere l’effetto: la variabile indipendente deve, pertanto, intervenire prima della

variabile dipendente. Nella ricerca scientifica, sociale o di qualunque altro tipo, le esperienze sono strutturate in modo tale per cui il ricercatore analizza la variabile indipendente prima di osservarne gli effetti su di una variabile dipendente.

II. Le due variabili, indipendente e dipendente, devono essere fra loro associate. Relativamente a questa condizione bisogna rifarsi alla statistica che, come si è visto, mette a disposizione numerosi test per verificare e/o misurare l’esistenza di tale associazione.

III. L’associazione fra le due variabili non deve dipendere da un altro fattore, da una terza variabile antecedente. Questa terza condizione, anch’essa di tipo statistico, specifica che non deve esistere una variabile (detta antecedente) che, agendo prima della variabile indipendente, provochi fra A e B una relazione di tipo statistico ma non causale, una relazione, cioè, logicamente falsa e pertanto definita “spuria”.

Nelle scienze sociali, la presenza di questa terza condizione viene controllata con l’introduzione di una terza variabile detta appunto “variabile di controllo”.

Esaminiamo come sia possibile utilizzare una terza variabile, per verificare l’esistenza di una eventuale relazione spuria in una tavola di contingenza: un primo incrocio fra il genere degli studenti e l’eventuale attività lavorativa durante gli studi ha dato i seguenti risultati:

Chi-quadrato di Pearson = 7.509 Sig. 0.023

Secondo questa tabella sembra esistere un’associazione statistica fra genere ed attività lavorativa15: le studentesse tenderebbero a lavorare, durante gli studi universitari, in percentuale minore dei compagni. È tuttavia possibile verificare che non si tratti di una relazione spuria introducendo un’altra variabile, ad esempio il titolo di studio, che (come si è visto nell’esempio precedente) ha una significativa influenza sull’attività lavorativa.

15 Anche se un valore di solo 0.10 della V di Cramer avverte che si tratta di un legame molto debole

Tavola di contingenza ATTIVRIC * V02 SESSO

134 116 250

29.9% 32.0% 30.9%

66 76 142

14.7% 21.0% 17.5%

248 170 418

55.4% 47.0% 51.6%

448 362 810

100.0% 100.0% 100%

Conteggio

% entro V02SESSO

Conteggio

% entro V02SESSO

Conteggio

% entro V02SESSO

Conteggio

% entro V02SESSO

1 NESSUNA

2 SALTUARIA

3 STABILE/CONTINUAT.

ATTIVRIC

Totale

1 MASCHIO

2 FEMMINA

V02 SESSO

Totale

Page 42: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

42

Con il menu del programma Spss Windows, ottenere l’incrocio fra tre variabili è molto semplice, basta indicare la variabile di controllo nella finestra Tavole di contingenza (Cfr. grafico)

Grafico - Esempio di tabella a tre dimensioni

L’output della procedura richiesta consiste in una tavola costituita da due tabelle bivariate, ognuna delle

quali descrive la relazione fra ‘Genere’ e ‘Attività lavorativa’ rispetto ad un particolare ‘Tipo di diploma’ (maturità liceale –altra maturità)

Esempio dell’output Spss di un incrocio a tre dimensioni

Queste tabelle bivariate, quando sono incluse in una tavola multivariata, vengono definite tabelle parziali ed

è possibile calcolare, per ciascuna di esse, una misura di associazione o il test del chi quadrato16.

16. Vi sono dei metodi più avanzati per calcolare il Chi-quadrato per tabelle parziali, metodi che si basano sulla separazione del chi-quadrato bivariato in due chi-quadrati differenti delle tabelle parziali, ma per l’utilizzo di questi test rimandiamo alla consultazione di testi di statistica avanzata.

Chi-quadrato

.265b 1 .607

5.790c 1 .016

Chi-quadrato di Pearson

Chi-quadrato di Pearson

TIPODIP0 altro dip.

1 liceo

Valore dfSig. asint.

(2 vie)

Calcolato solo per una tabella 2x2a.

0 celle (.0%) hanno un conteggio atteso inferiore a 5. Il conteggioatteso minimo è 69.42.

b.

0 celle (.0%) hanno un conteggio atteso inferiore a 5. Il conteggioatteso minimo è 69.28.

c.

Tavola di contingenza ATTIVRIC * V02 SESSO * TIPOD IP

94 72 166

36.7% 39.1% 37.7%

162 112 274

63.3% 60.9% 62.3%

256 184 440

100.0% 100.0% 100%

106 120 226

55.2% 67.4% 61.1%

86 58 144

44.8% 32.6% 38.9%

192 178 370

100.0% 100.0% 100%

1 no/lavori saltuari

2 lavoro stabile

ATTIVRIC

Totale

1 no/lavori saltuari

2 lavoro stabile

ATTIVRIC

Totale

TIPODIP0 altro dip.

1 liceo

1 MASCHIO

2 FEMMINA

V02 SESSO

Totale

Page 43: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

43

Nel caso dell’esempio questo test mostra chiaramente che l’associazione statistica prima rilevata fra le variabili Genere e Attività lavorativa permane solo rispetto a quanti provengono dai licei. Quella rilevata era, dunque, una relazione spuria dovuta all’effetto di una terza variabile (il Tipo di diploma) che ha una forte relazione causa – effetto sull’eventuale attività lavorativa degli studenti universitari.

4. Il coefficiente di correlazione lineare L’associazione statistica fra due variabili quantitative prende il nome di correlazione: il fatto che queste

due variabili siano cardinali consente di rappresentare i dati su diagrammi che comportino degli assi numerici: una prima, utile, analisi della relazione esistente fra due variabili a intervalli o rapporti consiste, come già per quelle ordinali, nella loro rappresentazione grafica in un sistema di coordinate cartesiane: i valori di una variabile vengono riportati sull’asse orizzontale x (ascissa)17, mentre i valori dell’altra vengono riportati sull’asse verticale y (ordinata). Ogni caso del campione viene così rappresentato dal punto di intersezione delle normali che partono dai valori osservati delle due variabili: ne risulta una distribuzione in grado di rappresentare la relazione fra le variabili stesse.

La correlazione è tanto più elevata quanto più la nube di punti del diagramma, che ha per coordinate i valori accoppiati delle due variabili x e y si avvicina ad una curva regolare. Questa curva può presentare forme diverse, a seconda del tipo di relazione esistente fra le variabili esaminate: quando i punti si raggruppano formando una retta si parla di correlazione lineare. La correlazione lineare è misurata dal coef-ficiente r di Pearson, che esprime l’intensità della relazione fra le variabili. Questo coefficiente varia fra +1 e -1 (quando r ha valore più o meno uno tutti i punti cadono esattamente su una retta); se r è uguale a ±1 si ha dipendenza assoluta, se è 0 si ha assoluta indipendenza. Quando la correlazione è positiva le due distribuzioni variano nello stesso senso, quando è negativa variano in senso inverso. La formula per ottenere il coefficiente di correlazione è:

rx x y y

n s si

n

x y

=− −∑

−=

( )( )

( )1

1

dove n = numero dei casi; sx ed sy = scarto quadratico medio (deviazione standard) delle due variabili. Il

valore assoluto di r indica, come si è detto, la forza della correlazione lineare. Lo scopo è di verificare se, in base al coefficiente del campione r, sia possibile stimare il coefficiente di

correlazione, detto rho (ρ), della popolazione. L’assunto, perché il test sia valido, è di avere a che fare con campioni casuali, estratti da una distribuzione in cui le due variabili (misurabili, almeno, a livello di inter-valli) presentino, congiuntamente, un andamento normale. Se questa condizione è soddisfatta, il test che ha come ipotesi nulla che il coefficiente per la popolazione sia 0, può essere basato sul calcolo della statistica:

t rn

r= −

−2

1 2

che, se ρ = 0, ha una distribuzione t di Student con n-2 gradi di libertà. UN ESEMPIO DI CORRELAZIONE Abbiamo un piccolo gruppo di studenti e i loro voti in Italiano e Matematica I CASO

MAT ITALIANO MARA 9 9 GIOVANNI 8 8 PIERO 7 7 CLARA 6 6 ANNA 5 5

17. La variabile indipendente viene rappresentata sulla X, la variabile dipendente sulla Y.

Page 44: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

44

ITALIANO

10987654

MA

TE

MA

T

10

9

8

7

6

5

4

ANNA

CLARA

PIERO

GIOVANNI

MARA

Correlazioni

1.000 1.000**

. .000

5 5

1.000** 1.000

.000 .

5 5

Correlazione di Pearson

Sig. (2-code)

N

Correlazione di Pearson

Sig. (2-code)

N

MATEMAT

ITALIANO

MATEMAT ITALIANO

La correlazione è significativa al livello 0,01 (2-code).**.

Su di un diagramma cartesiano indichiamo le diverse votazioni degli studenti: ogni allievo viene rappresentato da un punto di cui la coordinata X è la sua votazione in Italiano e la coordinata Y la sua votazione in Matematica. Tutti i punti cadono su di una stessa linea retta. Poiché la classificazione è uguale per i due esami la correlazione è perfetta e positiva II CASO

MAT ITALIANO MARA 9 5 GIOVANNI 8 6 PIERO 7 7 CLARA 6 8 ANNA 5 9

ITALIANO

10987654

MA

TE

MA

T

10

9

8

7

6

5

4

ANNA

CLARA

PIERO

GIOVANNI

MARA

Page 45: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

45

Correlazioni

1.000 -1.000**

. .000

5 5

-1.000** 1.000

.000 .

5 5

Correlazione di Pearson

Sig. (2-code)

N

Correlazione di Pearson

Sig. (2-code)

N

MATEMAT

ITALIANO

MATEMAT ITALIANO

La correlazione è significativa al livello 0,01 (2-code).**.

In questo secondo caso la correlazione è negativa: ogni allievo che ha una buona votazione in italiano riesce male in matematica e viceversa: la correlazione, pur essendo negativa è perfetta: sapendo che Anna ha il voto più alto in italiano possiamo dedurre che ha il voto più basso in matematica. III CASO MAT ITALIANO MARA 9 9 GIOVANNI 8 8 PIERO 7 6 CLARA 6 7 ANNA 5 5

ITALIANO

10987654

MA

TE

MA

T

10

9

8

7

6

5

4

ANNA

CLARA

PIERO

GIOVANNI

MARA

Correlazioni

1.000 .900*

. .037

5 5

.900* 1.000

.037 .

5 5

Correlazione di Pearson

Sig. (2-code)

N

Correlazione di Pearson

Sig. (2-code)

N

MATEMAT

ITALIANO

MATEMAT ITALIANO

La correlazione è significativa al livello 0,05 (2-code).*.

I due migliori studenti in Matematica sono anche i migliori in Italiano e l’ultimo studente in Matematica è anche l’ultimo in Italiano ma per due allievi (Piero e Clara) la classifica è rovesciata. Abbiamo quindi ancora una stretta relazione fra le due votazioni ma esse non sono identiche. Si può quindi concludere che vi è una certa correlazione fra le due variabili e che è positiva anche se non è perfetta. Il coefficiente di correlazione infatti, pur mantenendosi molto alto, come si vede si è abbassato e così anche la significatività che da 0.01 è passata al 0.05.

Page 46: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

46

IV CASO MAT ITALIANO MARA 9 8 GIOVANNI 8 9 PIERO 7 6 CLARA 6 5 ANNA 5 7

ITALIANO

10987654

MA

TE

MA

T

10

9

8

7

6

5

4

ANNA

CLARA

PIERO

GIOVANNI

MARA

Correlazioni

1.000 .600

. .285

5 5

.600 1.000

.285 .

5 5

Correlazione di Pearson

Sig. (2-code)

N

Correlazione di Pearson

Sig. (2-code)

N

MATEMAT

ITALIANO

MATEMAT ITALIANO

In questa situazione le votazioni, all’interno dei due sottogruppi, risultano invertite fra un esame e l’altro: si ha dunque una certa associazione fra le due variabili ma è molto più debole che nelle situazioni precedenti. È difficile identificare un principio generale che ci consenta di determinare la seconda votazione conoscendo la prima: la rappresentazione grafica mostra come non sia più possibile, data la dispersione dei punti, parlare di una linea retta. Il coefficiente di correlazione di Pearson non è più significativo.

Page 47: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

47

I vari packages statistici mettono a disposizione dei ricercatori le procedure per ottenere la correlazione bivariata: in Spss Windows è sufficiente selezionare Statistica -➱ Correlazione -➱ Bivariata.

L’output che ne deriva è il seguente:

La regressione lineare

Se due variabili, misurabili a livello di intervalli o di rapporti risultano correlate, è possibile predire il valore di una variabile per un determinato soggetto, se si conosce il suo valore sull’altra variabile. In altri termini è possibile calcolare l’equazione della curva che rappresenta, geome-tricamente, la relazione esistente fra le due variabili. Questa equazione è detta equazione di re-gressione: quando la correlazione è lineare anche la regressione viene definita lineare e la relazione fra le due variabili è descritta da una retta, detta retta di regressione18. L’equazione di questa retta è

ebxay ++=

dove: y = valore della variabile dipendente a = punto della retta che incontra l’asse della y o intercetta b = inclinazione della retta (definito coefficiente di regressione): il suo valore indica la quantità di variazione della variabile dipendente per ogni unità di variazione della variabile indipendente. Il segno di questo valore indica se si produce un aumento (segno positivo e pendenza crescente) o una diminuzione (segno negativo e pendenza decrescente); e = rappresenta l’errore di stima, cioè l’inadeguatezza dell’equazione di regressione nella predizione del valore della variabile dipendente. L’equazione di regressione consente, partendo dai valori conosciuti della variabile indipendente

di predire i valori della variabile dipendente. Il calcolo del coefficiente viene, generalmente, effettuato col metodo dei minimi quadrati19 e la loro significatività viene stabilita sulla base del test t. mentre la significatività della correlazione viene testata con l’ F.

Si ricorda che l’uso dell’analisi della regressione richiede tre, importanti, ipotesi di base: normalità, omoschedasticità e indipendenza dell’errore e si rimanda, per gli opportuni approfondimenti, ai manuali di statistica.

18. L'uso del termine “regressione” per indicare il calcolo della variazione dei valori di una variabile dipendente, rispetto a quelli di una variabile indipendente è dovuto a F. Galton, il quale, compiendo studi antropometrici (in particolare la relazione esistente fra le stature di padri e figli) notò che fra le altezze esisteva una stretta relazione in quanto padri alti generavano figli alti. Tuttavia notò anche che, nei figli, tendeva ad esserci un abbassamento di statura rispetto a quella dei padri, cioè una tendenza alla regressione. Di qui la definizione per questo tipo di analisi. 19 Il metodo dei minimi quadrati consiste nel trovare la distanza minima che separa i punti, ottenuti dalla confluenza di entrambe le variabili in ognuno dei casi, e la retta di regressione.

Correlazioni

-.524**

.000

802

Correlazione di Pearson

Sig. (2-code)

N

Correlazione di Pearson

Sig. (2-code)

N

ORELAV

TFREQ

ORELAV TFREQ

La correlazione è significativa al livello 0,01(2-code).

**.

Page 48: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

48

La generica equazione della retta è: y = a+bx

dove a e b sono i parametri ignoti e x è il valore della variabile nota.

Si consideri un esempio in cui la relazione fra due valori sia perfetta: un operaio guadagna 4 euro all’ora. Se lavora zero ore guadagnerà zero euro, se lavora 1 ora guadagnerà 4 euro se ne lavora 2 guadagnerà 8 euro e così via. La variabile dipendente è costituita dagli euro guadagnati, la variabile indipendente dalle ore lavorate. In questo caso si ha una relazione lineare perfetta, infatti, come x aumenta, così aumenta y in modo perfettamente lineare: ad esempio un incremento di un’ora e mezza di lavoro (x) è associato ad un incremento di 6 euro di guadagno (y).

Se ogni caso viene rappresentato come punto di intersezione delle normali che partono dai valori

osservati delle due variabili, si ottiene un diagramma a punti (o scattergram).

Le rette che interpolano i punti in uno scattergram sono dette rette di regressione e, dipendendo

da una distribuzione bivariata dei dati, presentano diversi tipi di inclinazione (slope). L’inclinazione della retta (o coefficiente angolare) è definita (in trigonometria) come il rapporto fra la distanza verticale e la distanza orizzontale, calcolata tra ogni coppia di punti della retta. La formula per il calcolo del coefficiente angolare è dunque:

by y

x x= −

−2 1

2 1

Ponendo che y2 valga 10 ed y1 4 questi valori saranno associati con i rispettivi valori 2,5 e 1 della

variabile x e si avrà:

1.5

Page 49: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

49

45,1

6

15,2

410 ==−−=b

Il coefficiente angolare sarà 4. Il b indica che per ogni unità di incremento della variabile indipendente, la variabile dipendente aumenta di 4 unità.

Conoscendo b si può calcolare a, che è l’intercetta all'origine della y, cioè il punto in cui la retta interseca l’asse della y. Per calcolare l’intercetta applichiamo la formula:

a y bx= − dove a è l’intercetta, y è la media di y, x la media di x e b è il coefficiente angolare. Quindi, nell’esempio si avrà:

a = 8 - (4) (2) = 8 - 8=0 L’intercetta ha, in questo caso, valore 0.

Calcolati il coefficiente angolare e l’intercetta per ogni set di dati si può usare la formula della retta per predire un valore di y per ogni valore dato di x. Poiché a e b sono valori costanti, per determinare un valore predetto di y (che viene simbolizzato come y') basta, ad esempio, specificare un valore di x, per predire il valore di y, quindi, per prevedere il guadagno di un operaio che lavori 8 ore sarà sufficiente calcolare:

y' = a+bx = 0+(4)(8) = 32

il guadagno dell’operaio sarà di 32 euro.

Nelle scienze sociali, però, raramente si ha una relazione così perfetta, l’intersezione fra i valori di y e x non aumenta mai così uniformemente. Nella realtà i punti tracciati nel diagramma per rappresentare la complessità del mondo reale difficilmente cadono proprio sulla retta, come nell’esempio, ma si disperdono intorno ad essa. Questo significa che ogni predizione è soggetta ad errore: la differenza tra il valore osservato ed il valore stimato di y, per ciascun caso, costituisce, appunto, l’errore di predizione ed è detto ‘residuo’.

Si è visto come, riportando i valori di due variabili in un sistema di coordinate cartesiane, in modo che ogni caso del campione venga rappresentato come punto di intersezione dei valori delle due variabili x e y, si ottenga una distribuzione a punti detta scattergram. La variabile dipendente viene disposta sull’asse verticale, l’indipendente su quello orizzontale. Si possono avere più tipi di scattergram: le linee tracciate tra le coordinate, che vengono definite rette di regressione (o minime quadratiche o di accostamento), passando attraverso i valori medi delle due variabili ne sintetizzano la relazione. Tuttavia le rette con cui è possibile interpolare i punti di un diagramma sono infinite, quindi per scegliere la retta migliore viene adottato un preciso criterio detto dei “minimi quadrati”. In base a questo criterio si sceglie la retta che rende minima la somma dei quadrati delle distanze fra le y (osservate) e le y' (stimate). Si supponga di avere un campione di 10 casi di individui processati per crimini:

Caso N. condanne Anni reclusione 1 1 1 2 1 3 3 2 3 4 2 4 5 2 2 6 3 3 7 3 4 8 4 6 9 5 7 10 5 5

Page 50: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

50

Per ogni individuo si conosce la variabile x (numero di precedenti condanne) e la variabile y (anni di pena comminati nell’ultimo processo) e si vuole analizzare l’effetto del numero di condanne precedenti sulla severità della pena comminata con l’ultima sentenza20.

Il primo passo consiste nel calcolare l’inclinazione della retta, cioè b, che però non è più semplicemente il rapporto fra la distanza verticale e quella orizzontale, bensì il rapporto fra la somma dei quadrati dei prodotti delle distanze di y ed x e la somma dei quadrati di x e che viene definito coefficiente di regressione. La formula per calcolarlo sarà dunque:

bx x y y

x x= − −∑

−∑

( )( )

( )2

dalla quale, in base ad alcuni passaggi matematici, si arriva alla seguente formula che consente di calcolare il coefficiente di regressione direttamente dai dati grezzi21:

bn xy x y

n x x= − ∑∑∑

− ∑∑2 2( )

dove n è il numero dei casi, Σx e Σy sono la somma di tutti i valori rispettivamente di x e di y, Σxy è

la somma del prodotto dei valori di ogni caso su x e y, Σx2 è la somma dei quadrati dei valori di x e

(Σx)2 è il quadrato della somma dei valori di x. Per calcolare l’intercetta si usa la formula: a y bx= −

Il valore a è interpretato come la media stimata del valore y quando x è uguale a 0, ed è un effetto costante che deve essere aggiunto a ciascuno dei casi.

Nella tabella sono riportati, oltre ai dati osservati, i loro quadrati ed il prodotto dei valori di x e y, con le relative somme:

C x y x2 y2 xy

1� 1� 1� 1� 1� 1� 2� 1� 3� 1� 9� 3� 3� 2� 3� 4� 9� 6� 4� 2� 4� 4� 16� 8� 5� 2� 2� 4� 4� 4� 6� 3� 3� 9� 9� 9� 7� 3� 4� 9� 16� 12� 8� 4� 6� 16� 36� 24� 9� 5� 7� 25� 49� 35� 10�

5� 5� 25� 25� 25�

ΣΣΣΣx = 28 ΣΣΣΣy = 38 ΣΣΣΣx2 = 98 ΣΣΣΣy2=174 ΣΣΣΣxy =127

Il calcolo del coefficiente di regressione sarà quindi dato da:

20. L'esempio è tratto da A. Walsh, Statistics for the Social Sciences, Harper & Row, New York, 1990 21. Cfr. A.P. Ercolani, A. Areni, Statistica per la ricerca in psicologia, il Mulino, Bologna, 1983

Page 51: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

51

b = −−

= −−

= =( )( ) ( )( )

( )( ) ( ).

10 127 28 38

10 98 784

1270 1064

980 784

206

1961 05

Per calcolare l’intercetta occorre conoscere altri due valori la media di x che è 2.8 e la media di y

che è 3.8. In base alla formula il valore dell’intercetta sarà dunque dato da:

a = − = − =3 8 1 05 2 8 3 8 2 94 0 86. ( . )( . ) . . .

Quindi, volendo predire il numero di anni che un pregiudicato, che abbia avuto 6 precedenti condanne potrebbe vedersi infliggere con la sentenza dell’ultimo processo, in base alla formula regressione y' = a + bx si avrebbe:

y' = 0.86 + (1.05)(6) = 0.86+ 6.3 = 7.16

in altri termini il pregiudicato potrebbe attendersi più di 7 anni di prigione, mentre per un altro criminale, senza precedenti condanne, il relativo calcolo darebbe:

y' = 0.86 + (1.05)(0) = 0.86 + 0 = 0.86

cioè una pena molto più lieve. Naturalmente le predizioni che il ricercatore può fare non possono mai essere del tutto precise

per ogni caso: esse rappresentano soltanto la “miglior previsione” derivata dal campione di dati. Tuttavia, la regressione minimizza l’errore di predizione per i singoli casi: in generale l’errore di predizione decresce in proporzione all’incremento dell’ampiezza del campione. Inoltre l’errore di predizione è minore quando i coefficienti di correlazione sono alti: la forza della correlazione lineare è misurata dall’r di Pearson.

L’uso dell’analisi della regressione richiede tre, importanti, ipotesi di base:

• Normalità: questa prima condizione «richiede che i valori di Y siano normalmente distribuiti per ogni valore di X ... Come il test t ed il test F dell’analisi della varianza, l’analisi di regressione è “robusta” contro le deviazione dalla condizione di normalità; e cioè, sino a quando la distribuzione dei valori yi attorno al livello di X non si differenzia in modo estremo dalla

distribuzione normale, le inferenze sulla retta di regressione e sui coefficienti di regressione non saranno seriamente distorte»

• Omoschedasticità: questa seconda condizione «richiede che la variazione attorno alla linea di

regressione sia costante per tutti i valori di X. Ciò significa che Y varia allo stesso modo, sia che X assuma un valore basso sia che assuma un valore alto ... La condizione di omoschedasticità è importante per applicare il metodo dei minimi quadrati quando si vogliono determinare i coefficienti di regressione».

• Indipendenza dell’errore: questa terza condizione «richiede che l’errore (differenza “residua” tra

il valore osservato e quello previsto di Y) sia indipendente per ogni valore di X»22.

La procedura Regressione

In SPSS per effettuare l’analisi della regressione lineare bisogna selezionare: Statistica ⇒ Regressione ⇒ Lineare

22. M.L. Berenson, D.M. Levine, Statistica per le scienze economiche, Zanichelli, Bologna, 1993, pp. 580-81.

Page 52: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

52

In tal modo si apre la finestra:

Come in tutte le procedure, la lista delle variabili del file compare sulla sinistra della finestra. Si seleziona la variabile dipendente (nel nostro esempio ANNIRECL, cioè sentenza, in anni, nell’ultimo processo) e la si pone con il pulsante [] nel riquadro Dipendente. Sotto la voce Independenti si colloca la variabile

indipendente, nell’esempio NCOND23. Facendo clic su OK si manda in esecuzione la regressione lineare standard prodotta dal programma. I casi mancanti sono esclusi dall’analisi, automaticamente, per ogni variabile.

Il menu SPSS per l’analisi della regressione è unico, sia che si voglia ottenere una regressione lineare semplice bivariata, sia nel caso si intenda richiedere una regressione multipla.

23. Nel caso di analisi di regressione multipla, analisi che in queste pagine non verrà trattata, nel riquadro Independent(s) devono essere collocate tutte le variabili indipendenti da introdurre nella regressione.

Riepilogo del modello

.855a .731 .698 1.00Modello1

R R-quadratoR-quadrato

correttoErrore std. della

stima

Stimatori: (Costante), NCONDa.

ANOVAb

21.651 1 21.651 21.790 .002a

7.949 8 .994

29.600 9

Regressione

Residuo

Totale

Modello1

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), NCONDa.

Variabile dipendente: ANNIRECLb.

Page 53: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

53

Viene, fornito il cosiddetto R, cioè l’R multiplo24 che, nel caso della regressione lineare semplice, equivale al coefficiente r di Pearson. Il secondo valore è l’R al quadrato: questo coefficiente (che è dato dall’ R multiplo elevato al quadrato, e, quindi, nel caso della regressione semplice, dall’r di Pearson al quadrato) indica la bontà di approssimazione del modello: se tutte le osservazioni cadono

sulla retta di regressione il valore di R2 è 1. Se non esiste relazione fra la variabile dipendente e

l’indipendente R2 è 0. Va sottolineato che l’R2 indica la bontà di approssimazione di un particolare modello, quindi, anche nel caso che esso valga 0, ciò non significa che fra le due variabili non possa esistere un qualche tipo di relazione, ma solo che non vi è una relazione di tipo lineare. Il terzo

coefficiente proposto dal programma è l’R2 corretto in modo tale da riflettere sia il numero delle variabili indipendenti che l’ampiezza del campione. La formula per calcolarlo è:

r rp r

n pa2 2

21

1= − −

− −( )

dove p è il numero delle variabili indipendenti nell’equazione (1 nel caso dell’esempio) ed n è l’ampiezza del campione.

L’ r2 o il suo complemento (1 - r2) indicano, rispettivamente, la proporzione di varianza spiegata e non spiegata; tuttavia il ricercatore può voler basare l’accertamento dell’accuratezza della predizione sul totale assoluto della varianza spiegata e non spiegata. In questo caso è possibile usare la statistica detta errore standard della stima (standard error estimate SSE) che è la deviazione standard dei valori osservati della y rispetto ai valori predetti della y'. La formula per il calcolo dell’errore standard della media è:

SEEy y

n= −∑

−( ' )2

2 =

ss

nres

− 2

Occorre cioè, per prima cosa, dividere la somma dei quadrati dei residui per l’ampiezza del campione meno 2 per ottenere la media dei quadrati dei residui: la radice quadrata del valore otte-nuto è l’errore standard della stima, che può essere interpretato come un “errore medio nella predizione di y in base all’equazione di regressione”. Se è rispettata la condizione che i valori osser-vati di y siano distribuiti normalmente intorno alla retta di regressione, il ricercatore può stimare la proporzione di casi che cadono fra ±±±±1 errore standard dalle unità stimate dai valori pre-detti, ±±±±2 errori standard dalle unità stimate dai valori predetti e così via. Per testare l’ipotesi nulla che non vi sia una relazione di tipo lineare fra le due variabili possono

essere usate statistiche diverse ma, nel caso della regressione semplice, l’ipotesi che l’R2 della

popolazione sia 0, è identica all’ipotesi che il coefficiente angolare sia 0. Il test per R2pop = 0 viene

ottenuto con l’analisi della varianza. Come si vede dalla tavola, il totale della variabilità osservata della variabile dipendente può essere scomposta in due componenti, una spiegata dalla regressione (quella etichettata Regression) e l’altra non spiegata (definita Residual). 24. Poiché SPSS usa, per i simboli statistici, la lettera maiuscola, nell'illustrazione dell'output verrà usato, per non causare confusione, lo stesso tipo di notazione .

Coefficienti a

.857 .705 1.216 .259

1.051 .225 .855 4.668 .002

(Costante)

NCOND

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: ANNIRECLa.

Page 54: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

54

Poiché il metodo dei minimi quadrati garantisce che i residui sono indipendenti dall’y', si ha:

ssy = ssreg + ssres cioè:

( ) ( ' ) ( ' )y y y y y yii

n

i

n

i

n

− = − + −∑∑∑===

2 2 2

111

La somma totale dei quadrati è, dunque, data dalla somma dei quadrati della regressione

(variazione spiegata dalla regressione), più la somma dei quadrati degli errori (residui), cioè la varianza non spiegata dalla regressione.

La tavola dell’analisi della varianza, nell’output, mostra queste due somme dei quadrati sotto la voce Sum of Squares. Sotto Mean Squares sono posti, invece, i valori dati dal rapporto fra le somme dei quadrati ed i rispettivi gradi di libertà (cioè p ed n-p-1, dove p è il numero delle variabili indipendenti).

F è il rapporto fra la media dei quadrati della regressione e la media dei quadrati dei residui :

Fmeanquareregression

mean square residual=

F serve per testare come il modello approssima i dati: se la probabilità ad esso associata è piccola

(come nell’esempio) si può rigettare l’ipotesi nulla R2pop = 0.

La scomposizione della somma dei quadrati della variabile dipendente consente un’altra

interpretazione di R2 che può essere inteso come la percentuale di variazione della variabile dipen-dente spiegata dal modello:

Rresidualsumof squares

total sum of squares2 1= −

Rresidualsumof squares n p

total sum of squares na2 1

1

1= − − −

−/ ( )

/ ( )

dove p è il numero di variabili indipendenti.

Il programma, nell’output, dà, per le variabili nell’equazione, il valore del coefficiente di regressione, che chiama B, l’errore standard di B, il Beta, il valore dell’intercetta (Constant) e il suo errore standard. Inoltre calcola, per entrambi i valori, il t con la relativa significatività. Per Beta si intende il coefficiente di regressione standardizzato, che è definito come

β = bs

sx

y

1

ed è, quindi, dato dal prodotto del coefficiente di regressione b1 per il rapporto fra la deviazione standard della variabile indipendente (sx) e quella della variabile dipendente (sy). Quello che si

ottiene, con questo calcolo, è un coefficiente adimensionale, in quanto il β è il coefficiente angolare della retta dei minimi quadrati quando sia x che y sono espressi come valori z (cioè valori standardizzati).

Il coefficiente di regressione B è stimato da un campione: per verificare la probabilità di questo coefficiente di corrispondere a quello della popolazione viene calcolato l’errore standard di B con la formula:

Var By y n

x x( )

( ' ) / ( )

( )= ∑ − −

∑ −

2

2

2 =

ss n

ssres

x

/ ( )− 2

Page 55: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

55

Se il campione è grande (ad esempio maggiore di 200 casi) la stima di B per ripetuti

campionamenti si approssimerà alla distribuzione normale, quindi il ricercatore può stabile l’intervallo di confidenza per il B stimato. Se il campione è piccolo il B seguirà la distribuzione t con n-2 gradi di libertà.

Esaminiamo un altro esempio. Abbiamo visto che un diagramma di dispersione offre una buona

sintesi di una relazione e che una relazione può essere riassunta in modo ancora più conciso con l'aiuto di una sola retta, la retta che descrive meglio la relazione.

Questa retta minimizza, per ciascuno dei casi, la somma dei quadrati delle distanze fra la retta e i valori della variabile dipendente. In altre parole non c'è un'altra retta la cui somma dei quadrati delle distanze in rapporto ai valori della variabile dipendente sia minore. Questa retta, come abbiamo detto, si chiama retta di regressione o retta dei minimi quadrati ed è quella che predice meglio i valori della variabile dipendente di un caso quando noi conosciamo il valore della variabile indipendente dello stesso caso. Per esempio per predire il tasso di fertilità di un paese non conoscendo nient'altro a proposito di questo paese la miglior predizione che noi possiamo fare è il tasso di fertilità media per i 50 paesi. La ragione per la quale il tasso di fertilità medio è la migliore predizione dipende dal fatto che, come sappiamo, la media minimizza la somma delle distanze al quadrato fra ciascun valore e la media25. In questo senso nessun altro numero permette di ottenere una miglior stima del valore di un caso della media di tutti i valori. Tuttavia se il tasso di fertilità è legato all'urbanizzazione, noi possiamo allora utilizzare il tasso di urbanizzazione del paese per predire o stimare meglio il suo tasso di fertilità. Se un paese (l’Egitto per esempio) ha un tasso di urbanizzazione del 45%, si cerca sulla retta di regressione il tasso di fertilità associato a un tasso di urbanizzazione del 45%. Il diagramma di dispersione e la retta di regressione indicano che per un

25 Ricordiamo qui una importante proprietà della media: se la sottraiamo da ciascuno dei valori e addizioniamo tutti queste differenze il risultato è invariabilmente zero. In altre parole la somma degli scarti fra i valori e la media è dalla nulla. Dunque la media equilibra, per così dire, una distribuzione. Inoltre la media minimizza la somma delle deviazioni al quadrato di ciascun valore in rapporto alla media, intendendo per deviazione la differenza tra un valore e la media dunque se sottraiamo la media da ciascun valore, eleviamo ogni differenza al quadrato e addizioniamo questi quadrati noi otteniamo una somma che è più piccola di quella che noi otterremmo utilizzando qualunque altra misura che non sia la media. L'espressione ∑(X1 – X )2 è talmente importante in statistica da avere un proprio nome somma dei quadrati

Page 56: DISPENSE DI METODOLOGIA DELLA RICERCA … · 1 DISPENSE DI METODOLOGIA DELLA RICERCA QUANTITATIVA A.A. 2009/2010 PROF.SSA MARIA GRAZIA FISCHER (Proprietà letteraria riservata) 1.

56

paese (come l’Egitto) con un tasso di urbanizzazione del 45% si dovrebbe trovare un tasso di fertilità di circa quattro.

Ma questo tasso ‘4’ non è che una stima approssimativa. Si possono fare delle previsioni più precise: avendo presente l'algebra ricordiamo che una retta può essere rappresentata da una equazione. L'equazione di una retta è Y= a + bX, dove Y è il valore della variabile dipendente, a è l’intersezione (o costante), il valore della Y che corrisponde al punto in cui la rete da incrocia l'asse delle Y (cioè il valore di Y quando X = 0); b è il coefficiente di regressione, cioè il cambiamento in Y corrispondente al cambiamento di una unità in X. Ed X è il valore della variabile indipendente. Quest'equazione è detta equazione di regressione del tasso di fertilità sul tasso di urbanizzazione: si parla della regressione della variabile dipendente Y sulla variabile indipendente X. L'utilizzazione di una retta per descriverla le fa prendere il nome di regressione lineare Il valore di b, il coefficiente di regressione, è, come già accennato, molto importante: indica la misura di cambiamento in una variabile dipendente che corrisponde a un cambiamento di una unità nella variabile indipendente. Il segno + o - indica la direzione di questo cambiamento. Se noi sappiamo, ad esempio, che la nostra a = 5,720 e b = - 0,041 avremo Y’ = 5,720 + (-0,041) X quindi Y’ = 5,720 -0,041X Quindi se il tasso di urbanizzazione aumenta di un punto, il tasso di fertilità diminuisce dello 0,041, cioè circa 1/25 di bambino. Uno 0,041 non sembra molto ma facciamo un po' di calcoli: se il tasso di urbanizzazione di un paese aumenta di 25 punti di percentuale diciamo dal 45% al 70%, noi ci attendiamo che le donne abbiano in media un bambino in meno. È un declino importante del tasso di fertilità (e molto meno persone in un paese con decine o anche centinaia di milioni di donne). Riprendiamo l'esempio dell’ Egitto: Y’ = 5,720 – 0,041(45) = 5,720 – 1,845 = 3,875 Il tasso di fertilità predetto per l’Egitto, sulla base del suo tasso di urbanizzazione è di 3.88 bambini per donna.