EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail:...

Post on 01-May-2015

215 views 1 download

Transcript of EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail:...

EPG di Metodologia della ricerca e Tecniche Multivariate dei dati

Dott.ssa Paola GrassiE-mail: p.grassi@unich.it

Programma del corso

Introduzione al software SPSS

Trattamento preliminare dei dati

La regressione lineare

L’analisi fattoriale

L’analisi della varianza.

Testo consigliatoBarbaranelli C., “Analisi dei dati con SPSS II. Le analisi multivariate.”

LED edizioni universitarie 2006

Date lezioni

Sabato 21 gennaio ore 9,00 – 13,00 Venerdì 27 gennaio ore 15,00 – 19,00Sabato 28 gennaio ore 9,00 – 13,00 Sabato 04 febbraio ore 9,00 – 13,00

Aula informatica

SPSS è un software statistico che permette di:

Inserire ed importare i dati;

Di eseguire analisi statistiche, di illustrare i risultati anche tramite rappresentazione grafica.

SPSS è composto da finestre, aventi ciascuna differenti funzioni:

Editor dei Dati; Output – Viewer; Syntax.

Cosa è SPSS (Statistical Package for Social Science)

Psicologia Sociologia e scienza politica Medicina/biologia Analisi/ricerche di mercato

SPSS è un programma statistico studiato per soddisfare le esigenze di elaborazione dati nei seguenti settori applicativi:

Può eseguire le elaborazioni dati riguardanti le seguenti tecniche di analisi:

analisi monovariata analisi bivariata analisi multivariata test statistici parametrici e non parametrici analisi di serie temporali funzioni di sopravvivenza modelli lineari

Per inserire i dati si deve avviare la schermata iniziale e selezionare dal menù la voce “inserimento dati”.

Per aprire, salvare, stampare e chiudere il file.

Per selezionare, copiare e tagliare parte dei dati

Per passare dalla modalità visualizzazione dati a quella di visualizzazione delle variabili oppure passare alla barra di stato o degli strumento o modificare il carattere

Contiene tutti i comandi per definire le variabili, per selezionare e richiamare i dati o le variabili in esame, per ordinare le variabili in senso crescente o decrescente, ecc.

Permette di definire alcune funzioni per l’esecuzione di alcune procedure statistiche.

Per di creare nuove variabili, effettuare una serie di calcolisulle variabili o di modificare le variabili (come nel caso del trattamento dei dati mancanti).

Per scegliere e costruire i grafici.

per eseguire una serie di analisi dei dati.

Spostarsi sul post-it “visualizzazione variabili” per la generazione delle stesse imputando, in sequenza, il nome assegnato e modificando, eventualmente, le caratteristiche impostate automaticamente. Permette di visualizzare i dati già imputati relativi ad una variabile.

Barra degli strumenti

Barra dei menù

Barra di stato

Nome della variabile composto da max 8 caratteri.

Numero di caratteri usati per visualizzare la variabile

La schermata ottenuta con “visualizzazione variabili” permette di inserire:

Per descrivere meglio le categorie numeriche di variabili che invece non sono

numeriche

La schermata ottenuta con “visualizzazione variabili” permette di inserire:

Indica quante cifre decimali sono visualizzate

Per specificare meglio il significato della variabile (max 256 caratteri)

Per specificare i valori delle variabili che sono considerati indicatori di “valori mancanti”Si possono utilizzare: la stessa grandezza dei valori validi della variabile (media) oppure numeri fuori dalla scala della variabile (si usa preferibilmente il numero 9 0 il 99 o 999)

Creazione delle variabili relative al questionario

È possibile attribuire ai valori stringa o numerici delle variabili delle etichette, per esteso, che compariranno nell’output anziché i valori assegnati.Ad esempio maschio anziché M

La struttura dati è pronta per l’inserimento manuale

Spostarsi, quindi sul post-it “visualizzazione dati” per inserire i valori di ciascuna variabile e per visualizzarli.

INSERIMENTO DEI DATI E CREAZIONE DI FILE DATI.

E’ NECESSARIO:Specificare il modello teorico alla base della ricerca, lo strumento usato e le scale di misura;Corretta codifica dei datiScelta del programma per l’inserimento dati (SPSS, Excel,…)

PULIZIA DEI DATI:

Permette di controllare errori di inserimento dei dati, la presenza di dati mancanti, di outlier mediante l’analisi delle frequenze.

Cosa si può fare con SPSS

TRASFORMAZIONE DEI DATI:

CALCOLO DELLE STATISTICHE DESCRITTIVE:

Permette di ottenere delle nuove variabili effettuando delle operazioni o trasformazioni sulle variabili pre-esistenti.

Per ciascuna variabile si possono calcolare le statistiche descrittive quali: media, varianza, deviazione standard.Permette di verificare se i dati si distribuiscono normalmente

ANALISI STATISTICHE:

CORRELAZIONE;

ATTENDIBILITA’;

DESCRITTIVE;

ANALISI DELLA VARIANZA;

ANALISI FATTORIALE;

REGRESSIONE

Di norma in un file di dati vengono inseriti i valori relativi alle codifiche socio-anagrafiche dei partecipanti alla ricerca.

Ad esempio: genere, età, provenienza, stato civile, livello socio-economico, n° figli a carico etc.

Questo genere di variabili permettono, in genere, di rilevare differenze o uguaglianze sulle variabili metriche in dipendenza dell’appartenenza a gruppi differenti determinati a priori.

Tali variabili necessitano di una codifica preliminare di tipo stringa o numerica definita dallo sperimentatore.

Si tenga presente che alcune procedure di analisi ammettono soltanto codifiche numeriche e non di tipo stringa (ad esempio l’analisi di varianza).

Inserimento dati e creazioni di un file con SPSS

Le Scala di misura possono essere:

Nominale: i valori rappresentano categorie senza alcun ordine intrinseco (Sesso, Professione,….);Ordinale i valori rappresentano categorie con qualche ordine intrinseco (basso/medio/alto);Ad Intervalli i valori permettono di stabilire una relazione di distanza tra più oggetti misurati, a partire da uno 0 arbitrario e stabilendo un’unità di misura costante;A Rapporti i valori permettono di effettuare operazioni

aritmetiche, avendo come origine uno 0 assoluto;

Successivamente vanno generate le variabili numeriche, o scale, relative allo strumento impiegato.

Tali scale vanno codificate esclusivamente con valori numerici e possono essere:

•binarie (vero/falso, accordo/disaccordo, scale di Rasch) che è corretto trattare come ordinali (con valori diversi dalla coppia da 0-1 la quale, invece, possiede caratteristiche metriche delle scale ad intervallo);

•politomiche (scale di Gutmann, Likert) che vengono codificate da SPSS come scale di tipo ordinale;

•continue (che ammettono valori decimali quali altezza, peso, indice di massa corporea).

Organizzazione generale del file-dati:

Righe: ciascuna riga del file di dati raccoglie le informazioni inerenti ogni singolo soggetto lungo l’intera collezione di variabili indagate che assume il nome di “data record”. Il numero di campi interni al record deve corrispondere al numero di variabili imputabili.I dati mancanti possono essere codificati a scelta dello sperimentatore, tra queste codifiche sono comuni le assegnazioni di valori “fuori scala” ne sono esempi codifiche del tipo 999. In caso di scale definite solo positivamente, si può utilizzare per la codifica del dato mancante il primo valore utile ( in questo caso -1).In SPSS la codifica del dato mancante è stabilita automaticamente dal sistema assumendo come valore il carattere “.” in corrispondenza di una cella di imputazione lasciata vuota dall’operatore.

Colonne: contengono tutte le rilevazione, trasversalmente raccolte su tutti i soggetti relativamente ad una data variabile o unità d’informazione.

Si utilizzano le colonne anche qualora il disegno della ricerca dovesse contenere informazioni replicate di uno stesso soggetto, in condizioni sperimentali diversificate (Test re-test o multilivello).

In generale non esiste un’unica formulazione per definire la nomenclatura del file di dati, ma questa dipende dallo specifico modello di analisi da impiegare o dalle peculiarità strutturali del disegno sperimentale impiegato.

Per la codifica è necessario che:

Le variabili siano in formato numerico

I casi (soggetti) devono avere un numero identificativo progressivo

codici devono essere mutualmente escludentesi (ogni risposta cade solo e soltanto in una categoria)

La descrizione e lo screening dei dati sono delle fasi molto importanti in quanto permettono di:

Individuare i valori mancanti;

Individuare variabili che assumono valori fuori scala;

Verificare se la distribuzione è normale

Individuare gli outlier

DESCRIZIONE DEI DATI

La normalità della distribuzione è fondamento di molte analisi.La distribuzione normale univariata assume la classica forma a campana:

CARATTERISTICHE• Unimodale• Simmetrica rispetto alla media• Presenta due punti di flesso

x = μ – σx = μ + σ

Creazione completa delle variabili

Struttura dei dati dopo l’inserimento delle variabili

A seconda dello strumento utilizzato, come in questo caso, le variabili necessitano di essere ri-codificate per ancorare tutti i valori numerici con la stessa valenza semantica: tutte in positivo o in negativo. Per fare questo è necessario verificare prima quali variabili siano da invertire ed eseguire l’operazione attraverso il menù trasforma (ri-codifica nelle stesse variabili).

Avendo individuato le variabili che necessitano di trasformazione, man mano si selezionano e tramite la freccia si posizionano nel campo variabili

Per completare la trasformazione è necessario sostituire ai valori precedentemente assegnati, i nuovi digitando sul pulsante “valori vecchi e nuovi”.

Si invertono i valori di scala per l’intera gamma comune delle variabili lasciando invariato il dato mancante di sistema.

È sempre opportuno verificare che la procedura sia stata eseguita correttamente. La formula per verificare il risultato è la seguente:(Valore massimo – valore attuale) + valore minimoEs: (4-3)+0= 1

Adesso è possibile calcolare il punteggio totale del questionario ed il punteggio medio per ciascun soggetto impiegando il menù “trasforma” sotto la voce “calcola variabile.Per calcolare il punteggio totale al test, porre nel campo “variabile di destinazione” il nome da assegnare e operare la scelta della funzione “sum”.

I nomi delle variabili vengono riportate come argomenti della funzione multi-argomento che opera sulle variabili.

Nell’ultima colonna possiamo osservare la somma dei punteggi di ciascun soggetto attraverso le variabili prese in considerazione.

A questo punto, con lo stesso procedimento, possiamo calcolare la media

Il programma ha generato una nuova colonna nella quale viene espressa la media delle risposte fornite da ciascun soggetto.

Per calcolare i principali indici statistici campionari di ciascuna variabile, si opera attraverso il menù analizza tramite il comando “frequenze”.

Si selezionano le variabili per le quali interessa calcolare gli indici statistici principali congiuntamente alla distribuzione di frequenze.

Si marcano le statistiche desiderate

OUTPUT

Vengono riportate le statistiche per ciascun itemOUTPUT

Si considerano anche i casi che presentano valori mancanti

Si considerano solo i casi che non presentano valori mancanti

Distribuzione delle frequenze

Non essendoci valori mancanti, in questo caso, coincidono

Volendo effettuare la descrizione dei dati raccolti:

Ancora una volta, dopo aver selezionato le variabili oggetto d’indagine

Si selezionano le statistiche descrittive che interessano

Con valori degli indici di Asimmetria e Curtosi compresi tra -1 e 1 la distribuzione è normale

La distribuzione è schiacciata verso il basso rispetto a quella normale. La distribuzione è detta PLATICURTICA.

La distribuzione è più appuntita rispetto a quella normale. La distribuzione è detta LEPTOCURTICA.

Valore di Curtosi negativo

Valore di Curtosi positivoValore di Curtosi positivo

Curva Normale

Valori compresi tra -1 e 1

Per una più accurata descrizione del campione si possono eseguire:

Ad esempio, si possono mettere in relazione variabili socio-demografiche quali genere ed età con le prime due domante al test.

Dopo aver selezionato le variabili che interessa mettere in relazione si clicca su “continua”

Dei ricercatori hanno ipotizzato vi sia relazione tra le abilità matematiche (X1), le abilità scientifiche (X2) e la percezione di autoefficacia (Y). Al fine di analizzare ciò, hanno somministrato 3 test ad un gruppo di 8 studenti.Verificare, per un livello di significatività pari ad α = 0,05, se l’ipotesi dei ricercatori è fondata. Nella tabella che segue sono espressi i punteggi ottenuti nei 3 test:

Y X1 X24 4 53 5 26 6 85 8 67 9 89 10 129 12 811 13 11