STATISTICA PER LA RICERCA...
Transcript of STATISTICA PER LA RICERCA...
STATISTICA PER LA RICERCA
SPERIMENTALEDott.ssa Marika Vezzoli
Corso di Laurea Magistrale in Scienze Infermieristiche e Ostetriche
Università degli Studi di BresciaI quadrimestre - a.a. 2014 - 2015
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Alcune informazioni utiliDott.ssa Marika Vezzoli
Dipartimento di Medicina Molecolare e Traslazionale
030 3717758
Viale Europa 11, 25123 Brescia
RICEVIMENTO: Prima o dopo la lezione oppure su
appuntamento (contattatemi via email)
2
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
CALENDARIO LEZIONI
•4/12/2014 9.00-13.00
•11/12/2014 9.00-13.00
•8/01/2015 9.00-13.00
•15/01/2015 9.00-13.00
•22/01/2015 9.00-13.00
•29/01/2015 9.00-13.00
LEZIONI/ESERCITAZIONI → LAB 2
3
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
QUALI STRUMENTI INFORMATICI UTILIZZEREMO IN QUESTO CORSO?
Excel
→ molto diffuso nelle aziende pubbliche e private e di facile apprendimentoUna volta appresa la logica di funzionamento, si ritrovano le sue funzionalità in altri spreadsheet sia commerciali sia open source
MODALITÀ D’’’’ESAME:Prova al computer e possibilità di integrazione orale se non soddisfatti del risultato
4
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
APPUNTI
Gli appunti delle lezioni sono fondamentali →Si consiglia pertanto la presenza in classe
TESTI CONSIGLIATI
�Borazzo F.P., Perchinunno P. (2007). Analisi statistiche con Excel, Pearson Education, Milano
�Lantieri P.B., Risso D., Ravera G. (2007). Elementi di statistica medica, McGraw-Hill Companies, Milano
5
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Dove trovare il materiale fornito dal docente
Le mie slide e i file excel che utilizzeremo alezione sono scaricabili su:
�Didattica in rete in corrispondenza del corso“Statistica per la ricerca sperimentale”
�All’indirizzo:
http://marikavezzoli.weebly.com/for-my-students-italian-version.html
6
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Obiettivi del corsoPredisporre metodi per• raccogliere e organizzare• elaborare e sintetizzare• analizzare e interpretarei dati rilevati per vari scopi di analisi
7
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Cos’’’’è la Statistica per la Ricerca Sperimentale?
È un insieme di tecniche statistiche che, con l’ausilio indispensabile del calcolatore, permettono lo studio di fenomeni reali (multidimensionali)Le analisi che svolgeremo mirano ad evidenziare legami, rassomiglianze, differenze e associazioni tra le unità e/o i caratteri rilevati
8
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Il punto di partenza (gli “ingredienti”) sono i dati, cioè il risultato dell’osservazione delle variabili sulle unità statisticheGrande enfasi è posta anche sui controlli a posteriori della qualità delle informazioni rilevate (dati anomali, dati mancanti, …)
9
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 10
Unità statistica n° 1SESSO: MaschioUNIFORME: VerdeSPORT: AtleticaETA’’’’: 24
Unità statistica n° 2SESSO: MaschioUNIFORME: RossaSPORT: CalcioETA’’’’: 29
Unità statistica n° 3SESSO: FemminaUNIFORME: VerdeSPORT: TennisETA’’’’: 20
UNITÀ STATISTICA
POPOLAZIONE
VARIABILEMODALITÀ
Terminologia
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Le unità statistiche sono gli elementi (individui, oggetti, aziende,…) che interessano ai fini dell’indagineI caratteri (variabili) sono gli aspetti rilevati in corrispondenza di ciascuna unità statisticaLe modalità sono le categorie o i valori che ciascun carattere presenta in corrispondenza delle unità statistiche (devono essere esaustive e mutuamente esclusive)
11
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
� Microdati: dati rilevati sulle singole unità statistiche della popolazione(matrice dei dati)
� Macrodati: dati ricavati da opportune aggregazioni ed elaborazioni dei microdati (tabelle, grafici e indici)
� Metadati: documentazione sulle caratteristiche dei micro e dei macro dati (dizionario e codifica dei dati)
12
Tipologia di dati
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 13
Matricedeidatin××××p
Modalità(codifica)M V A 24
M R C 29
F V T 20
M B B 27
SESSO UNIFORME SPORT ETA’’’’ …Variabili
……
Unità
Organizzazione di una matrice dati
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 14
VARIABILE
UNITA’’’’
microdato
Macrodato: età media dei 3.456 capofamiglia
Metadato:“Età del capofamiglia”, con modalitàda 25 a 65 anni, rilevata su 3.456famiglie residenti a Brescianell’aprile del 2007
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Nelle indagini statistiche esistono 4 FASI:
FASE 1 → Preparazione
FASE 2 → Rilevazione e sistemazione dei dati
FASE 3 → Analisi dei Dati
FASE 4 → Presentazione dei risultati
15
Fasi di una indagine statistica
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
La preparazione è definita a sua volta da 3 SOTTO-FASI:
a)Definizione del problema: �approfondire tutti i risvolti del problema�stilare un elenco delle informazioni necessarie
b)Individuazione della popolazione:stabilire i requisiti delle unità statistiche, il periodo temporale e la zona geografica di riferimento
16
Fase 1 - Preparazione
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Le unità statistiche considerate possono essere:
�tutte quelle che compongono la popolazionestatistica
�quelle che compaiono in un campioneestratto da una popolazione statistica, secondo un opportuno piano di campionamento � tecniche di inferenza statistica che, sotto particolari ipotesi e con la dovuta cautela, permettono di estendere i risultati ottenuti dal campione a tutta la popolazione
Quando le analisi coinvolgono l’intera popolazione, è raro ottenere un database completo → impossibilità di reperire talune variabili, irreperibilità del soggetto, rifiuto dell’intervista, …
17
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 18
c) Selezioni delle variabili statistiche:Si distinguono 4 tipi di variabili
� Qualitative → le modalità si esprimono con categorie
� Nominali: le modalità non sono ordinabiliEsempio - la “Professione” con modalità: agricoltore, artigiano, commerciante, altro
Altri Esempi – sesso, colore dell’uniforme, sport praticato, ...
� Ordinali: le modalità sono ordinabiliEsempio - il “Titolo di studio” con modalità: elementare, media, diploma, laurea
Altri Esempi – giudizio ottenuto in una prova, grado di soddisfazione dei clienti, …
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
� Quantitative → le modalità si esprimono con numeri
� Discrete: le modalità sono solo certi numeri
Esempio - il “Numero di figli” con modalità: 1,2,..,8Altri Esempi - Età in anni compiuti, Numero di
acquisti in un mese, ...
� Continue: le modalità sono un intervallo di numeri
Esempio - la “Altezza” con modalità: da 1 m e 60 cm a 2 m ⇒ [1,60 ; 2,00]
Altri Esempi – Peso, Temperatura in °C, Pressione, …
19
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Fase 2 – Rilevazione esistemazione dei dati
Questa fase è definita a sua volta da 2 SOTTO-FASI:a)Raccolta dei dati → può avvenire:•utilizzando fonti documentarie già esistenti(costi contenuti; dati non sempre aggiornati e completi; problemi di compatibilità dei database e di confrontabilità delle informazioni se si utilizzano più fonti)•interpellando direttamente le unità statistiche della popolazione o del campione (costi elevati; possibilità di raccogliere esattamente le informazioni desiderate; frequente il ricorso a questionari)
20
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Le fonti dei dati statistici
21
Fonti interne Fonti esterne Indagini statistiche
ad hocPubbliche(es. ISTAT) Private
Svolte internamente
Commissionate
Dati statistici
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Alcune fonti istituzionali di dati statistici
�www.istat.it
22
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 23
Dove recuperare dati di carattere medico:
http://dati.istat.it→ cliccare su Salute e sanità. Ad esempio:
Possibilità di esportare in formato excel
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
La raccolta dei dati è una fase molto delicata perché errori nei dati possono compromettere l’intera analisi
Esempi di errori nei dati:
�Errori alla fonte nel database utilizzato
�Errori legati alla conversione dei formati
�Errori di risposta
�Errori di compilazione
�Mancate risposte
�…
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
b) Trattamento dei dati → è una fase necessaria al fine di elaborare i dati con tecniche di analisi statistica
Nel caso di rilevazione tramite questionariosi deve:
� Codificare le risposte� Digitalizzare i dati� Controllare le risposte (individuazione
risposte mancanti e controllo di coerenza)� Trattamento delle risposte anomale e delle
mancate risposte
25
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Il risultato della sistemazione dei dati in una tabella in cui ogni riga corrisponde ad un soggetto ed ogni colonna corrisponde ad una variabile è la matrice dei dati
È una matrice nxp (n soggetti, p variabili) che contiene tutte le informazioni, qualitative e quantitative, ottenute dall’indagine statistica sulle n unità e costituisce il dataset iniziale delle analisi statistiche
26
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Anche quando i dati sono reperiti da fonti esterne è opportuno arrivare ad una matrice dei dati “soggetti x variabili”, anche se è difficile individuare una regola univoca (dipende dalla forma in cui il database viene fornito)Sono poi necessarie le operazioni di:Controllo della qualità dei dati (individuazione dati mancanti e controllo di coerenza)Trattamento dei dati anomali e dei dati mancanti
27
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Controllo della qualità dei dati
Individuazione dei dati inammissibili (valori o codici che un fenomeno non può presentare, ma che compaiono nei risultati della rilevazione per effetto di errori di misura, di trascrizione, di digitazione, ecc.)
�a livello unidimensionale (una variabile per volta), calcolando minimo e massimo
�a livello multidimensionale (cercando le combinazioni inammissibili delle modalità di due o più variabili � tabelle doppie o multiple)
28
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Quando si individuano dati inammissibili, bisogna cercare in quale momento della rilevazione o dell’elaborazione sono stati prodotti
Se non si riesce a trovare e correggere l’errore, si possono seguire due strade:•Si ripete la raccolta del dato presso l’unità statistica originaria (difficile)•Si cancella il dato e lo considera mancanteSegue la fase di trattamento dei dati anomali e dei dati mancanti
29
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 30
ID Sesso Età # Figli Fumo Camminata Nuoto Jogging Bicicletta Palestra Malattie familiari
... ... ... ... ... ... ... ... ... ... ...
018 2 59 3 9 0 0 0 1 1 Nessuna
019 2 0 1 0 0 0 Nessuna
020 1 38 1 1 0 1 0 0 1
021 2 0 0 0 0 Nessuna
022 1 2 0 0 0 1 0 0 Nessuna
023 1 45 2 3 1 1 0 0 1 Diabete
... ... ... ... ... ... ... ... ... ... ...
Esempio di trattamento dei dati mancantiAl fine di individuare facilmente tali missing value, codifichiamo «l’assenzadi informazione» in maniera univoca ricorrendo a dei codici (o simboli)facilmente riconoscibili. Ad esempio:
•Sostituiamo il vuoto con la sigla 999 (sempre che questa quantità non siaun valore che la variabile può assumere. Ad esempio, se vi fossero dei datimancanti in corrispondenza della variabile «Reddito mensile» inserire 999sarebbe fuorviante in quanto è plausibile avere un reddito mensile diquell’importo)
•Sostituiamo il vuoto con Na
•Sostituiamo il vuoto con dei simboli come (•) o solo •
ID Sesso Età # Figli Fumo Camminata Nuoto Jogging Bicicletta Palestra Malattie familiari
... ... ... ... ... ... ... ... ... ... ...
018 2 59 3 9 0 0 0 1 1 Nessuna
019 2 999 999 0 1 999 0 0 0 Nessuna
020 1 38 1 1 0 1 0 0 1 999
021 2 999 999 999 0 0 0 0 999 Nessuna
022 1 999 2 0 0 0 1 0 0 Nessuna
023 1 45 2 3 1 1 0 0 1 Diabete
... ... ... ... ... ... ... ... ... ... ...
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
L’analisi dei dati è caratterizzata a sua volta da 2 SOTTO-FASI:
a)Descrizione e sintesi dei dati attraverso tabelle, rappresentazioni grafiche, indicatori di sintesi, tecniche statistiche avanzate
•analisi univariate
•analisi bi- e multi-variate
Qualsiasi analisi statistica va accompagnata da una fase di esplorazione dei dati (tabelle, grafici, indici di sintesi)
31
Fase 3 – Analisi dei dati
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
L’analisi grafica preliminare può essere estremamente importante perché ha una potenzialità comunicativa semplice ed immediata
Attenzione: un buon grafico mette in luce caratteristiche importanti dei fenomeni studiati, ma grafici con errori grossolani o di superficialità possono indurre in errori molto gravi
b)Interpretazione dei risultati è una fase molto delicata, specialmente se sono state utilizzate tecniche avanzate di analisi dei dati
Solo con la conoscenza approfondita del fenomeno e delle tecniche utilizzate si può giungere a interpretare correttamente i risultati
32
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Alla fine dell’analisi è opportuno comunicare i risultati ottenuti. Gli strumenti sono:
a)Report → prospetti contenenti i risultati dell’analisi e la spiegazione riguardo le procedure seguite e le scelte effettuate in tutte le fasi dell’indagine
È fondamentale conoscere obiettivi e destinatari, al fine di individuare la strategia migliore per stendere il report (che può essere scientifico, tecnico, divulgativo,…)
33
Fase 4 – Presentazione dei risultati
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Il report deve trasmettere le informazioni in modo chiaro, ordinato e comprensibile
Deve essere diffuso con un adeguato livello di frequenza e di tempestività
Deve essere flessibile, per poter essere modificato e adattato alle esigenze aziendali
Deve essere fruibile, ossia facilmente accessibile da parte del destinatario
In sintesi, il reporting deve trasformare i dati in informazioni, perché un dato che non informa non supporta il processo decisionale generando anche problemi seri
34
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
b) Presentazioni PowerPoint → devono comunicare i contenuti scientifici e tecnici in modo chiaro, efficace e convincente
Esiste una vera e propria letteratura su come effettuare presentazioni di successo
35
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Excel In questo corso impareremo quindi ad analizzaredei dataset con un certo numero di osservazioniutilizzando Excel
Focalizzeremo la nostra attenzione sullestatistiche descrittive, sulle rappresentazionigrafiche, sull’analisi bivariata e faremo alcunicenni di statistica inferenziale
Da Office Excel 2007 in poi l’interfaccia utenteOffice Fluent sostituisce i menu, le barre deglistrumenti e la maggior parte dei riquadriattività delle versioni precedenti di Excel con ununico meccanismo semplice e facilmenteindividuabile.
36
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Excel (continua) L'utente migliora quindi la produttività, trovapiù facilmente le funzionalità corrette per lediverse attività, scopre nuove funzionalità emigliora l'efficienza dello strumento.
37
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
Primo file Excel Nel primo file sul quale lavoreremo(01_Introduzione_statistiche_descrittive),trattiamo 150 donne che hanno appenapartorito. Sulle nostre unità statistiche sonostate rilevate le seguenti variabili:
�Età mamma�Peso nascituro (in gr)�Sesso nascituro�Lunghezza nascituro (in cm)�PrimiparaSvolgeremo quindi le prime analisi di statistica descrittiva
38