STATISTICA PER LA RICERCA...

38
STATISTICA PER LA RICERCA SPERIMENTALE Dott.ssa Marika Vezzoli Corso di Laurea Magistrale in Scienze Infermieristiche e Ostetriche Università degli Studi di Brescia I quadrimestre - a.a. 2014 - 2015

Transcript of STATISTICA PER LA RICERCA...

STATISTICA PER LA RICERCA

SPERIMENTALEDott.ssa Marika Vezzoli

Corso di Laurea Magistrale in Scienze Infermieristiche e Ostetriche

Università degli Studi di BresciaI quadrimestre - a.a. 2014 - 2015

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Alcune informazioni utiliDott.ssa Marika Vezzoli

Dipartimento di Medicina Molecolare e Traslazionale

[email protected]

030 3717758

Viale Europa 11, 25123 Brescia

RICEVIMENTO: Prima o dopo la lezione oppure su

appuntamento (contattatemi via email)

2

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

CALENDARIO LEZIONI

•4/12/2014 9.00-13.00

•11/12/2014 9.00-13.00

•8/01/2015 9.00-13.00

•15/01/2015 9.00-13.00

•22/01/2015 9.00-13.00

•29/01/2015 9.00-13.00

LEZIONI/ESERCITAZIONI → LAB 2

3

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

QUALI STRUMENTI INFORMATICI UTILIZZEREMO IN QUESTO CORSO?

Excel

→ molto diffuso nelle aziende pubbliche e private e di facile apprendimentoUna volta appresa la logica di funzionamento, si ritrovano le sue funzionalità in altri spreadsheet sia commerciali sia open source

MODALITÀ D’’’’ESAME:Prova al computer e possibilità di integrazione orale se non soddisfatti del risultato

4

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

APPUNTI

Gli appunti delle lezioni sono fondamentali →Si consiglia pertanto la presenza in classe

TESTI CONSIGLIATI

�Borazzo F.P., Perchinunno P. (2007). Analisi statistiche con Excel, Pearson Education, Milano

�Lantieri P.B., Risso D., Ravera G. (2007). Elementi di statistica medica, McGraw-Hill Companies, Milano

5

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Dove trovare il materiale fornito dal docente

Le mie slide e i file excel che utilizzeremo alezione sono scaricabili su:

�Didattica in rete in corrispondenza del corso“Statistica per la ricerca sperimentale”

�All’indirizzo:

http://marikavezzoli.weebly.com/for-my-students-italian-version.html

6

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Obiettivi del corsoPredisporre metodi per• raccogliere e organizzare• elaborare e sintetizzare• analizzare e interpretarei dati rilevati per vari scopi di analisi

7

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Cos’’’’è la Statistica per la Ricerca Sperimentale?

È un insieme di tecniche statistiche che, con l’ausilio indispensabile del calcolatore, permettono lo studio di fenomeni reali (multidimensionali)Le analisi che svolgeremo mirano ad evidenziare legami, rassomiglianze, differenze e associazioni tra le unità e/o i caratteri rilevati

8

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Il punto di partenza (gli “ingredienti”) sono i dati, cioè il risultato dell’osservazione delle variabili sulle unità statisticheGrande enfasi è posta anche sui controlli a posteriori della qualità delle informazioni rilevate (dati anomali, dati mancanti, …)

9

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 10

Unità statistica n° 1SESSO: MaschioUNIFORME: VerdeSPORT: AtleticaETA’’’’: 24

Unità statistica n° 2SESSO: MaschioUNIFORME: RossaSPORT: CalcioETA’’’’: 29

Unità statistica n° 3SESSO: FemminaUNIFORME: VerdeSPORT: TennisETA’’’’: 20

UNITÀ STATISTICA

POPOLAZIONE

VARIABILEMODALITÀ

Terminologia

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Le unità statistiche sono gli elementi (individui, oggetti, aziende,…) che interessano ai fini dell’indagineI caratteri (variabili) sono gli aspetti rilevati in corrispondenza di ciascuna unità statisticaLe modalità sono le categorie o i valori che ciascun carattere presenta in corrispondenza delle unità statistiche (devono essere esaustive e mutuamente esclusive)

11

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

� Microdati: dati rilevati sulle singole unità statistiche della popolazione(matrice dei dati)

� Macrodati: dati ricavati da opportune aggregazioni ed elaborazioni dei microdati (tabelle, grafici e indici)

� Metadati: documentazione sulle caratteristiche dei micro e dei macro dati (dizionario e codifica dei dati)

12

Tipologia di dati

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 13

Matricedeidatin××××p

Modalità(codifica)M V A 24

M R C 29

F V T 20

M B B 27

SESSO UNIFORME SPORT ETA’’’’ …Variabili

……

Unità

Organizzazione di una matrice dati

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 14

VARIABILE

UNITA’’’’

microdato

Macrodato: età media dei 3.456 capofamiglia

Metadato:“Età del capofamiglia”, con modalitàda 25 a 65 anni, rilevata su 3.456famiglie residenti a Brescianell’aprile del 2007

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Nelle indagini statistiche esistono 4 FASI:

FASE 1 → Preparazione

FASE 2 → Rilevazione e sistemazione dei dati

FASE 3 → Analisi dei Dati

FASE 4 → Presentazione dei risultati

15

Fasi di una indagine statistica

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

La preparazione è definita a sua volta da 3 SOTTO-FASI:

a)Definizione del problema: �approfondire tutti i risvolti del problema�stilare un elenco delle informazioni necessarie

b)Individuazione della popolazione:stabilire i requisiti delle unità statistiche, il periodo temporale e la zona geografica di riferimento

16

Fase 1 - Preparazione

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Le unità statistiche considerate possono essere:

�tutte quelle che compongono la popolazionestatistica

�quelle che compaiono in un campioneestratto da una popolazione statistica, secondo un opportuno piano di campionamento � tecniche di inferenza statistica che, sotto particolari ipotesi e con la dovuta cautela, permettono di estendere i risultati ottenuti dal campione a tutta la popolazione

Quando le analisi coinvolgono l’intera popolazione, è raro ottenere un database completo → impossibilità di reperire talune variabili, irreperibilità del soggetto, rifiuto dell’intervista, …

17

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 18

c) Selezioni delle variabili statistiche:Si distinguono 4 tipi di variabili

� Qualitative → le modalità si esprimono con categorie

� Nominali: le modalità non sono ordinabiliEsempio - la “Professione” con modalità: agricoltore, artigiano, commerciante, altro

Altri Esempi – sesso, colore dell’uniforme, sport praticato, ...

� Ordinali: le modalità sono ordinabiliEsempio - il “Titolo di studio” con modalità: elementare, media, diploma, laurea

Altri Esempi – giudizio ottenuto in una prova, grado di soddisfazione dei clienti, …

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

� Quantitative → le modalità si esprimono con numeri

� Discrete: le modalità sono solo certi numeri

Esempio - il “Numero di figli” con modalità: 1,2,..,8Altri Esempi - Età in anni compiuti, Numero di

acquisti in un mese, ...

� Continue: le modalità sono un intervallo di numeri

Esempio - la “Altezza” con modalità: da 1 m e 60 cm a 2 m ⇒ [1,60 ; 2,00]

Altri Esempi – Peso, Temperatura in °C, Pressione, …

19

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Fase 2 – Rilevazione esistemazione dei dati

Questa fase è definita a sua volta da 2 SOTTO-FASI:a)Raccolta dei dati → può avvenire:•utilizzando fonti documentarie già esistenti(costi contenuti; dati non sempre aggiornati e completi; problemi di compatibilità dei database e di confrontabilità delle informazioni se si utilizzano più fonti)•interpellando direttamente le unità statistiche della popolazione o del campione (costi elevati; possibilità di raccogliere esattamente le informazioni desiderate; frequente il ricorso a questionari)

20

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Le fonti dei dati statistici

21

Fonti interne Fonti esterne Indagini statistiche

ad hocPubbliche(es. ISTAT) Private

Svolte internamente

Commissionate

Dati statistici

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Alcune fonti istituzionali di dati statistici

�www.istat.it

22

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 23

Dove recuperare dati di carattere medico:

http://dati.istat.it→ cliccare su Salute e sanità. Ad esempio:

Possibilità di esportare in formato excel

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

La raccolta dei dati è una fase molto delicata perché errori nei dati possono compromettere l’intera analisi

Esempi di errori nei dati:

�Errori alla fonte nel database utilizzato

�Errori legati alla conversione dei formati

�Errori di risposta

�Errori di compilazione

�Mancate risposte

�…

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

b) Trattamento dei dati → è una fase necessaria al fine di elaborare i dati con tecniche di analisi statistica

Nel caso di rilevazione tramite questionariosi deve:

� Codificare le risposte� Digitalizzare i dati� Controllare le risposte (individuazione

risposte mancanti e controllo di coerenza)� Trattamento delle risposte anomale e delle

mancate risposte

25

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Il risultato della sistemazione dei dati in una tabella in cui ogni riga corrisponde ad un soggetto ed ogni colonna corrisponde ad una variabile è la matrice dei dati

È una matrice nxp (n soggetti, p variabili) che contiene tutte le informazioni, qualitative e quantitative, ottenute dall’indagine statistica sulle n unità e costituisce il dataset iniziale delle analisi statistiche

26

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Anche quando i dati sono reperiti da fonti esterne è opportuno arrivare ad una matrice dei dati “soggetti x variabili”, anche se è difficile individuare una regola univoca (dipende dalla forma in cui il database viene fornito)Sono poi necessarie le operazioni di:Controllo della qualità dei dati (individuazione dati mancanti e controllo di coerenza)Trattamento dei dati anomali e dei dati mancanti

27

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Controllo della qualità dei dati

Individuazione dei dati inammissibili (valori o codici che un fenomeno non può presentare, ma che compaiono nei risultati della rilevazione per effetto di errori di misura, di trascrizione, di digitazione, ecc.)

�a livello unidimensionale (una variabile per volta), calcolando minimo e massimo

�a livello multidimensionale (cercando le combinazioni inammissibili delle modalità di due o più variabili � tabelle doppie o multiple)

28

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Quando si individuano dati inammissibili, bisogna cercare in quale momento della rilevazione o dell’elaborazione sono stati prodotti

Se non si riesce a trovare e correggere l’errore, si possono seguire due strade:•Si ripete la raccolta del dato presso l’unità statistica originaria (difficile)•Si cancella il dato e lo considera mancanteSegue la fase di trattamento dei dati anomali e dei dati mancanti

29

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 30

ID Sesso Età # Figli Fumo Camminata Nuoto Jogging Bicicletta Palestra Malattie familiari

... ... ... ... ... ... ... ... ... ... ...

018 2 59 3 9 0 0 0 1 1 Nessuna

019 2 0 1 0 0 0 Nessuna

020 1 38 1 1 0 1 0 0 1

021 2 0 0 0 0 Nessuna

022 1 2 0 0 0 1 0 0 Nessuna

023 1 45 2 3 1 1 0 0 1 Diabete

... ... ... ... ... ... ... ... ... ... ...

Esempio di trattamento dei dati mancantiAl fine di individuare facilmente tali missing value, codifichiamo «l’assenzadi informazione» in maniera univoca ricorrendo a dei codici (o simboli)facilmente riconoscibili. Ad esempio:

•Sostituiamo il vuoto con la sigla 999 (sempre che questa quantità non siaun valore che la variabile può assumere. Ad esempio, se vi fossero dei datimancanti in corrispondenza della variabile «Reddito mensile» inserire 999sarebbe fuorviante in quanto è plausibile avere un reddito mensile diquell’importo)

•Sostituiamo il vuoto con Na

•Sostituiamo il vuoto con dei simboli come (•) o solo •

ID Sesso Età # Figli Fumo Camminata Nuoto Jogging Bicicletta Palestra Malattie familiari

... ... ... ... ... ... ... ... ... ... ...

018 2 59 3 9 0 0 0 1 1 Nessuna

019 2 999 999 0 1 999 0 0 0 Nessuna

020 1 38 1 1 0 1 0 0 1 999

021 2 999 999 999 0 0 0 0 999 Nessuna

022 1 999 2 0 0 0 1 0 0 Nessuna

023 1 45 2 3 1 1 0 0 1 Diabete

... ... ... ... ... ... ... ... ... ... ...

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

L’analisi dei dati è caratterizzata a sua volta da 2 SOTTO-FASI:

a)Descrizione e sintesi dei dati attraverso tabelle, rappresentazioni grafiche, indicatori di sintesi, tecniche statistiche avanzate

•analisi univariate

•analisi bi- e multi-variate

Qualsiasi analisi statistica va accompagnata da una fase di esplorazione dei dati (tabelle, grafici, indici di sintesi)

31

Fase 3 – Analisi dei dati

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

L’analisi grafica preliminare può essere estremamente importante perché ha una potenzialità comunicativa semplice ed immediata

Attenzione: un buon grafico mette in luce caratteristiche importanti dei fenomeni studiati, ma grafici con errori grossolani o di superficialità possono indurre in errori molto gravi

b)Interpretazione dei risultati è una fase molto delicata, specialmente se sono state utilizzate tecniche avanzate di analisi dei dati

Solo con la conoscenza approfondita del fenomeno e delle tecniche utilizzate si può giungere a interpretare correttamente i risultati

32

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Alla fine dell’analisi è opportuno comunicare i risultati ottenuti. Gli strumenti sono:

a)Report → prospetti contenenti i risultati dell’analisi e la spiegazione riguardo le procedure seguite e le scelte effettuate in tutte le fasi dell’indagine

È fondamentale conoscere obiettivi e destinatari, al fine di individuare la strategia migliore per stendere il report (che può essere scientifico, tecnico, divulgativo,…)

33

Fase 4 – Presentazione dei risultati

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Il report deve trasmettere le informazioni in modo chiaro, ordinato e comprensibile

Deve essere diffuso con un adeguato livello di frequenza e di tempestività

Deve essere flessibile, per poter essere modificato e adattato alle esigenze aziendali

Deve essere fruibile, ossia facilmente accessibile da parte del destinatario

In sintesi, il reporting deve trasformare i dati in informazioni, perché un dato che non informa non supporta il processo decisionale generando anche problemi seri

34

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

b) Presentazioni PowerPoint → devono comunicare i contenuti scientifici e tecnici in modo chiaro, efficace e convincente

Esiste una vera e propria letteratura su come effettuare presentazioni di successo

35

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Excel In questo corso impareremo quindi ad analizzaredei dataset con un certo numero di osservazioniutilizzando Excel

Focalizzeremo la nostra attenzione sullestatistiche descrittive, sulle rappresentazionigrafiche, sull’analisi bivariata e faremo alcunicenni di statistica inferenziale

Da Office Excel 2007 in poi l’interfaccia utenteOffice Fluent sostituisce i menu, le barre deglistrumenti e la maggior parte dei riquadriattività delle versioni precedenti di Excel con ununico meccanismo semplice e facilmenteindividuabile.

36

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Excel (continua) L'utente migliora quindi la produttività, trovapiù facilmente le funzionalità corrette per lediverse attività, scopre nuove funzionalità emigliora l'efficienza dello strumento.

37

Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche

Primo file Excel Nel primo file sul quale lavoreremo(01_Introduzione_statistiche_descrittive),trattiamo 150 donne che hanno appenapartorito. Sulle nostre unità statistiche sonostate rilevate le seguenti variabili:

�Età mamma�Peso nascituro (in gr)�Sesso nascituro�Lunghezza nascituro (in cm)�PrimiparaSvolgeremo quindi le prime analisi di statistica descrittiva

38