1_DISPENSA - Concetti Statistici Di Base 2010-11

30
I Facoltà di Medicina e Chirurgia CORSO DI STATISTICA 1 Dott. Laura Perrotta - Lezione 1 - Concetti introduttivi e nozioni di base - A.A. 2010/2011 Corso di Statistica 1

Transcript of 1_DISPENSA - Concetti Statistici Di Base 2010-11

Page 1: 1_DISPENSA - Concetti Statistici Di Base 2010-11

I Facoltà di Medicina e Chirurgia

CORSO DI STATISTICA 1Dott. Laura Perrotta

- Lezione 1 - Concetti introduttivi e nozioni di base -

A.A. 2010/2011

Corso di Statistica 1

Page 2: 1_DISPENSA - Concetti Statistici Di Base 2010-11

PROGRAMMA DEL CORSO

Concetti introduttivi, nozioni di base. Distribuzioni, medie analitiche. Indici di posizione e indici di dispersione. Le rappresentazioni grafiche e i rapporti statistici. Cenni di calcolo delle probabilità e distribuzioni di

probabilità. Inferenza statistica: stima dei parametri. Inferenza statistica: verifica delle ipotesi. Tecniche di campionamento La statistica epidemiologica e la ricerca. Esercitazioni.

Corso di Statistica 1

Page 3: 1_DISPENSA - Concetti Statistici Di Base 2010-11

TESTO CONSIGLIATO

Lantieri PB, Risso D, Ravera G

(nuova edizione)

“Statistica medica per le professioni

sanitarie”

McGraw-Hill Libri Italia srl: Milano

Corso di Statistica 1

Page 4: 1_DISPENSA - Concetti Statistici Di Base 2010-11

OBIETTIVI DEL CORSO

Il Corso di Statistica Medica si propone l’obiettivo di fornire

allo studente:

Conoscenza approfondita della statistica descrittiva

Capacità di calcolare gli indicatori di sintesi e saperne interpretare i risultati

Capacità di rappresentare graficamente un fenomeno oggetto di studio e raccogliere in tabelle i dati grezzi rilevati

Leggere e comprendere la statistica inferenziale, la statistica applicata all’epidemiologia e i rapporti statistici

Comprendere e applicare le tecniche di valutazione statistica coinvolte nella prevenzione, nella diagnosi e nella gestione dell’assistenza sanitaria.

Corso di Statistica

Page 5: 1_DISPENSA - Concetti Statistici Di Base 2010-11

“La statistica è la tecnica che ha come scopo la conoscenza quantitativa dei fenomeni collettivi”

La biostatistica assume fondamentale importanza per valutare l’incertezza determinata dalla variabilità delle misure in biologia e in medicina

Corso di Statistica 1

CONCETTI INTRODUTTIVI, NOZIONI DI BASE E DISTRIBUZIONI

Page 6: 1_DISPENSA - Concetti Statistici Di Base 2010-11

Esempio: Studiamo il fenomeno andamento della temperatura corporea arteriosa di un individuo nell’arco della giornata (fenomeno individuale) oppure di un

gruppo di persone (fenomeno collettivo) in un intervallo temporale definito.

Per fenomeno si intende tutto ciò che appare direttamente o indirettamente ai sensi dell’intelletto.

Si dicono collettivi quei fenomeni che possono essere percepiti, descritti e misurati solo attraverso una collezione di osservazioni di fenomeni più semplici, detti fenomeni individuali.

FENOMENI COLLETTIVI

Corso di Statistica 1

Page 7: 1_DISPENSA - Concetti Statistici Di Base 2010-11

I fenomeni si suddividono in due categorie:

Misurabili: le manifestazioni del fenomeno sono direttamente misurabili (il peso, l’altezza, la pressione arteriosa,…)

Enumerabili: le manifestazioni vengono identificate attraverso un conteggio (numero di fratelli, numero dei ricoveri,…)

Corso di Statistica 1

Page 8: 1_DISPENSA - Concetti Statistici Di Base 2010-11

L’ERRORE DI MISURA

è influenzata da errori sistematici:uno strumento tarato male, un difetto visivo (mettersi alla dx o sx di una lancetta)

è legata ad errori casualiuna bilancia posizionata male, un utilizzo errato dello strumento

Il rilevamento di una misura comporta sempre il rischio di commettere un errore indipendentemente dal carattere della misura, è necessario stabilire l’affidabilità della misura, cioè quanto il dato si discosta dal valore vero.

Il concetto di affidabilità della misurazione è comprensivo di due aspetti:

Accuratezza:la capacità di centrare il valore vero

Precisione: la proprietà di ottenere gli stessi risultati in prove ripetute

Il valore di una misura sarà sempre uguale al valore vero + / - errore di misura.

Corso di Statistica 1

Page 9: 1_DISPENSA - Concetti Statistici Di Base 2010-11

ARROTONDAMENTI E CIFRE SIGNIFICATIVE

Si definiscono cifre significative tutte quelle effettivamente provenienti da una lettura strumentale

L’arrotondamento consiste in una riduzione del numero di cifre significative

Per difetto se l’ultima cifra decimale varia tra 0 e 5

2,32 ≈ 2,3 Per eccesso

se l’ultima cifra decimale varia tra 6 e 9. 3,78 ≈ 3,8

Corso di Statistica 1

Page 10: 1_DISPENSA - Concetti Statistici Di Base 2010-11

LE VARIABILI DIPENDENTI, INDIPENDENTI E LE COSTANTI

La variabile è il carattere misurato che noi osserviamo.Le variabili sono spesso indicate con le lettere Y, X, Z, T, U, W

Le costanti sono valori numerici che rimangono inalterati per ciascuna determinazione e si definiscono costanti specifiche. Le costanti sono indicate con le lettere a, b, c, m, n, h, k.

Y = a + b X

• le variabili indipendenti sono peso e altezzaIl campo di variazione della variabile indipendente è definito dominio

• la variabile dipendente è la sup. corporea

(poiché dipende dai valori che assumono le variabili indipendenti)

Il campo di variazione della variabile dipendente è definito codominio

• 0,7 è la costante moltiplicativa

7,04,07,0 n cm)(Altezza ig)(Peso in kcorporeaSuperfice

Corso di Statistica 1

Page 11: 1_DISPENSA - Concetti Statistici Di Base 2010-11

L’ intervallo di variabilità anche chiamato campo di esistenza o rango viene definito dal valore max e min rilevati.

E’ opportuno pensare ad un intervallo entro il quale si possono identificare tutti i possibili valori ottenuti dalle misurazioni

L’intervallo di variabilità si definisce: Dominio se riguarda la variabile indipendente

esempio: l’altezza di un individuo può variare tra 15cm circa e i 300cm al massimo; il peso tra (0,01 – 600)kg

Codominio se riguarda la variabile dipendente esempio:il campo di esistenza della variabile superficie corporea può assumere sono valori positivi

Il campo di esistenza è l’insieme di tutte le possibili le modalità con cui si può manifestare un carattere. Le variabili hanno senso all’interno del loro campo di esistenza.

Corso di Statistica 1

Page 12: 1_DISPENSA - Concetti Statistici Di Base 2010-11

CONCETTI GENERALI DI STATISTICA DESCRITTIVA

L’unità statistica è l’oggetto dell’osservazione di ogni fenomeno individuale che costituisce il fenomeno collettivo.

La popolazione (o universo o collettivo statistico) è l’insieme di tutte le unità statistiche delle manifestazioni del fenomeno collettivo che si vuole studiare.

Il campione è una parte delle popolazione, casuale e rappresentativo, oggetto di indagine.

I caratteri sono aspetti dei fenomeni oggetto di studio. Ciascun carattere è presente in ogni unità con una determinata modalità.

La modalità indica il tipo di manifestazione del fenomeno collettivo, le modalità sono tra loro esaustive.

Corso di Statistica 1

Page 13: 1_DISPENSA - Concetti Statistici Di Base 2010-11

CLASSIFICAZIONE DEI CARATTERI

QUALITATIVI

QUANTITATIVI

Ordinati

Sconnessi

Continui

Discreti

Corso di Statistica 1

Page 14: 1_DISPENSA - Concetti Statistici Di Base 2010-11

CARATTERE QUALITATIVO

In generale, per i carattere qualitativi le modalità si identificano con attributi, aggettivi e denominazioni varie specificanti le proprietà dell’unità statistica a cui si riferiscono.

Corso di Statistica 1

I caratteri qualitativi si dividono in

ORDINATI: esprimono giudizi di valore o situazioni ordinabili per graduatoriaEsempio stato di salute:migliorato/stazionario/peggiorato, gradi militari, codici di arrivo pronto soccorso: bianco,verde giallo e rosso.

SCONNESSI: le modalità non sono ordinabili in maniera univoca Esempio sesso: uomo/donna, colore occhi, stato civile: celibe/coniugato/divorziato/vedovo.

Page 15: 1_DISPENSA - Concetti Statistici Di Base 2010-11

Le variabili qualitative si dicono :

Dicotomiche: la variabile assume solo due modalità

Politomiche: la variabile assume più di due modalità

Sesso Uomo Donna

Titolo di studioLicenza elementare,media..laurea

Corso di Statistica 1

Nel caso di variabili qualitativi è più corretto parlare di mutabili, in quanto assumono modalità chiaramente distinte tra loro.Per classificare le misure qualitative sconnesse si utilizzano le scale nominali (categoriche o classificatorie). Tra le misure di questa scala è possibile stabilire se l’osservazione e è uguale o diversa ma non si può definire se l’osservazione è maggiore o minore rispetto ad un’altra.

Page 16: 1_DISPENSA - Concetti Statistici Di Base 2010-11

CARATTERE QUANTITATIVO

I caratteri quantitativi si manifestano con modalità

esprimibili mediante numeri o valori.

In generale, un carattere quantitativo è detto

CONTINUO se, comunque si fissino due valori (entro l’intervallo in cui il carattere è osservabile), tutti i valori intermedi possono essere assunti come modalità del carattere, cioè quando assume valori tra due unità consecutivensecutive.

DISCRETO quando utilizziamo i conteggi per rappresentare le modalità

Corso di Statistica 1

Page 17: 1_DISPENSA - Concetti Statistici Di Base 2010-11

Esempio la temperatura corporea di un individuo può assumere valori compresi tra 36 e 37gradi, quali 36,2; 36,7; 36,9 C°

Esempio numero di figli:1,2,3,…; oppure il numero di ricoveri giornalieri effettuato in un reparto ospedaliero: 1,2,…,15, 16; ma non può verificarsi di avere un figlio e ½ oppure di effettuare 15ricoveri e ½

Carattere quantitativo

CONTINUO

Carattere quantitativo

DISCRETOLe modalità numeriche vengono espresse esclusivamente da numeri interi

Le modalità numeriche prevedono

l’uso di decimali

Corso di Statistica 1

Page 18: 1_DISPENSA - Concetti Statistici Di Base 2010-11

ESEMPI RELATIVI ALLA CLASSIFICAZIONE DEI CARATTERI

QUALITATIVI QUANTITATIVI

Ordinati Sconnessi Continui Discreti

Corso di Statistica 1

peso, statura,temperatura corporea

anno di corso, livello di istruzione, gradi militari

luogo di nascita,sesso, stato civile, nazionalità, professione

numero di figli, di ricoveri

Page 19: 1_DISPENSA - Concetti Statistici Di Base 2010-11

RELAZIONI O OPERAZIONI FRA LE MODALITÀ

CARATTERI

QUALITATIVI QUANTITATIVI

sconnessi ordinati

uguaglianza e disuguaglianza SI SI SI

ordinamento NO SI SI

addizione e sottrazione NO NO SI

Corso di Statistica 1

Page 20: 1_DISPENSA - Concetti Statistici Di Base 2010-11

LA DETERMINAZIONE DELLE MODALITÀ DI UN CARATTERE

Le modalità di ogni carattere non sono a priori definibili in modo univoco o oggettivo; la loro determinazione è in generefrutto di una scelta fra diverse possibilità, dipendendo sia dal problema oggetto di studio sia dal soggetto che lo esamina ed anche dal collettivo su cui si deve indagare.

Carattere ModalitàColore dei capelli 1) Biondi, Rossi, Castani, Neri, Grigi, Bianchi

2) Chiari, Scuri, Grigi, Bianchi

3) …

Statura 1) 168, 169, 170, 171, …

2) minore di 165, compreso tra 165 e 175, maggiore

di 175

3) …

Corso di Statistica 1

Page 21: 1_DISPENSA - Concetti Statistici Di Base 2010-11

SessoData di nascita

Insorgenza sintomatologica

Età …

Paziente 1 M 19/09/95 19/10/97 15 …

Paziente 2 F 19/12/86 01/05/99 24 …

Paziente 3 M 07/11/94 01/01/97 16 …

Paziente 4 M 15/04/80 01/06/86 30 …

… … … … …

Paziente 10 F 13/03/89 27/11/90 22 …

1° Carattere

1° Unità statistica

Modalità

2° Unità statistica

2° Carattere

3° Unità statistica

4° Unità statistica

10° Unità statistica

3° Carattere

Corso di Statistica 1

Page 22: 1_DISPENSA - Concetti Statistici Di Base 2010-11

Tavola 1 - Pazienti affetti da sindromi depressive, secondo il sesso, l’età ed alcune variabili psicofisiche

Sesso

Età PesoColesterolo

totaleCortisolo

plasmaticoAppetito Pessimismo Umore

Paziente 1 M 27 60 260 14,5 Buono 1 1

Paziente 2 M 41 75 320 20,5 Scarso 1 2

Paziente 3 F 65 68 172 17,2 Discreto 3 0

Paziente 4 F 53 56 245 14,9 Buono 2 2

… … … … … … … … …

Paziente n M 42 73 380 8,0 Buono 0 1

Corso di StatisticaCorso di Statistica 1

Page 23: 1_DISPENSA - Concetti Statistici Di Base 2010-11

Paziente Età SessoConsumo medicine

1 46 F 1

2 52 F 1

3 21 M 0

4 30 F 2

5 39 M 3

Esempio 1 – Tabella dei dati (o matrice dei dati) contenente 3 variabili (età, sesso, consumo di medicine) osservate su 5 soggetti (le unità statistiche)

Corso di StatisticaCorso di Statistica 1

Page 24: 1_DISPENSA - Concetti Statistici Di Base 2010-11

Soggetti SessoAnno di nascita

Età N. figli

1 1 1978 27 1

2 2 1987 18 0

3 2 1965 40 3

4 1 1975 30 1

5 2 1968 37 2

Esempio 2 – Tabella dei dati (o matrice dei dati) contenente 4 variabili (sesso,anno di nascita, età, N. figli) osservate su 5 soggetti (le unità statistiche)

Corso di StatisticaCorso di Statistica 1

Page 25: 1_DISPENSA - Concetti Statistici Di Base 2010-11

LA SOMMATORIAIndichiamo le osservazioni con .

Se abbiamo a disposizione osservazioni, la generica osservazione i-esima sarà e la somma di tutte

le osservazioni sarà dunque

n

iix

1

(Da leggersi: sommatoria di Xi per i che va da 1 a n)

Il simbolo di sommatoria è la lettera greca “Sigma”. Esplicitando l’annotazione algebrica della sommatoria delle osservazioni xi per tutti i possibili valori del’indice i che, nel nostro caso vanno da 1 a n, si ha

nn

n

ii xxxxx

121

1

......

Corso di Statistica 1

;;...;;...;; 21 ni xxxx

ixn

ix

Page 26: 1_DISPENSA - Concetti Statistici Di Base 2010-11

ESEMPIO

Il carattere Y rappresenta il Reddito. Conosciamo i redditi mensili di un individuo, il reddito annuo in formule è dato da

con i che indica i mesi

121121

12

1

...... xxxxxXi

iAnnuo

Corso di Statistica 1

Page 27: 1_DISPENSA - Concetti Statistici Di Base 2010-11

12

1

12

11

10

9

8

7

6

5

4

3

2

1

ii

i

x

x

x

x

x

x

x

x

x

x

x

x

x

XMESI REDDITO MENSILE

Gennaio 1000 €

Febbraio 1000 €

Marzio 1000 €

Aprile 1000 €

Maggio 1000 €

Giugno 1000 €

Luglio 1000 €

Agosto 1000 €

Settembre 1000 €

Ottobre 1000 €

Novembre 1000 €

Dicembre 1000 €

REDDITO TOTALE ANNUO

12000 €

€ 12000€ )10001000.....10001000(

...... 121121

12

1

xxxxxXi

iAnnuo

Corso di Statistica 1

Page 28: 1_DISPENSA - Concetti Statistici Di Base 2010-11

PROPRIETA’ DELLE SOMMATORIE

Se K è una costante; la sommatoria di una costante è uguale a n volte la costante stessa

kNkN

i

1

Se K è una costante moltiplicativa; la costante può essere portata fuori dalla sommatoria

N

iiN XkXXk

11 )...(

NN

N

ii kXkXkXXkkX 121

1

...)(

Corso di Statistica 1

Page 29: 1_DISPENSA - Concetti Statistici Di Base 2010-11

La sommatoria di una somma algebrica è uguale alla somma algebrica delle sommatorie

NkXkXkXkX

YXYX

N

iin

N

ii

N

ii

N

ii

N

iii

11

1

111

)(...)()(

)(

La sommatoria del prodotto di due variabili è uguale alla somma dei prodotti delle singole coppie di termini delle variabili

NNNN

N

iii YXYXYXYXYX

112211

1

...)(

Corso di Statistica 1

Page 30: 1_DISPENSA - Concetti Statistici Di Base 2010-11

Per calcolare la sommatoria di un espressione algebrica, si sviluppa inizialmente l’espressione e successivamente l’operazione di sommatoria

222 2 YXYXYX

22 2 YXYX

Corso di Statistica 1