Statistica descrittiva e inferenziale Prof. Franco Zappulla.

32
Statistica descrittiva e Statistica descrittiva e inferenziale inferenziale Prof. Franco Zappulla

Transcript of Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Page 1: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Statistica descrittiva e Statistica descrittiva e inferenzialeinferenziale

Prof. Franco Zappulla

Page 2: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Statistica descrittiva: prende in considerazione gli aspetti di organizzazione, presentazione (es. tabelle e grafici) e compendio dei dati; vi fanno parte le statistiche anagrafiche (nascite, morti, matrimoni, ecc).

Statistica inferenziale: come trarre conclusioni riguardanti le popolazioni a partire dallo studio di un campione.

Page 3: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Scale di misura• scala nominale: sono dati di tipo classificatorio (es.

gruppi sanguigni, tipo di patologia, ecc); la scala nominale piu' semplice e' quella dicotomica, cioe' quella che prevede solo due possibilita' (vivi o morti, maschi o femmine, con o senza un certo attributo, ecc);

• scala ordinale: prevede un ordine predeterminato, anche se non e' prevista un'uguale distanza fra le modalita' (es. indice di Apgar, punteggi di gravita' di una malattia, ecc). La scala a ranghi e' quella che ordina gli elementi dal minore al maggiore assegnando i numeri d'ordine e trascurando le distanze tra gli elementi ordinati;

• scala numerica a intervalli: la scala puo' essere discreta, cioe' a numeri interi (es. battiti cardiaci al minuto) o continua, cioe' con infiniti valori intermedi (es altezza, peso, eta')

Page 4: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Distribuzione di frequenza

E’ il modo piu' conveniente per riassumere e presentare i dati con le scale numeriche.Consiste in un certo numero di classi predeterminate (ad es. intervalli di altezza) associate alla frequenza delle osservazioni i cui valori cadono entro l'intervallo definito da ciascuna classe. Il numero di classi e' in genere compreso fra 10 e 20 e i limiti vanno fissati con accuratezza. Il modo con cui una distribuzione di frequenza viene rappresentata graficamente e' un grafico ad istogrammi. L'istogramma, che non e' altro che un diagramma a colonne, presenta in ordinata il numero di osservazioni in ciascuna classe (comincia da zero) e in ascissa le classi (il centro di ogni colonna coincide con il punto centrale della classe). Si ricorda che l'area della colonna coincide con la frequenza (soprattutto se la distribuzione di frequenza non ha intervalli di classe di uguale ampiezza).

Page 5: Statistica descrittiva e inferenziale Prof. Franco Zappulla.
Page 6: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Skewness e Kurtosis

Altre caratteristiche importanti delle distribuzioni di frequenza sono il grado di asimmetria o skewness (che puo' essere a destra o a sinistra, cioe' positiva o negativa) e il grado di accentramento o kurtosis (picchi stretti o picchi ampi o presenza di piu' picchi).

Page 7: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

SINTESI DEI DATI

Le caratteristiche fondamentali di una distribuzione di frequenza (parametri di una curva “normale”) sono:

1) la posizione o tendenza centrale;2) la dispersione o variazione.

Page 8: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

1) MISURE DI POSIZIONE

a) media: la media aritmetica (la piu' comune delle medie) e' la somma delle osservazioni divise per il loro numero, cioe':

m=(x1 + x2 + x3 + xn)/n

cioe' x/n

La media aritmetica, molto duttile nelle elaborazioni statistiche, ha un unico grosso inconveniente, quello che può essere influenzata notevolmente dai valori estremi.

Page 9: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Media e DS di 2 gruppi

La media di due gruppi e': (m1*n1 + m2*n2)/(n1 + n2)

La DS di due gruppi e' data dalla radice quadrata della Somma dei Quadrati diviso per i Gradi di Liberta' (vedi programma PRIMER, opzione Analisi della Varianza a una via).

Page 10: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Altre medie

- media geometrica : e' la radice ennesima del prodotto delle osservazioni; per il calcolo e' comodo usare i logaritmi:

log MG = (log x)/n

(per avere MG bastera' calcolare l'antilogaritmo di log MG);

- media armonica: MA = n/ (1/x) oppure 1/MA = (1/x)/n

Page 11: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Misure di posizione: b) MedianaE’ l'osservazione di mezzo in una serie di osservazioni messe in ordine crescente o decrescente. In altre parole e' quel valore rispetto al quale meta' dei valori della popolazione risultano superiori e l'altra meta' inferiori. Se la distribuzione e' "normale" circa il 68% degli elementi e' compreso entro 1 DS, mentre il 95% e' compreso entro le 2 DS. Pertanto in una distribuzione "normale" esiste una certa corrispondenza fra valori percentili e DSLa mediana è poco usata nei conti statistici (ad es. nel test della mediana), ma ha il vantaggio di non essere influenzata dalle osservazioni estreme.

Page 12: Statistica descrittiva e inferenziale Prof. Franco Zappulla.
Page 13: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Misure di posizione: c) moda

E' l'osservazione che si verifica con maggior frequenza; quindi la moda puo' essere assente (specie se le osservazioni sono poche) o puo' essere plurima (es. curve bimodali con 2 picchi).

Nelle distribuzioni "normali" (cioe' unimodali e simmetriche) media, mediana e moda coincidono.

Page 14: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

2) MISURE DI DISPERSIONE O DI VARIABILITA'

Servono a esprimere il grado di variabilita' o dispersione attorno al valore medio. Naturalmente le fonti di variabilita' possono essere tante e si suole raggrupparle in tre grandi gruppi (v. oltre): •variazione biologica•temporale •errori di misura.

Page 15: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

a) range (o intervallo di variabilita'): e' la differenza tra il valore massimo e il valore minimo;

Page 16: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

b) deviazione media

E' la media di tutti gli scarti (o deviazioni) dalla media calcolati in valore assoluto (cioe' senza il segno). Se invece di calcolare i valori assoluti si elevano al quadrato i termini e si divide per n si ha la varianza:

V(x) = ( (xi - m)2)/n

Page 17: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Per ottenere misure di variazione nelle stesse unita' delle osservazioni originali si calcola la radice quadrata della varianza che prende il nome di DS (deviazione standard) o sigma.

Piu' precisamente si deve parlare di sigma quando le osservazioni rappresentano l'intera popolazione (e quindi n rappresenta il numero totale dei casi), mentre si parla di DS quando si parla di un campione (e in tal caso al posto di n si usa n-1, che sono anche detti gradi di liberta').

Page 18: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Kg x-m quadrato-------------------------------------------------------5 0 07 2 43 -2 45 0 04 -1 16 1 1

somma=30 somma=10

media=5 10/6=1,6666 (varianza o s2)

sqrt di 1,666=1,29 (sigma)

Page 19: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

c) coefficiente di variazione (CV):

e' rappresentato dalla DS/m * 100

Il valore che ne deriva e' una quantita' priva di dimensione, mentre la DS e' espressa nelle stesse unita' delle osservazioni originali. Il CV permette quindi il confronto di grandezze diverse.

Page 20: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

ERRORE STANDARD DELLA MEDIA (SEM)

La media e la DS calcolate da un campione sono stime della media e della DS dell'intera popolazione dalla quale il campione e' tratto. Per quantificare in termini probabilistici l'accuratezza di queste stime, possiamo calcolare i loro SE (sia della media che della DS). Il SEM (DS/ n) quantifica il grado di certezza col quale la media calcolata da un campione casuale stima la vera media della popolazioneda cui il campione e' tratto. Pertanto la DS e il SEM misurano 2 aspetti decisamente diversi: la DS descrive la variabilita' della popolazione, il SEM descrive l'incertezza nella stima della media.

La media vera della popolazione originale cade ad una distanza dalla media campionaria inferiore a 2 SEM in circa il 95% dei possibili campioni. In pratica si approssima l'intervallo di confidenza al 95%con la media +2 SEM.

Page 21: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

LIMITI DI CONFIDENZA

Piu' esattamente si calcolano i limiti di confidenza al 95% con

m ± t*SEM

(dove t deriva dalle tabelle del t di student guardando nella colonna di p=0.05 e alla riga relativa a n-1 gradi di liberta'); ovviamente per i limiti di confidenza al 99% bastera' leggere il valore di t nella colonna corrispondente.

Page 22: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

COME STABILIRE LA NORMALITA' DI UNA CURVA

1) Visivamente con il comando FREQ nomevar/HISTO.2) Con il test non parametrico di Kolmogorov-Smirnov

nella variante ad un campione: se e' significativo la variabile non e' distribuita in modo normale. Es. NPAR TEST K-S(normal)=nomevar.

3) Dividendo la kurtosis e la skewness per i relativi S.E. (si ottengono con il comando DESCRIPTIVE e l'opzione STAT=ALL); il valore di "t" cosi' ottenuto si valuta nelle tabelle del "t" di Student per n-1 gradi di libertà: anche in questo caso se e' significativo la variabile non e' distribuita "normalmente". Alti valori di kurtosis e di skewness (grosso modo oltre le 2-3 unita') sono gia' indicativi di mancanza di "normalità".

Page 23: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

ACCURATEZZA DI UNA MISURA

Una misura si dice accurata quando presenta queste due caratteristiche:

a) precisione: dipende dal grado di dispersione di un insieme di osservazioni; una misura meno e' dispersa e piu' e' precisa;

b) mancanza di vizio: e' la capacita' di ottenere il valore vero.

Page 24: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

SORGENTI DI VARIAZIONE

In medicina e biologia le misure cliniche quantitative sono esposte a tre tipi fondamentali di variazione:1) biologica: tutti i fattori che rendono diversi i vari individui: eta',

sesso, razza, dieta, ecc; la variazione dovuta alla variabilita' biologica è detta anche "variabilità tra soggetti" (between subjects);

2) temporale : tutti i fattori che determinano variazioni nello stesso individuo da un momento all'altro;

3) errore di misura: tutti i fattori che tendono a produrre differenze in misure diverse dello stesso fenomeno (strumenti di misura, errori tecnici, diversita' dell'osservatore, ecc); tale variabilita' e' detta anche "variabilita' entro soggetti" (within subjects).

L'analisi della varianza e' la tecnica statistica che permette di disaggregare la varianza totale in due componenti: quella inter-soggetti e quella intra-soggetti.

Page 25: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

COMANDI PER SPSS/PC:

EXAMINE tsh / PLOT=ALL.DESCRIPTIVE (DES): da' per ogni variabile la media e

la DS; con l'opzione STAT=ALL si ottengono anche lo SE della media , la varianza, il range, la Kurtosis (indica la presenza di piu' picchi: piu' il valore e' distante da 0 e piu' picchi esistono) e la Skewness (cioe' il grado di asimmetria: piu' e' distante da 0 e piu' e' asimmetrica una curva). Es.:

DES eta peso altezza/STAT=ALL.

Con OPT=3 si crea una nuova variabile con gli Z-scores: si ottiene sottraendo il valore medio di una variabile da ogni valore , e dividendo la differenza per la DS della variabile. Il nome della nuova variabile e' lo stesso preceduto da una Z.

Page 26: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

MEANSCalcola la media e la DS di una o piu' variabili suddivise in uno o piu' gruppi (BY). Con l'opzione STAT=1 il programma calcola anche l'analisi della varianza. Es: MEANS t3 t4 tsh BY sesso/STAT=1.

FREQUENCIES (FRE)produce tavole di frequenza per i valori di ogni variabile specificata. Esistono diversi sottocomandi: BARCHART (esprime le frequenze come colonne a barre), HISTOGRAM (esprime le frequenze come colonne), NTILES, PERCENTILES (calcola i percentili specificati subito dopo). Es.: FRE eta/NTILES=4. (calcola i percentili 25, 50 e 75) FRE eta/PERC 3 10 25 50 75 90 97.

Page 27: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Il caso

Page 28: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Misure di accordo: esempio di un esame interpretato da due clinici diversi

Secondo clinico

Test + Test –

Test + a b a+b 46 10 56

Primo Clinico

Test - c d c+d12 32 44

58 42 100

46 + 32 Accordo osservato = ----------- = 78 %

100

Page 29: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Ma questa descrizione del loro accordo è piuttosto superficiale, perché se il secondo clinico avesse semplicemente lanciato in aria una moneta (il caso) egli sarebbe stato per un certo numero di volte d’accordo con il primo osservatore.Se vogliamo calcolare l’accordo fra i due clinici basandoci solo sul caso la tabella sarebbe la seguente:

Secondo clinico (lancio monetina) Test + Test –

Primo

Test + a 50% di 56=28 b 50% di 56=28 a+b 56Clinico

Test - c 50% di 44=22 d 50% di 44=22 c+d 44

50/100= 50% 50/100= 50% 100

Accordo legato al caso = (28+22)/100 = 50 %

Page 30: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Se supponiamo che il caso intervenga anzichè 50 e 50 %, 58% dei casi un test positivo e il 42% dei casi un test neg.:

Secondo clinico (lancio monetina)

Test + Test – a b

Primo Test + 58% di 56=32,5 42% di 56=23,5 a+b 56

c dclinico Test - 58% di 44=25,5 42% di 44=18,5 c+d 44

58/100= 58% 42/100= 42% 100

Accordo atteso in base al caso = (32,5+18,5)/100 = 51 %

Page 31: Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Quindi l’accordo trovato era del 78 % e l’accordo atteso soltanto in base al caso era del 51 %.

Esiste un modo per combinare queste due percentuali in un indice che sia clinicamente utile? Questo indice si chiama K (kappa o di concordanza) e rappresenta la proporzione di accordo potenziale, escludendo quindi il caso, effettivamente raggiunto.

Page 32: Statistica descrittiva e inferenziale Prof. Franco Zappulla.