STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e...

22
STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare induzione e previsione

Transcript of STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e...

Page 1: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

STATISTICA

DESCRITTIVADESCRITTIVA INFERENZIALEINFERENZIALE

Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare

Ho un insieme di dati e li utilizzo per fare induzione e previsione

Page 2: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

LA TERMINOLOGIA

• Statistica descrittiva ed inferenziale• Campione e Universo• Parametri e Stime • Variabili e Dati • Scale di misura • Rappresentazione grafica

La Statistica ha una sua terminologia. Molti termini sono familiari: alcuni sono usati nel linguaggio ordinario sia pure in accezioni leggermente diverse.

Page 3: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

UNIVERSO e CAMPIONE

Un campione è un insieme di elementi tratti da un universo (o popolazione). Un universo consiste della totalità degli elementi che hanno certe caratteristiche.

Esempi: Universo: tutti i pazienti adulti con una certa malattia.

Campione: 120 pazienti con quella malattia, inclusi in una sperimentazione clinica.

Universo: un lotto di 5000 compresse.

Campione: 10 compresse di quel lotto sottoposte al controllo del peso.

  Il campione è soltanto una parte del tutto.

Page 4: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

PARAMETRI DELL'UNIVERSO E STIME

I parametri sono caratteristiche tipiche e costanti di un dato universo ed hanno, in genere, valore ignoto: sono anche detti costanti o valori veri per distinguerli dai valori campionari che sono invece variabili.

I parametri sono indicati con lettere greche (es.: una media si denota con , una proporzione con ).

Esempi:La media dei pesi di tutte le compresse in un certo lotto di produzione ().

La proporzione di -talassemici tra tutti i nati nella provincia di Ferrara tra il 1950 ed il 1989 ().

Page 5: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

INFERENZA

Nelle situazioni sperimentali si eseguono osservazioni su di un campione per trarre conclusioni (o fare inferenza) sulle caratteristiche della universo.

Tale procedura è necessaria poiché un universo infinito non è conoscibile in modo esaustivo, neppure virtualmente.

(es: tutti i soggetti con tubercolosi polmonare nella storia, anche futura, dell'umanità; la totalità delle misure che si possono ottenere con un certo spettrofotometro)

Anche un universo finito

(es: tutti i residenti a Milano; tutte le fiale di un lotto) di rado può essere esplorato completamente, per problemi di tempo o costo.

Page 6: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

VARIABILI E DATI

Si dicono variabili le caratteristiche rilevabili di un dato sistema oggetto di studioI dati sono i valori assunti dalle variabili

I dati sperimentali si presentano sotto differenti forme, essi possono essere sia di tipo quantitativo sia di tipo qualitativo, ed essere espressi o con scale continue o con scale discrete.

Page 7: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

Esempi:

sesso, età, peso (di pazienti inclusi in uno studio),

I valori numerici ( anni, per la variabile "età"; chili, per il "peso corporeo", mmHg, per la "pressione arteriosa" )

o le modalità (maschio o femmina per la variabile "sesso"; A, AB, B, 0 per il "gruppo sanguigno", elementare, media inferiore, media superiore, università ,

per la variabile "titolo di studio ),

assunti dalle variabili, costituiscono i dati, ricavabili da esperi-menti scientifici, da indagini epidemiologiche o di mercato.

Page 8: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

Le variabiliLe variabili

•Quantitative

•Qualitative

Discreta

Continua

VariabiliEsempio 3

Esempio 1

Esempio 2

Scala

Nominale

Ordinale Esempio 4

Page 9: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

VARIABILI QUANTITATIVE IN SCALA DISCRETA

Si dicono discrete quelle variabili che possono assumere …

un numero finito di valori (es.: il numero di nati mal-formati in un anno, il numero di cavie sopravvissute ad una data dose di farmaco sommi-nistrata a 20 cavie),

Oppure un'infinità numerabile di valori, almeno virtualmente (es.: il numero di attacchi anginosi per settimana in un soggetto coronaropatico).

Page 10: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

VARIABILI QUALITATIVE IN SCALA NOMINALE

Discrete sono inoltre le variabili che esprimono qualità o modalità che non si possono porre in ordine di grandezza,

ad esempio il sesso (femmina, maschio) o il gruppo sanguigno (0, A, B, AB).

La scala in cui sono espresse tali variabili è detta scala nominale.

Page 11: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA NOMINALE (esempi)

Gruppo sanguigno di 100 soggetti residenti nella provincia di Bologna.

A 0 A A A 0 AA 0 0 0 0 A 0

AB 0 A A 0 B BA A 0 0 B 0 0A A 0 A 0 AB 00 0 0 0 A 0 0A 0 A A A A AA A A 0 0 0 00 0 0 A 0 A B0 B 0 A 0 0 AA 0 A 0 0 0 00 0 A B B A AA B 0 A 0 A 0A 0 A A 0 AB AA

Distribuzione di frequenza del gruppo sanguigno di 100 soggetti residenti nella provincia di Bologna

Tipo n° soggetti

0 47

A 41

B 9

AB 3

Totale 100

Page 12: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA NOMINALE (esempi)

SCALA DICOTOMICA: dati più semplici consistono in osservazioni non ordinate dicotomiche o del tipo "tutto o nulla"; cioè: il paziente vive o muore, ha o non ha un particolare attributo.

Stato a 28 giorni dal ricovero

Trattati con propranololo

Non trattati

Morti 7 17Vivi 38 29

Totale 45 46% sopravvivenza 84% 63%

Alberto Morabito
Con i dati espressi in scala nominale, l'ovvia ed intuitiva misura sintetica di descrizione è rappresentata dalla proporzione o percentuale dei soggetti che presentano l'attributo.Lo scopo è di trarre una conclusione relativa all'effetto del farmaco, se usato in una vasta popolazione di pazienti affetti da infarto miocardico.
Page 13: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA NOMINALE

Non necessariamente una scala nominale deve essere dicotomica; spesso vi sono più di due alternative o criteri di classificazione. Per esempio i gruppi sanguigni illustrano una scala policotomica non ordinata.

  GruppoSanguigno

donne con tromboembolia

donne senza tromboembolia

n. % n %

A 32 58 51 35B 8 15 19 13

AB 6 11 5 30 9 16 70 49

Totale 55 100 145 100

SCALA NOMINALE (esempi)

Alberto Morabito
L'osservazione delle percentuali in funzione del gruppo sanguigno suggerisce un deficit del sangue di tipo 0 nel gruppo affetto da tromboembolia (16%) in confronto ai controlli (49%).
Page 14: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA ORDINALE

Non sempre le variabili continue sono misurabili in modo quantitativo, anche se i loro valori possono esser disposti in ordine di grandezza.

Un paziente arruolato in uno studio di efficacia di un analgesico, può patire una qualunque intensità di dolore senza potervi associare una quantità. Egli, però, può classificare l'intensità del dolore nella scala ordinale:

nulla < lieve < moderata< forte

Alle modalità si associa un punteggio (es.: nulla=0, lieve=1, moderata=2, forte=3) che non ha significato quantitativo: 2 non è il doppio di 1, 3 non è il triplo di 1, la differenza tra 2 e 1 non è uguale a quella tra 3 e 2.

Page 15: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA ORDINALE

Una variabile quantitativa può anche essere misurata su scala ordinale.

Esempi: L'età dei pazienti può essere espressa nella scala ordinale

bambini < ragazzi < adulti < anziani

Il numero di episodi anginosi alla settimana può essere espresso in scala ordinale

assenti < rari < frequenti o, addirittura, in modo binario:

NO < SI

Page 16: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA ORDINALE

Distribuzione di frequenza della variabile "Titolo di studio" (L'Italia in cifre, ISTAT 1996).

Titolo di studio n° soggetti

nessuno 1.123

elementare 23.962

media inferiore 16.418

media superiore 9.947

laurea 2.032

Totale 53.482

Page 17: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA A RANGHI La scala a ranghi è quella che ordina gli elementi di un gruppo dal maggiore al minore in accordo alla grandezza delle osservazioni, assegna i numeri d'ordine corrispondenti alla posizione occupata (rango) e trascura le distanze tra gli elementi ordinati.

Per esempio, si supponga che pazienti con cefalea cronica partecipino ad una prova clinica in cui essi ricevono 4 differenti preparati analgesici in 4 differenti occasioni.

Al paziente si chiede di classificare i preparati in funzione del livello di riduzione del dolore da un massimo ad un minimo.

Se un paziente ritiene che il farmaco A sia migliore e il farmaco B il secondo, egli dovrebbe assegnare ai due rispettivamente il rango 1 e 2 indipendentemente dal fatto che egli ritenga A molto superiore o appena meglio di B.

Alberto Morabito
L'attribuzione dei ranghi ad ampi gruppi è una forma più restrittiva di scala di misura che non la classificazione ordinale. L'attribuzione dei ranghi implica la posizione relativa entro il gruppo; le classificazioni ordinali implicano l'uso di un ceto criterio standard di giudizio esterno o assoluto.
Page 18: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA A RANGHI

Punteggio attribuito a 5 caratteristiche del neonato rilevate all'esame obiettivo necessarie per ottenere il punteggio Apgar.

  Punteggio  

0 1 2Frequenza cardiaca

assente < 100 > 100

Respirazione assente lenta ed irregolare normale, piangeTono muscolare flaccido flessione estremità buona motilità

Riflessi nessuna risposta

deboli movimenti reazione vigorosa

Colorito pallido estremità cianotiche

rosato

Cara

tteri

sti

ca

 

Punteggio: DA ZERO A DIECI

Page 19: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA NUMERICA DISCRETA

Distribuzione di frequenza del numero di componenti per famiglia (L'Italia in cifre, ISTAT 1996).

Componenti n° famiglie(Frequenze)modalità assolute relative cumulate relative

1 4.101 0.206 4 101 0.2062 4.917 0.247 9 018 0.4533 4.419 0.222 13 437 0.6754 4.220 0.212 17 657 0.8875 1.572 0.079 19 229 0.9666 477 0.024 19 706 0.990

7 o più 203 0.010 19 909 1.000Totale 19.909 1.000

Page 20: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

VARIABILI QUANTITATIVE IN SCALA CONTINUA

Si dice continua una variabile che può virtualmente assumere un qualsiasi valore reale, in un certo ambito.

Ad esempio, Achille può essere alto esattamente metri¸ cioè 1.7724538509... m.

In pratica, tuttavia, le misure di una variabile quan-titativa possono assumere solo certi valori, in relazione al potere di risoluzione dello strumento di misura.

Ad esempio, l'altezza di Achille è 1.77 m, se misurata con un metro da sarto; è invece 1.772 m se misurata con lo stadio-metro Harpenden.

Page 21: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA NUMERICA CONTINUA

Lunghezza supina (cm) in un campione di 60 neonati. Valori ottenuti con l'infantometro Harpenden.

51.0 49.4 49.0 52.5 51.5 51.8

46.5 47.8 49.7 44.5 49.8 53.0

48.7 50.0 52.9 50.8 46.2 48.9

54.5 48.2 48.9 51.2 49.5 56.3

46.0 52.2 47.0 50.8 50.0 52.5

51.2 51.1 54.7 52.3 48.2 50.8

55.0 50.2 50.3 47.7 48.5 53.8

50.2 53.4 47.4 50.5 51.7 49.5

44.4 49.2 50.5 49.5 52.9 50.5

54.0 46.5 51.5 50.9 51.6 52.7

frequenzalimiti di classe

valore centrale

Assoluta Cumulata

44.25 - 45.75 45.0 2 245.75 - 47.25 46.5 5 747.25 - 48.75 48.0 7 1448.75 - 50.25 49.5 14 2850.25 - 51.75 51.0 16 4451.75 - 53.25 52.5 9 5353.25 - 54.75 54.0 5 5854.75 - 56.25 55.5 1 5956.25 - 57.75 57.0 1 60

Page 22: STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare.

SCALA NUMERICA CONTINUAStima dell'incidenza e mortalità per tumore nelle Regioni Italiane.

(Centro di riferimento oncologico di Aviano, 1990)

Maschi; Sede del tumore Femmine10% vie aereo-digestive superiori 3%---- mammella 27%

23% polmone 6% 8% stomaco 7% 7% fegato e pancreas 5%12% colon-retto 14%12% vescica e rene 5% 9% prostata ---- ---- ovaio e utero 9% 7% leucemie e linfomi 6%

12%; altri tumori; 18%

a) La principale causa di morte tra le donne è il tumore alla mammella.

b) Nei maschi, tra 100 casi di tumore 23 sono casi di tumore al polmone.

c) Il 9% dei maschi sviluppa un tumore alla prostata.

d) Globalmente l'incidenza dei tumori è la stessa nei maschi e nelle femmine;

e) La localizzazione dei tumori è simile nei due sessi.

continua