STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica...

30
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE

Transcript of STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica...

Page 1: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA

Corso di Laurea Triennale in InfermieristicaAnno III

TERZA LEZIONE

Page 2: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

Di solito le variabili rilevate sui soggetti sono più di una

Si supponga di rilevare due variabili X e Y

(es. peso e altezza di un neonato, livello di colesterolo e di acido urico, circonferenza cranica e settimane di gestazione, stadio tumorale e livello di dolore, ecc)

In molti casi è importante determinare se vi sono relazioni di dipendenza tra le due variabili e il tipo e l’intensità di tali relazioni

Page 3: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

RELAZIONI TRA VARIABILIQUANTITATIVE

Page 4: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

Siano X e Y due variabili quantitative rilevate su n soggetti

(x1,y1) sono i valori rilevati sul soggetto 1(x2,y2) sono i valori rilevati sul soggetto 2…….(xn,yn) sono i valori rilevati sul soggetto n

ogni coppia di valori rappresenta un punto nel piano cartesiano (X,Y)

il protocollo sperimentale (x1,y1), (x2,y2),…, (xn,yn) è una “nuvola” di punti nel piano

Page 5: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

La morfologia della nuvola (scatter, diagramma di dispersione) fornisce informazioni sul tipo di legame esistente tra le variabili

associazione lineare positiva associazione lineare negativa

Page 6: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

assenza di associazione

associazione non lineare(curvilinea)

Page 7: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

Come misurare il tipo di associazione lineare tra due variabili ??

COVARIANZA

Media dei prodotti degli scarti dalla media

n

iiixy yyxx

ns

1

1))((

Page 8: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

↑media delle X

media delle Y

I quadrantescarti concordanti

(+,+)

II quadrantescarti discordanti

(+,-)

IV quadrantescarti discordanti

(-,+)

III quadrantescarti concordanti

(-,-)

I-III quadrante scarti concordanti → prodotti positiviII-IV quadrante scarti discordanti→ prodotti negativi

Page 9: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

dipendenza lineare positivaprevalgono i punti I-II quadranteprevalgono i prodotti positivicovarianza positiva

Page 10: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

dipendenza lineare negativaprevalgono i punti II-IV quadranteprevalgono i prodotti negativicovarianza negativa

Page 11: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

nessuna dipendenza lineare nessuna direzione individuabilei prodotti negativi e positivi si compensanocovarianza approssimativamente nulla

Page 12: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

la covarianza dipende criticamente dalle unità di misura di X e Y

la covarianza individua il tipo di legame lineare esistente tra le variabili ma non la forza di tale associazione

Page 13: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

COEFFICIENTE DI CORRELAZIONE LINEARE

Rapporto tra la covarianza e il prodotto degli sqm

yx

xyxy ss

sr

non dipende dalle unità di misuravaria tra -1 e 1è nullo in caso di assenza di legame lineareè -1 o 1 in caso di legame lineare perfetto (negativo o positivo)

Page 14: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.
Page 15: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

In uno studio sono state esaminate le radiografie fatte ai reni di bambini normali, per misurare le distanze della parete interna del rene dalla spina dorsale, una distanza facilmente visualizzabile nelle radiografie e utile nella diagnosi di malattia renale. Nella tabella sono riportate le misure ottenute per la parte superiore del rene destro insieme con l’età del bambino. Verifica la relazione lineare tra la distanza e l’età.

Età del bambino in anni (X) 2 3 4 5 6 7 8 9 10 11

Distanza in mm (Y) 20 18 23 20 22 23 25 29 27 28

Page 16: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

x y scarti x scarti y scarti2 x scarti2 y prodotti

2 20 -4.5 -3.5 20.25 12.25 15.75

3 18 -3.5 -5.5 12.25 30.25 19.25

4 23 -2.5 -0.5 6.25 0.25 1.25

5 20 -1.5 -3.5 2.25 12.25 5.25

6 22 -0.5 -1.5 0.25 2.25 0.75

7 23 0.5 -0.5 0.25 0.25 -0.25

8 25 1.5 1.5 2.25 2.25 2.25

9 29 2.5 5.5 6.25 30.25 13.75

10 27 3.5 3.5 12.25 12.25 12.25

11 28 4.5 4.5 20.25 20.25 20.25

65 235 0 0 82.5 122.5 90.5

Page 17: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

media X 65/10 = 6.5 anni

media Y 235/10 = 23.5 mm

varianza X 82.5/10 = 8.25 anni2 sqm X 2.87 anni

varianza Y 122.5/10 = 12.25 mm2 sqm Y 3.5 mm

covarianza XY 90.5/10 = 9.05 anni x mm

coeff. corr. 9.05/(2.87 x 3.5) = 0.90

forte dipendenza lineare positiva

Page 18: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

REGRESSIONE LINEARE

Se tra X e Y esiste un forte legame lineare (rxy elevato) si può tentare di spiegare il valore di Y come funzionelineare di X secondo la relazione

Y=a+bX

Dato un valore osservato xi il valore previsto di Y comefunzione lineare di X sarà allora

ŷi=a+bxi

il quale sarà diverso dal valore osservato yi

Page 19: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

La differenza tra il valore osservato e quello previsto dalla relazione lineare

ei= ŷi-yi

è detto errore di previsione

La regressione è tanto più precisa quanto minori sono gli errori che si commettono

I parametri a e b della retta di regressione saranno determinati in modo da rendere minima la somma dei quadrati degli errori

Page 20: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

← errore di previsione

Page 21: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

METODO DEI MINIMI QUADRATI

Quale retta utilizzare tra tutte le possibilirette che possono passare tra i punti ??

Blu ?? Verde ??? Rossa ?????

Quella che rende minima la somma deiquadrati degli errori (quella che sbagliadi meno)

Page 22: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

RETTA DI REGRESSIONE

PARAMETRI DELLA RETTA

xbya intercetta

2yxy ssb / coefficiente angolare

Page 23: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

PRECISIONE DELLA REGRESSIONE

Quando la previsione di Y come funzione lineare di X da luogo a risultati precisi ?

R2 quadrato del coefficiente di correlazione

varia tra 0 e 1 ed esprime la percentuale di variabilità delle Y spiegata dalla relazione lineare con X

R2 = 0 la regressione non spiega nienteR2 = 1 la regressione spiega tutto

Es: se tra due variabili X e Y c’è un coefficiente di correlazione di 0.80 la regressione spiegherebbe il 64% della variabilità delle Y, il rimanente 36%dipende da altre cause

Page 24: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

Es. Dato che il coefficiente di correlazione tra le distanze della parete interna del rene dalla spina dorsale e l’età dei bambini risulta molto alto (0.90), in una regressione lineare tra le due variabili, l’età spiega l’81% della variabilità di tali distanze.

I parametri della retta di regressione risultano

b = 9.05/8.25 = 1.097

a = 23.5 – 1.097 x 6.5 =16.37

Y = 16.37 + 1.097 X

a età 0 la distanza è 16.37 mm e cresce di 1.097 mm all’anno

Qual è la distanze prevista per un bambino di 45 mesi (3.75 anni)

y = 16.37 + 1.097 x 3.75 = 20.48 mm

Page 25: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

Quando X è il tempo (T) le coppie di punti (t1,y1), (t2,y2),…, (tn,yn) mostrano l’evoluzione della variabile Y nel tempo

Una correlazione positiva di Y con T dimostra che Y tende a crescere linearmente con il tempo

Una correlazione negativa di Y con T dimostra che Y tende a decrescere linearmente con il tempo

Un’assenza di correlazione di Y con T dimostra un’assenza di trend lineare di Y

Se la relazione lineare tra Y e T è forte si possono prevedere i valori futuri di Y tramite la retta di regressione

Page 26: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

Es. Serie temporale delle percentuali di fumatori maschi in Italia(Fonte: ISTAT, 2003, L’Italia in cifre)

anno %

1993 45.6

1995 33.9

1997 33.1

1999 32.4

2001 31.2

Page 27: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

t y scarti t scarti y scarti2 t scarti2 y prodotti

3 45.6 -4 10.36 16 107.33 -41.44

5 33.9 -2 -1.34 4 1.80 2.68

7 33.1 0 -2.14 0 4.58 0

9 32.4 4 -2.84 4 8.07 -11.36

11 31.2 2 -4.04 16 16.32 -8.08

35 176.2 0 0 40 138.10 -58.20

Page 28: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

media T 35/5 = 7 anni

media Y 176.2/5 = 35.24 pp

varianza T 40/5 = 8 anni2 sqm T 2.83 anni

varianza Y 138.10/5 = 27.62 pp2 sqm Y 5.26 pp

covarianza TY -58.20/5 = -11.64 anni x pp

coeff. corr. -11.64/(2.83 x 5.26) = 0.78

forte dipendenza lineare negativa

Page 29: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

Dato che il coefficiente di correlazione tra gli anni e la % fumatori maschi risulta alto (0.79), in una regressione lineare tra le due variabili, il trend temporale spiega il 62% della variabilità di tali percentuali.

I parametri della retta di regressione risultano

b = -11.64/8 = -1.455

a = 35.24 – (-1.455) x 7 = 45.425

Y = 45.425 - 1.455 T

All’anno 0 (1990) la % fumatori maschi è stimata del 45.4% e decresce di 1.455 punti percentuali all’anno

Qual’è la % prevista per il 2012 (t=22)

y = 45.425 - 1.455 x 22 = 13.415 % (!!!)

Attenzione a estrapolare troppo !!!

Page 30: STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Corso di Laurea Triennale in Infermieristica Anno III TERZA LEZIONE.

Regressione non lineare

Non tutte le dipendenze sono di tipo lineare, ma molte si possono riportare a dipendenze lineari

Y non cresce linearmente con X ma con il ln XSi può analizzare la dipendenza lineare di Y con ln X