8_LEZ_ Analisi della dipendenza_ 3°anno

15
Corso di Statistica I Facoltà di Medicina e Chirurgia CORSO DI STATISTICA Dott.sa Laura Perrotta - Lezione 3 - Analisi della dipendenza - A.A. 2007/2008

Transcript of 8_LEZ_ Analisi della dipendenza_ 3°anno

Page 1: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

I Facoltà di Medicina e Chirurgia

CORSO DI STATISTICADott.sa Laura Perrotta

- Lezione 3 - Analisi della dipendenza -

A.A. 2007/2008

Page 2: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

ANALISI DELLA DIPENDENZA Esiste un’associazione tra due variabili quando in

corrispondenza della distribuzione dei valori di una variabile, quelli dell’altra si dispongono in modo prevedibile (peso-altezza; colore occhi-capelli).

L’associazione può verificarsi tra due caratteri quantitativi, o qualitativi, o uno qualitativo e uno quantitativo.

Il concetto di associazione porta a pensare se due fenomeni sono collegati da una funzione (i valori di una variabile tendono ad aumentare o a diminuire in relazione ai valori assunti dall’altra variabile) vi è necessariamente un legame causa-effetto.

Page 3: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

ANALISI TRA VARIABILI QUALITATIVE

Si utilizzano le tabelle di contingenza per verificare l’associazione fra caratteri qualitativi (ad esempio valutare il legame tra esposizione a rischio e patologia).

Page 4: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

ANALISI TRA VARIABILI QUANTITATIVE:CORRELAZIONE LINEARE

Nel caso di due caratteri quantitativi per valutare l’ipotesi di una loro associazione si calcola il COEFFICIENTE DI CORRELAZIONE “r” DI BRAVAIS-PEARSON

r è un numero puro ed indica il verso e l’intensità della correlazione lineare tra due variabili in un campione estratto da una popolazione

)()(

),(

ydevianzaxdevianza

yxcodevianzar

Page 5: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

LA CODEVIANZA

La codevianza è la somma dei prodotti degli scarti di ciascuna coppia di variabili dalla rispettiva media.

In analogia al concetto della devianza che può assumere solo valori positivi essendo il quadrato degli scarti rispetto ad una sola variabile

La codevianza può risultare negativa poiché considera il prodotto degli scarti di due variabili, al posto degli scarti di una sola variabile presi due volte come avviene per la varianza.

Page 6: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

Il coefficiente è un indice campionario del grado e del tipo di associazione esistente tra due variabili;

Il segno indica il tipo (positivo se la variazione è concorde, negativo se all’aumentare di una variabile l’altra decresce);

Il valore assoluto ne specifica il grado.

22 yyxx

yyxxr

La formula del coefficiente di correlazione è

Page 7: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

La variabilità congiunta (codev(x,y)) non può essere superiore alla variabilità delle singole variabili (var(x);var(y)), pertanto il coefficiente r varia tra -1 ≤ r ≤ +1

Se r = -1 CASO DI PERFETTA CORRELAZIONE NEGATIVA

Se r = +1 CASO DI PERFETTA CORRELAZIONE POSITIVA

Se r = 0 ASSENZA DI CORRELAZIONE

0 < |r| < 1 indica il grado di intensità della correlazione negativa o positiva tra le variabili

Page 8: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

ESEMPIO Consideriamo i risultati ottenuti

misurando un campione di 15 soggetti nefropatici e 5 variabili di interesse fisiopatologico.

Analizziamo le coppie di variabili pressione diastolica-azoto ureico; azoto ureico-acido ureico; colesterolo-creatina.

Disegniamo il diagramma di dispersione a due dimensioni dei punti le cui coordinate sono rappresentate dalle variabili indicate

Page 9: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

La pressione diastolica tende ad aumentare congiuntamente all’azoto uricor = + 0,86Correlazione positiva

Non si rileva particolare associazione tra le due variabilir = 0 Assenza assoluta di correlazione

All’incrementare della creatina i valori del colesterolo diminuisconor = - 0,85Correlazione negativa

Page 10: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

IL COEFFICIENTE DI DETERMINAZIONE r²

Fornisce l’indicazione della bontà dell’accostamento dei punti osservati rispetto alla retta di regressione.

Il valore di r² varia tra 0 e 1. Esite una relazione tra correlazione e regressione:quando |r|=1 => r²=1 la retta di regressione interpola perfettamente i punti osservati.

Nel primo caso r² = 0,86 ² = 0,74 significa che il 74% della variazione pressoria è spiegata dall’ozoto ureico e viceversa, cioè esiste una variabilità comune del 74% , mentre il rimanente 26% di variabilità è legato ad altri fattori che non si è in grado di spiegare con la sola correlazione.

Page 11: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

LA REGRESSIONE LINEARE

La regressione ha lo scopo di stimare il valore della variabile dipendente associato ad un determinato risultato della variabile indipendente quando vi è una relazione matematica che lega le due variabili.

La variabile indipendente x viene considerata priva di errore di campionamento e la variabile indipendente y è soggetta a variazioni casuali.

Page 12: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

La relazione più semplice tra due variabili è identificabile nella funzione lineare, cioè in una retta.

Nel caso specifico della retta di regressione i parametri di una funzione lineare sono rappresentati da

y = a + bx

b è il coefficiente di regressione; indica l’inclinazione (o rapporto incrementale), cioè determina la forza dell’impatto della variabile x su y.

a è l’intercetta con lasse delle y (o termine noto).

Page 13: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

METODO DEI MINIMI QUADRATI E’ una tecnica utilizzata nella regressione per trovare la

retta che si adatta statisticamente, con il minimo errore possibile, ai valori osservati.

La retta che si ottiene non intercetta mai, in un diagramma, tutti i punti aventi come coordinate le coppie dei valori osservati, ma è quella più approssimata ai dati e ci consente di stimare il valore di una variabile in relazione ai valori che assume l’altra.In altre parole, una retta di regressione calcolata su di un campione rende possibile la stima dei valori più probabili della popolazione da cui il campione è stato estratto.

Il segno del coefficiente di regressione determina l’inclinazione della retta di regressione, che può essere positiva o negativa

Page 14: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

Le formule per il calcolo dei coefficienti della retta di regressione:

22

2

22

xxn

xyxya

xxn

yxxynb

Page 15: 8_LEZ_ Analisi della dipendenza_ 3°anno

Corso di Statistica

Esempio La correlazione tra pressione e azoto ureico è r=0,86 La retta di regressione è

; 19,189,51)( ureicoazotopressione mmHg

La pressione si incrementa di 1,19 mmHg in media per ogni mg/dl di azoto ureico. Se volessimo prendere la pressione diastolica in corrispondenza di 25 mg/dl di azoto ureico, sostituendo il dato nella formula risulterebbe una pressione di circa 82 mmHg