L A PREDIZIONE O REGRESSIONE 1. D EFINIZIONE DI P REDIZIONE (1) Si usa una misurazione per predire...

Post on 02-May-2015

217 views 0 download

Transcript of L A PREDIZIONE O REGRESSIONE 1. D EFINIZIONE DI P REDIZIONE (1) Si usa una misurazione per predire...

LA PREDIZIONE O REGRESSIONE

1

DEFINIZIONE DI PREDIZIONE (1)

Si usa una misurazione per predire un’altra misurazione di comportamento.

Le misurazioni sono generalmente dei test mentali (abilità, profitto, personalità, atteggiamenti, temperamenti) o dati fisici o altre rilevazioni comportamentali.

2

Concetto della predizione statistica (regressione):

Se a punteggi alti di un test (predittore) corrispondono punteggi alti di un altro test (comportamento predetto o stimato) e, viceversa, a punteggi bassi del predittore corrispondono punteggi bassi del predetto, si può usare il primo per predire il secondo.

Si ricorre al concetto matematico di funzione

Una funzione matematica lega un insieme di numeri, usando costanti e variabili (e anche altre funzioni matematiche).

Es y= k+x Y= log 10 (x) Y= a+mx

Si deve tenere conto che le predizioni non sono precise, e quindi la funzione dovrebbe essere scritta sempre così

Y= mx + a + e

dove e indica la parte di errore della predizione.

Studieremo solo la relazione lineare

DEFINIZIONE DI PREDIZIONE (2)

Dovremo trasformare il punteggio del test predittore con una equazione di una retta, che predica al meglio (ovvero commettendo meno errori possibili) il punteggio ottenuto dal soggetto nel test predetto.

L’equazione per trasformare il punteggio è la seguente:

amxy ii ˆ6

EQUAZIONE DI REGRESSIONE

La costante additiva a è chiamata intercetta. Rappresenta il punto in cui la retta incontra l’asse delle ordinate.

La costante moltiplicativa m è chiamata pendenza o coefficiente angolare. Rappresenta il cambiamento in y all’aumentare di una unità in x.

7

amxy ii ˆ

ESEMPI DI PREDIZIONE

Un test di abilità verbale predice la media dei voti a scuola.

Una scala di Stima di sé è usata per predire il Senso di benessere e di salute psicofisica

Il punteggio di Coscienziosità predice il livello di efficienza nel lavoro di gruppo.

8

Piccolo esempio numerico

Raccogliamo un piccolo numero di osservazioni:

Abilità verbale (un test psicometrico) Profitto scolastico (voto scolastico dato da

insegnanti) Supponiamo che entrambe le misurazioni

siano delle scale a intervalli

Osservazioni per otto studentiTest abilità verbale

Voto scolastico

A 12 8

B 10 7

C 14 8

D 9 5

E 9 6

F 13 9

G 11 7

H 8 5

Riportiamo in un grafico cartesiano le otto coppie di osservazioni

In ascissa indichiamo la variabile indipendente (Abilità verbale)

In ordinata riportiamo il valore della variabile dipendente (Voto scolastico)

Osserviamo la distribuzione dei punteggi

La disposizione dei punti indica che c’è una relazione POSITIVA fra

le due variabili

La relazione POSITIVA fra le due variabili può

essere descritta e riassunta con una

RETTA

Quale retta?Rossa verde o

azzurra?

Quella che è più vicina a tutti i

punti è la migliore

Come stabilire i parametri della retta di predizione?

Che criterio si può seguire?

Stabilendo il criterio dei minimi quadrati: gli errori (ovvero gli scarti tra la retta di predizione e il punteggio realmente ottenuto dal soggetto) devono essere il più possibile piccoli, e il criterio operativo è quello di considerare il quadrato degli scarti, o errori.

I metodi dell’analisi matematica forniscono la risposta con un’equazione dei minimi quadrati.

17

Gli errori positivi devono compensare quelli negativi

La loro somma è uguale a zero Perciò, il criterio da minimizzare non può essere

l’errore semplice, ma

l’errore elevato al quadrato

e la predizione si chiama Equazione della retta dei minimi quadrati

Errore di previsione negativo

Errore di previsione positivo

Quella che è più vicina a tutti i punti, seguendo il criterio

dei MINIMI QUADRATI

iii amXY Variabile dipendente, spiegata, valoreosservato

inclinazione

variabile indipendente

intercetta

errore

amXY ii ˆStima di y, valore predetto

Il criterio può essere espresso con la formula

min)ˆ(1

2

1

2

N

iii

N

ii YY

222 )()(

))((

XXN

YXXYN

XX

YYXX

s

srm

i

ii

x

y

XbYa

Formula di calcolo

626,0252

158

73967648

47304888

)86(956*8

55*86611*82

m

135,075,10*626,0875,6 a

XY *626,0135,0ˆ

Applicazione della formule

abilità votovoto_pre

detto

8 5 5,15

9 5 5,78

9 6 5,78

10 7 6,4

11 7 7,03

12 8 7,66

13 9 8,29

14 8 8,91

somma 86 55 55

media 10,75 6,875 6,875

Predizione usando i punti standardizzati

PREDIZIONE CON PUNTI ZETA

xyxiyi rzz ˆẑyi = zeta predettozxi = zeta predittorerxy = coefficiente di correlazione 27

soggetti

Test R Test T Test R

zeta

test T zeta

p1 37 50 1,33 0,45

p2 39 75 1,49 1,58

p3 9 24 -0,86 -0,72

p4 8 11 -0,94 -1,31

p5 6 25 -1,09 -0,68

p6 39 78 1,49 1,71

p7 18 24 -0,16 -0,72

p8 16 20 -0,31 -0,90

p9 8 40 -0,94 0,00

p10 20 53 0,00 0,59

somma 200 400 0,00 0,00

dev stan 12,79 22,17 1,00 1,00

varianza 163,60 491,60 1,00 1,00

media 20 40 0,00 0,00

PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z.

PRIMO PASSAGGIO:TRASFORMAZIONE DEI PUNTEGGI IN PUNTI Z.

28

Sogg. Test R zeta Test T zetaprediz di

T

p1 1,33 0,45 1,13

p2 1,49 1,58 1,26

p3 -0,86 -0,72 -0,73

p4 -0,94 -1,31 -0,79

p5 -1,09 -0,68 -0,93

p6 1,49 1,71 1,26

p7 -0,16 -0,72 -0,13

p8 -0,31 -0,90 -0,26

p9 -0,94 0,00 -0,79

p10 0,00 0,59 0,00

somma 0,00 0,00 0,000

dev stan 1,00 1,00 0,847

varianza 1,00 1,00 0,718

media 0,00 0,00 0,000 29

PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z.

SECONDO PASSAGGIO:CALCOLO DELLA PREDIZIONE DI T CON LA FORMULA:

xyxiyi rzz ˆ

30

VARIANZA SPIEGATA

SOGGETTOTEST R ZETA

TEST T ZETA

PRODOTTI ZETA

PREDIZIONE DI T

P1 1,33 0,45 0,6 1,13P2 1,49 1,58 2,34 1,26

P3 -0,86 -0,72 0,62 -0,73

P4 -0,94 -1,31 1,23 -0,79

P5 -1,09 -0,68 0,74 -0,93

P6 1,49 1,71 2,55 1,26

P7 -0,16 -0,72 0,11 -0,13

P8 -0,31 -0,9 0,28 -0,26

P9 -0,94 0 0 -0,79

P10 0 0,59 0 0

SOMMA 0 0 8,473 0

DEVIAZIONE STD 1 1 0,877 0,847

VARIANZA 1 1 0,769 0,718

MEDIA 0 0 0,847 0

Correlazione

Varianza spiegata

31

VARIANZA SPIEGATA E RESIDUA

SOGGETTOTEST R ZETA

TEST T ZETA

PRODOTTI ZETA

PREDIZIONE DI T

P1 1,33 0,45 0,6 1,13P2 1,49 1,58 2,34 1,26

P3 -0,86 -0,72 0,62 -0,73

P4 -0,94 -1,31 1,23 -0,79

P5 -1,09 -0,68 0,74 -0,93

P6 1,49 1,71 2,55 1,26

P7 -0,16 -0,72 0,11 -0,13

P8 -0,31 -0,9 0,28 -0,26

P9 -0,94 0 0 -0,79

P10 0 0,59 0 0

SOMMA 0 0 8,473 0

DEVIAZIONE STD 1 1 0,877 0,847

VARIANZA 1 1 0,769 0,718

MEDIA 0 0 0,847 0

La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata

dalla regressione.

32

VARIANZA SPIEGATA E RESIDUA

SOGGETTOTEST R ZETA

TEST T ZETA

PRODOTTI ZETA

PREDIZIONE DI T

P1 1,33 0,45 0,6 1,13P2 1,49 1,58 2,34 1,26

P3 -0,86 -0,72 0,62 -0,73

P4 -0,94 -1,31 1,23 -0,79

P5 -1,09 -0,68 0,74 -0,93

P6 1,49 1,71 2,55 1,26

P7 -0,16 -0,72 0,11 -0,13

P8 -0,31 -0,9 0,28 -0,26

P9 -0,94 0 0 -0,79

P10 0 0,59 0 0

SOMMA 0 0 8,473 0

DEVIAZIONE STD 1 1 0,877 0,847

VARIANZA 1 1 0,769 0,718MEDIA 0 0 0,847 0

Correlazione

Notiamo che…

La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione.

33

PROPRIETÀ DELLA REGRESSIONE

La varianza dei predetti è uguale al coefficiente di determinazione: r2

La deviazione standard dei predetti è uguale al coefficiente di correlazione (in quanto radice quadrata della varianza)

34

Si può costruire o calcolare l’equazione di regressione usando i punti grezzi, senza passare per i punti standardizzati:

yMˆˆ yyii szyOttengo questa formula applicando la formula per passare dai punti zeta al punteggio grezzo:x = z · s + m dove: s = dev. std.

m = media 35

Per passare dai punti zeta ai punti grezzi

36

x-y MrMˆ

x

yxyi

x

yi s

sx

s

sy

PREDIZIONE CON MISURE SINTETICHE DI X E Y

ESEMPIO DI PREDIZIONE CON PUNTI GREZZI

37

SOGGETTI TEST R TEST TPRODOTTI

R · TR2 T2 STIME

P1 37 50 1850 1369 2500 64,97P2 39 75 2925 1521 5625 67,91P3 9 24 216 81 576 23,84P4 8 11 88 64 121 22,37P5 6 25 150 36 625 19,44P6 39 78 3042 1521 6084 67,91P7 18 24 432 324 576 37,06P8 16 20 320 256 400 34,12P9 8 40 320 64 1600 22,37P10 20 53 1060 400 2809 40,00

SOMMA 200 400 10403 5636 20916 400DEVIAZIONE STD 12,79 22,17 18,79VARIANZA 163,60 491,60 352,96MEDIA 20,00 40,00 40,00COEFF ANGOLARE (m) 1,469  

INTERCETTA (a) 10,632CORRELAZIONE 0,847

RIASSUMENDO DALLA TABELLA

Il soggetto p1 ha avuto punteggio 37 nel test R e 50 nel test T.

Il test R è usato per predire il test T. Per predire il punteggio di p1 si utilizza l’equazione

di regressione:T = R · m + a

se m = 1.469 e a = 10.623 T= 37 ·1.469 +10.623= 64.97

38

Correlazioni

1 ,912**

,0028 8

,912** 1

,0028 8

Correlazionedi PearsonSig. (2-code)NCorrelazionedi PearsonSig. (2-code)N

ab_verbale

Voto_scolastico

ab_verbaleVoto_

scolastico

La correlazione è significativa al livello 0,01 (2-code).**.

Ricordiamo la correlazione fra le due misurazioni

Regressione con SPSS...

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

Costante additiva. E’ il valore della VD quando la VI è uguale a zero. In psicologia ha un senso relativo, dovuto all’arbitrarietà delle

unità di misura (per i test mentali)

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

t di Student e sua significatività. Se non significativo, può essere omesso nell’equazione di regressione.

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

Errore standard della distribuzione campionaria della costante additiva. Serve per calcolare t e la significatività. In questo

caso è molto grande in rapporto a B. La stima di B dà un valore non significativo

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

Perché non c’è niente qui?

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

Ecco la costante moltiplicativa: è il valore che moltiplica il

punteggio dell’abilità verbale

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

Cefficiente beta standardizzato: con una sola VI, è uguale a r.

Indica l’ammontare di cambiamento della VD per ogni unità della VI.

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

t di Student: se è significativa, si interpreta come valore diverso da

zero, utile perciò nella predizione della VD

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

Significativià di t: se inferiore a 0,05, indica significatività del parametro b

nella popolazione.

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

Errore standard (=deviazione standard della distribuzione campionaria del

parametro moltiplicativo nella popolazione). Serve per calcolare la

significatività

Coefficientia

,135 1,255 ,107 ,918,627 ,115 ,912 5,460 ,002

(Costante)ab_verbale

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficienti

standardizzati

t Sig.

Variabile dipendente: Voto_scolasticoa.

Errore standard (=deviazione standard della distribuzione campionaria del

parametro moltiplicativo nella popolazione). Serve per calcolare la

significatività

Riepilogo del modello

,912a ,832 ,805 ,644Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), ab_verbalea.

R multiplo: indica la precisione della predizione. Importante nella regressione

multipla. In quella semplice, R = r.È un valore sempre positivo, anche quando r

è negativo.

Riepilogo del modello

,912a ,832 ,805 ,644Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), ab_verbalea.

Quadrato di R multiplo. Se moltiplicato per 100, dà la percentuale di varianza

spiegata dalla VI

PERCHÉ STIMARE DEI VALORI CHE ABBIAMO GIÀ IN REALTÀ?

Per testare le capacità del test di predizione, per poterlo poi usare in situazioni reali, dove non si conosce il punteggio da predire.

53

PARAMETRI

Le rilevazioni eseguite su un campione forniscono dei riassunti (variabili casuali) che stimano i parametri della popolazione.

I parametri della popolazione possono essere uguali a zero (e non influenzano la regressione) o diversi da zero (e allora la influenzano).

54

PRECISIONE DELLA STIMA

Il punteggio predetto 30 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 30-19.03 e 30+19.03, ossia fra 10.97 e 49.03

Il punteggio predetto 90 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 90-19.03 e 90+19.03, ossia fra 70.97 e 119.03

55

RIASSUMENDO

La regressione statistica permette di stimare (o predire) il punteggio di un test (o di un’altra misurazione).

Nella predizione del singolo caso non è mai possibile sapere se la predizione è esatta o molto sballata.

Si può quantificare la predizione totale, fatta su tutti i casi (presenti e futuri): la quota di varianza spiegata (r2) è un utile indice per definire la precisione della predizione.

56

MECCANISMO DELLA PREDIZIONE O DELLA STIMA

Per ogni individuo, l’equazione della regressione predice un valore di Y, indicato con Ŷ, simile ma non uguale al valore osservato Y

Y sta vicino a Ŷ, con alta probabilità è molto vicino, con bassa probabilità è molto lontano dal valore vero

Perciò, se non si può calcolare il punteggio reale, si può affermare che esso deve trovarsi con il 90 % (o altri livelli) di probabilità entro un certo intervallo calcolabile.

57