Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo...

23
23‐04‐2014 1 Oggi ultima lezione in aula 23.04 non c’è lezione, 24.04 fate il tutorato di fisica come al solito 30.04 fate il tutorato di fisica [che da questa data si sposta al mercoledì] 01.05 festività 08.05 da questa data, per 5 incontri ci vediamo nel lab. P13 ore 14-16 15.05 prima prova intercorso 05.06 seconda prova intercorso

Transcript of Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo...

Page 1: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

1

• Oggi ultima lezione in aula • 23.04 non c’è lezione, • 24.04 fate il tutorato di fisica come al solito

• 30.04 fate il tutorato di fisica [che da questa data si sposta al mercoledì] • 01.05 festività • 08.05 da questa data, per 5 incontri ci vediamo nel lab. P13 ore 14-16

• 15.05 prima prova intercorso • 05.06 seconda prova intercorso

Page 2: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

2

Senza tener conto di variabile dipendente o

indipendente

Strettamente legata alla definizione di variabile

dipendente o indipendente

  Nella statistica applicata si osserva la relazione (dipendenza) tra due o più grandezze (caratteri quantitativi).

  Esigenza: determinare una funzione che rappresenti i dati ricavati dalle osservazioni

  Prima strategia: determinare una funzione che assuma esattamente i dati rilevati (interpolazione per punti noti)

  Seconda strategia: determinare una funzione che si accosti il più possibile ai punti noti (generalmente preferita) (interpolazione fra punti noti)

Page 3: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

3

Ad esempio: supponiamo di considerare degli individui e coppie di variabili

consumi-reddito peso-statura numero di neuroni – età

Ipotesi: all’aumentare del reddito, aumentano i consumi all’aumentare del peso, aumenta l’altezza

all’aumentare dell’età… diminuiscono i neuroni

Ad esempio: supponiamo di considerare degli individui e coppie di variabili

consumi-reddito peso-statura numero di neuroni – età

Ipotesi: all’aumentare del reddito, aumentano i consumi all’aumentare del peso, aumenta l’altezza

all’aumentare dell’età… diminuiscono i neuroni

Reddito-statura-età sono indipendenti

Vanno ad influenzare le altre (dipendenti)

Page 4: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

4

Modelli di variazione

Page 5: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

5

 Cercare la miglior retta che approssima dei dati (stiamo ipotizzando una relazione lineare tra essi).

  Si chiama “retta di regressione” e tiene conto di molti parametri che legano le osservazioni [e spiega come la variabile Y dipenda in modo lineare da X]

  Si sceglie la funzione in base all’andamento del fenomeno: lineare, quadratica, esponenziale

  Si procede alla determinazione dei parametri (costanti che compaiono nella funzione scelta), in modo che sia soddisfatta una condizione di accostamento prefissata, la condizione dei minimi quadrati

  EXCEL ci mette a disposizione 3 diversi metodi di interpolazione di una retta di regressione come applicazione del metodo dei minimi quadrati:

AGGIUNGI LINEA DI TENDENZA; REGR.LIN; REGRESSIONE

Page 6: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

6

  Creare il grafico di dispersione associato ai dati   Usare il comando “AGGIUNGI LINEA DI TENDENZA”:

selezionare i dati sul grafico e, dopo aver premuto il pulsante destro, scegliere l’opzione Aggiungi linea di tendenza. Infine si seleziona il tipo di regressione.

  Sul grafico viene tracciata automaticamente la miglior retta passante per i dati

  E’ possibile visualizzare l’equazione della retta   Come dato statistico si ha solo a disposizione il coefficiente

di correlazione r (in realtà R^2, indice di determinazione lineare. Nullo se sono lin.indip., 1 se c’è correlazione perfetta).

  r= indicatore di correlazione. (vediamo dopo)

In un esperimento si sono misurate le lunghezze in cm di una molla sottoposta a successivi carichi in kg, ottenendo i seguenti risultati

Pesi Lunghezze 1 12,0 2 13,5 3 14,8 4 16,5 5 18,2

Inserire linea di tendenza con regressione lineare (in analisi dei dati; in Layout, selezionare Linea di tendenza – menù a sinistra - e spuntare quanto serve)

Page 7: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

7

y = 1,54x + 10,38 R² = 0,99731

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

20,0

0 1 2 3 4 5 6

Lung

hezz

e Pesi

Pesi

Lineare(Pesi)

L’intercetta 10,38 rappresenta il punto in cui la

retta incontra l’asse X

Il coefficiente angolare 1,54 (coefficiente di regressione)

rappresenta la tangente dell’angolo che la retta forma

con l’asse X, quindi la pendenza della retta

  A differenza di AGGIUNGI LINEA DI TENDENZA, tale funzione restituisce alcuni parametri statistici in più.

  Restituisce una matrice di valori. Deve essere immessa come formula in forma di matrice (Nell’ultimo inserimento, invece di fare clic su OK o di premere INVIO, si deve premere INVIO tenendo contemporaneamente premuti i tasti CTRL e SHIFT).

  Solo così sul blocco di celle selezionate precedentemente, saranno visualizzati i risultati del calcolo, ossia i dati relativi alla retta di equazione y = a x + b

Page 8: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

8

REGR.LIN(y_nota;x_nota;cost;stat)

  y_nota: intervallo di celle contenenti la y sperimentale   x_nota: intervallo di celle contenenti la x sperimentale

(facoltativo: potrebbe essere già noto dalla relazione lineare)

  cost: fa riferimento all’intercetta, ovvero se la retta deve passare o meno per l’origine. Immettere VERO se non passa per l’origine e FALSO se passa per l’origine

  stat: con VERO la funzione, oltre ai coefficienti della retta, restituisce alcuni dati statistici; con FALSO restituisce solo i coefficienti della retta

La tabella riporta i prezzi al lotto di un prodotto, rispetto al numero di pezzi difettosi contenuti

PROVIAMO: selezionare una “zona” di 5 celle e 2 colonne e scrivere REGR.LIN(colonne prezzo; colonne pezzi; VERO, VERO)

N° pezzi difettosi

Prezzo al lotto

2 € 77,50 5 € 64,50 10 € 54,00 13 € 52,00 20 € 44,00

Page 9: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

9

Otteniamo i seguenti dati. Cosa significano?

-1,7500000 75,9

0,326508414 3,857777

0,905442736 4,594381

29 3

606,3750000 63,325

b a

Incertezza su b Incertezza su a

Coefficiente di determinazione

Y = -1,75 X + 75,9

Con i dati statistici ottenuti con la funzione REGR.LIN possiamo ora tracciare il grafico dei residui, in questo modo:

esempio

Page 10: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

10

  Lo strumento REGRESSIONE è disponibile tramite STRUMENTI -> ANALISI DATI -> REGRESSIONE.

  Lo strumento REGRESSIONE è disponibile tramite STRUMENTI -> ANALISI DATI -> REGRESSIONE.

  A differenza di AGGIUNGI LINEA DI TENDENZA, tale funzione restituisce diversi parametri statistici in più.

  Inoltre permette anche di eseguire i minimi quadrati su una funzione Y che dipende da più di 2 variabili indipendenti

Page 11: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

11

  Intervallo di input Y: intervallo di celle contenenti la y sperimentale

  Intervallo di input X: intervallo di celle contenenti la x sperimentale

  Livello di confidenza: livello di fiducia con cui vogliamo vengano espressi i valori dei coefficienti a e b

  Passa per l’origine: ovvero se vogliamo imporre nel calcolo che la retta passi per l’origine

  Intervallo di output Intervallo di celle in cui verranno mostrati i dati calcolati dallo strumento REGRESSIONE. Conviene scegliere, come riferimento, un nuovo foglio di lavoro

  Residui e Tracciati dei residui: contrassegnare tali opzioni in modo da visualizzare anche il grafico dei residui.

  Tracciati delle approssimazioni: grafico dei valori previsti, contrapposti a quelli stimati

  Tracciati delle probabilità normali: se il campione proviene da una distribuzione normale, i punti del grafico saranno allineati lungo la bisettrice.

Page 12: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

12

In un esperimento, si sono misurate le lunghezza in cm di una molla sottoposta a successivi carichi in kg, ottenendo i seguenti risultati

PROVIAMO ad usare lo strumento REGRESSIONE

PESI LUNGHEZZE 1 12,0 2 13,5 3 14,8 4 16,5 5 18,2

Statistica della regressione R multiplo 0,998653

R al quadrato 0,997309

R al quadrato corretto 0,996412

Errore standard 0,146059

Osservazioni 5

Coeff. di correlazione r lineare: qui c’è una forte correlazione positiva tra X e Y

Coeff. di determinazione: il 99,73% della variazione della lunghezza della molla è attribuibile alla variazione del peso applicato

Coeff. di determinazione corretto: “corretto” tenendo conto del numero di campioni

Errore standard del valore previsto per y per ciascun x della regressione (esprime la qtà di errori commessi nella previsione)

Page 13: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

13

gdl SQ MQ F Significatività F Regressione 1 23,716 23,716 1111,6875 5,93051E-05

Residuo 3 0,064 0,021333333 Totale 4 23,78

•  gdl regressione (risp. residuo): gradi di libertà associati alla somma dei quadrati della regressione (risp. dei residui) •  SQ regressione (risp. residuo): somma dei quadrati della regressione (risp. dei residui), ossia la somma dei quadrati delle differenze dei valori stimati dalla media (risp. dei valori osservati e dei valori stimati) •  SQ totale: somma totale dei quadrati, ossia delle differenze dei valori osservati dalla media •  MQ regressione (risp. residuo): media dei quadrati della regressione (risp. dei residui) •  F: valore della statistica test. Consente di controllare l’ipotesi nulla. •  Significatività F: livello di significatività osservato. Rappresenta il livello di significatività più basso a cui un’ipotesi può essere rifiutata per un insieme di dati. Se minore di una soglia data, si rifiuta l’ipotesi nulla (b=0) che non vi sia una relazione lineare tra X e Y

gdl SQ MQ F Significatività F Regressione 1 23,716 23,716 1111,6875 5,93051E-05

Residuo 3 0,064 0,021333333 Totale 4 23,78

Essendo il valore di significatività molto piccolo, si può concludere che: l’ipotesi che non vi sia una relazione lineare tra pesi e lunghezze delle molle, può essere decisamente scartata

Page 14: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

14

Coefficienti

Errore standard Stat t

Valore di significatività Inferiore 95%

Superiore 95%

Intercetta 10,38 0,153188337 67,75973 7,08297E-06 9,892486342 10,86751366

Pesi 1,54 0,046188022 33,34198 5,93051E-05 1,393009102 1,686990898

X •  Coefficienti Intercetta (risp. Pesi-X): il valore dell’intercetta (risp. dell’inclinazione) •  Errore standard dell’intercetta (risp. Pesi-X) •  Stat t intercetta (risp. Pesi-X): valore della statistica test per la verifica dell’ipotesi a=0 (risp. b=0) •  Valore di significatività intercetta (Pesi-X): livello della significatività osservato per la verifica dell’ipotesi a=0) (risp. b=0) •  Inferiore 95% intercetta (risp. Pesi-X): limite inferiore dell’intervallo di confidenza per a (risp. b), al livello di significatività del 95% •  Superiore 95% intercetta (risp. Pesi-X): limite superiore dell’intervallo di confidenza per a (risp. b), al livello di significatività del 95%

Osservazione Previsto

Lunghezze Residui Residui

standard 1 11,92 0,08 0,632455532 2 13,46 0,04 0,316227766 3 15 -0,2 -1,58113883 4 16,54 -0,04 -0,316227766 5 18,08 0,12 0,948683298

Percentile Lunghezze 10 12 30 13,5 50 14,8 70 16,5 90 18,2

Page 15: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

15

-0,25

-0,2

-0,15

-0,1

-0,05

0

0,05

0,1

0,15

0 1 2 3 4 5 6

Res

idui

Pesi

Pesi Tracciato dei residui

Non evidenzia un andamento particolare

0

2

4

6

8

10

12

14

16

18

20

0 10 20 30 40 50 60 70 80 90 100

Lung

hezz

e

Percentile campionaria

Tracciato della probabilità normale

Serie1

Evidenzia la normalità dei residui (se esce come istogramma, cambiare

il grafico)

Page 16: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

16

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

20,0

0 1 2 3 4 5 6

Y

Variabile X 1

Tracciato delle approssimazioni

Y

Y prevista

Se i valori di Y e Y prevista sono molto vicini conviene cambiare le

Opzioni indicatore

Page 17: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

17

due variabili numeriche x e y misurate sugli stessi individui di una popolazione. In altre parole abbiamo due campioni di dati dove x_i e y_i sono i valori delle due variabili misurate sullo stesso individuo.

Rivediamo il diagramma di dispersione

Abbiamo a disposizione un campione (222) di misurazioni su due grandezze

  D= durata dell’eruzione (in minuti)   T = tempo di attesa per l’eruzione

successiva (in minuti)

Abbiamo calcolato la tabella delle frequenze, prendendo come classi i singoli valori della variabile T

Page 18: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

18

Osserviamo che i dati sono concentrati in due blocchi

PROVATE VOI: non avete i 222 campioni, ma solo 24

Nella tabella seguente sono stati considerati 12 neonati per i quali è stato misurato

  Il peso alla nascita (x)   L’aumento percentuale di peso tra il 70° e il 100° giorno di vita (y)

Esiste una relazione tra le due variabili? Rappresentiamo la tabella usando un diagramma cartesiano di dispersione,

in cui consideriamo le coppie (x_i, y_i)

Page 19: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

19

Interpretazione del diagramma I valori tendono ad allinearsi lungo una retta: c’è correlazione fra i due

valori. Sorprendentemente, si osserva una tendenza “negativa”: ad un maggior peso alla nascita, corrisponde una minor crescita

 Riprodurre il diagramma di dispersione sia per l’esempio dell’eruzione dei geyser, sia per l’esempio dei 12 neonati (in questo caso, far partire l’asse orizzontale da 70 e quella verticale da 40, rispettando l’ampiezza degli intervalli)

Page 20: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

20

La correlazione si misura mediante indici, tra cui il coefficiente di correlazione lineare r, ed esprime la «forza», o «intensità», del loro legame.

Talvolta l’analisi della correlazione precede lo studio della regressione, in quanto una variabile viene confrontata con varie altre per vedere quelle più connesse fra loro.

Covarianza di X e Y (ossia varianza congiunta di X e Y)

varianza di X e varianza di Y

Senza tener conto di variabile dipendente o

indipendente

Valore compreso tra -1 e 1

r = 1 se dati allineati lungo una retta crescente

r = -1 se dati allineati lungo una retta decrescente

r = 0 se non esiste relazione lineare tra i due caratteri

Page 21: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

21

E’ calcolata come differenza dalla retta di regressione dal valore medio

Si tratta di un altro coefficiente che indica quale frazione di varianza totale dipende dalla dipendenza tra Y e X (varianza spiegata), ossia quale frazione della variazione della variabile Y è spiegata dalle variazioni della variabile X (misura quanto si discostano i valori osservati da quelli teorici). Vale tra 0 e 1. Quanto più è vicino a 1, tanto è maggiore la bontà del modello lineare .

E’ calcolata come differenza (dispersione) dalla retta di regressione dal valore medio

Page 22: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

22

  La covarianza è determinabile dalla funzione COVARIANZA(matrice1;matrice2)

[matrice1,matrice2: primo e secondo intervallo di celle di interi]

  Il coefficiente di correlazione lineare (r) è calcolato dalla funzione PEARSON(matrice1;matrice2)

[matrice1(risp. matrice2): insieme di valori indipendenti (risp. dipendenti)]

  Il coefficiente di determinazione (r2) è calcolato dalla funzione RQ(y_nota;x_nota)

[y_nota,x_nota: matrici o intervalli di valori]

Mediante uno spettrofotofluorimetro vengono studiate alcune soluzioni acquose di fluorosceina, la cui concentrazione viene espressa in picogrammi (pg) per cm3 di soluzione

concentrazione intensità 0 2,1 2 5,0 4 9,0 6 12,6 8 17,3 10 21,0 12 24,7

Proviamo a calcolare la dipendenza tra X e Y

Page 23: Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo di celle contenenti la y sperimentale ... 23‐04‐2014 15 ...

23‐04‐2014

23

Otteniamo i seguenti dati concentrazione intensità 0 2,1 2 5,0 4 9,0 6 12,6 8 17,3 10 21,0 12 24,7

covarianza = 30,8857143 coeff. corr.= 0,99887957 coeff. det.= 0,99776039

Essendo il coefficiente di correlazione prossimo a 1, vuol dire che le due

rette di regressione sono molto vicine.

Inoltre, essendo il coefficiente di determinazione prossimo a 1, possiamo affermare che circa il 99,7% della varianza di Y dipende da X.

Quindi il modello lineare esprime bene la relazione tra Y e X.

 Per le altre regressioni (logaritmica, polinomiale, potenza, esponenziale) occorre cambiare il tipo di linea di tendenza

  (Esempi 11.6-11.9)