Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo...
Transcript of Lezione7 - Dipartimento di Informatica · • 15.05 prima prova intercorso ... y_nota: intervallo...
23‐04‐2014
1
• Oggi ultima lezione in aula • 23.04 non c’è lezione, • 24.04 fate il tutorato di fisica come al solito
• 30.04 fate il tutorato di fisica [che da questa data si sposta al mercoledì] • 01.05 festività • 08.05 da questa data, per 5 incontri ci vediamo nel lab. P13 ore 14-16
• 15.05 prima prova intercorso • 05.06 seconda prova intercorso
23‐04‐2014
2
Senza tener conto di variabile dipendente o
indipendente
Strettamente legata alla definizione di variabile
dipendente o indipendente
Nella statistica applicata si osserva la relazione (dipendenza) tra due o più grandezze (caratteri quantitativi).
Esigenza: determinare una funzione che rappresenti i dati ricavati dalle osservazioni
Prima strategia: determinare una funzione che assuma esattamente i dati rilevati (interpolazione per punti noti)
Seconda strategia: determinare una funzione che si accosti il più possibile ai punti noti (generalmente preferita) (interpolazione fra punti noti)
23‐04‐2014
3
Ad esempio: supponiamo di considerare degli individui e coppie di variabili
consumi-reddito peso-statura numero di neuroni – età
Ipotesi: all’aumentare del reddito, aumentano i consumi all’aumentare del peso, aumenta l’altezza
all’aumentare dell’età… diminuiscono i neuroni
Ad esempio: supponiamo di considerare degli individui e coppie di variabili
consumi-reddito peso-statura numero di neuroni – età
Ipotesi: all’aumentare del reddito, aumentano i consumi all’aumentare del peso, aumenta l’altezza
all’aumentare dell’età… diminuiscono i neuroni
Reddito-statura-età sono indipendenti
Vanno ad influenzare le altre (dipendenti)
23‐04‐2014
4
Modelli di variazione
23‐04‐2014
5
Cercare la miglior retta che approssima dei dati (stiamo ipotizzando una relazione lineare tra essi).
Si chiama “retta di regressione” e tiene conto di molti parametri che legano le osservazioni [e spiega come la variabile Y dipenda in modo lineare da X]
Si sceglie la funzione in base all’andamento del fenomeno: lineare, quadratica, esponenziale
Si procede alla determinazione dei parametri (costanti che compaiono nella funzione scelta), in modo che sia soddisfatta una condizione di accostamento prefissata, la condizione dei minimi quadrati
EXCEL ci mette a disposizione 3 diversi metodi di interpolazione di una retta di regressione come applicazione del metodo dei minimi quadrati:
AGGIUNGI LINEA DI TENDENZA; REGR.LIN; REGRESSIONE
23‐04‐2014
6
Creare il grafico di dispersione associato ai dati Usare il comando “AGGIUNGI LINEA DI TENDENZA”:
selezionare i dati sul grafico e, dopo aver premuto il pulsante destro, scegliere l’opzione Aggiungi linea di tendenza. Infine si seleziona il tipo di regressione.
Sul grafico viene tracciata automaticamente la miglior retta passante per i dati
E’ possibile visualizzare l’equazione della retta Come dato statistico si ha solo a disposizione il coefficiente
di correlazione r (in realtà R^2, indice di determinazione lineare. Nullo se sono lin.indip., 1 se c’è correlazione perfetta).
r= indicatore di correlazione. (vediamo dopo)
In un esperimento si sono misurate le lunghezze in cm di una molla sottoposta a successivi carichi in kg, ottenendo i seguenti risultati
Pesi Lunghezze 1 12,0 2 13,5 3 14,8 4 16,5 5 18,2
Inserire linea di tendenza con regressione lineare (in analisi dei dati; in Layout, selezionare Linea di tendenza – menù a sinistra - e spuntare quanto serve)
23‐04‐2014
7
y = 1,54x + 10,38 R² = 0,99731
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
20,0
0 1 2 3 4 5 6
Lung
hezz
e Pesi
Pesi
Lineare(Pesi)
L’intercetta 10,38 rappresenta il punto in cui la
retta incontra l’asse X
Il coefficiente angolare 1,54 (coefficiente di regressione)
rappresenta la tangente dell’angolo che la retta forma
con l’asse X, quindi la pendenza della retta
A differenza di AGGIUNGI LINEA DI TENDENZA, tale funzione restituisce alcuni parametri statistici in più.
Restituisce una matrice di valori. Deve essere immessa come formula in forma di matrice (Nell’ultimo inserimento, invece di fare clic su OK o di premere INVIO, si deve premere INVIO tenendo contemporaneamente premuti i tasti CTRL e SHIFT).
Solo così sul blocco di celle selezionate precedentemente, saranno visualizzati i risultati del calcolo, ossia i dati relativi alla retta di equazione y = a x + b
23‐04‐2014
8
REGR.LIN(y_nota;x_nota;cost;stat)
y_nota: intervallo di celle contenenti la y sperimentale x_nota: intervallo di celle contenenti la x sperimentale
(facoltativo: potrebbe essere già noto dalla relazione lineare)
cost: fa riferimento all’intercetta, ovvero se la retta deve passare o meno per l’origine. Immettere VERO se non passa per l’origine e FALSO se passa per l’origine
stat: con VERO la funzione, oltre ai coefficienti della retta, restituisce alcuni dati statistici; con FALSO restituisce solo i coefficienti della retta
La tabella riporta i prezzi al lotto di un prodotto, rispetto al numero di pezzi difettosi contenuti
PROVIAMO: selezionare una “zona” di 5 celle e 2 colonne e scrivere REGR.LIN(colonne prezzo; colonne pezzi; VERO, VERO)
N° pezzi difettosi
Prezzo al lotto
2 € 77,50 5 € 64,50 10 € 54,00 13 € 52,00 20 € 44,00
23‐04‐2014
9
Otteniamo i seguenti dati. Cosa significano?
-1,7500000 75,9
0,326508414 3,857777
0,905442736 4,594381
29 3
606,3750000 63,325
b a
Incertezza su b Incertezza su a
Coefficiente di determinazione
Y = -1,75 X + 75,9
Con i dati statistici ottenuti con la funzione REGR.LIN possiamo ora tracciare il grafico dei residui, in questo modo:
esempio
23‐04‐2014
10
Lo strumento REGRESSIONE è disponibile tramite STRUMENTI -> ANALISI DATI -> REGRESSIONE.
Lo strumento REGRESSIONE è disponibile tramite STRUMENTI -> ANALISI DATI -> REGRESSIONE.
A differenza di AGGIUNGI LINEA DI TENDENZA, tale funzione restituisce diversi parametri statistici in più.
Inoltre permette anche di eseguire i minimi quadrati su una funzione Y che dipende da più di 2 variabili indipendenti
23‐04‐2014
11
Intervallo di input Y: intervallo di celle contenenti la y sperimentale
Intervallo di input X: intervallo di celle contenenti la x sperimentale
Livello di confidenza: livello di fiducia con cui vogliamo vengano espressi i valori dei coefficienti a e b
Passa per l’origine: ovvero se vogliamo imporre nel calcolo che la retta passi per l’origine
Intervallo di output Intervallo di celle in cui verranno mostrati i dati calcolati dallo strumento REGRESSIONE. Conviene scegliere, come riferimento, un nuovo foglio di lavoro
Residui e Tracciati dei residui: contrassegnare tali opzioni in modo da visualizzare anche il grafico dei residui.
Tracciati delle approssimazioni: grafico dei valori previsti, contrapposti a quelli stimati
Tracciati delle probabilità normali: se il campione proviene da una distribuzione normale, i punti del grafico saranno allineati lungo la bisettrice.
23‐04‐2014
12
In un esperimento, si sono misurate le lunghezza in cm di una molla sottoposta a successivi carichi in kg, ottenendo i seguenti risultati
PROVIAMO ad usare lo strumento REGRESSIONE
PESI LUNGHEZZE 1 12,0 2 13,5 3 14,8 4 16,5 5 18,2
Statistica della regressione R multiplo 0,998653
R al quadrato 0,997309
R al quadrato corretto 0,996412
Errore standard 0,146059
Osservazioni 5
Coeff. di correlazione r lineare: qui c’è una forte correlazione positiva tra X e Y
Coeff. di determinazione: il 99,73% della variazione della lunghezza della molla è attribuibile alla variazione del peso applicato
Coeff. di determinazione corretto: “corretto” tenendo conto del numero di campioni
Errore standard del valore previsto per y per ciascun x della regressione (esprime la qtà di errori commessi nella previsione)
23‐04‐2014
13
gdl SQ MQ F Significatività F Regressione 1 23,716 23,716 1111,6875 5,93051E-05
Residuo 3 0,064 0,021333333 Totale 4 23,78
• gdl regressione (risp. residuo): gradi di libertà associati alla somma dei quadrati della regressione (risp. dei residui) • SQ regressione (risp. residuo): somma dei quadrati della regressione (risp. dei residui), ossia la somma dei quadrati delle differenze dei valori stimati dalla media (risp. dei valori osservati e dei valori stimati) • SQ totale: somma totale dei quadrati, ossia delle differenze dei valori osservati dalla media • MQ regressione (risp. residuo): media dei quadrati della regressione (risp. dei residui) • F: valore della statistica test. Consente di controllare l’ipotesi nulla. • Significatività F: livello di significatività osservato. Rappresenta il livello di significatività più basso a cui un’ipotesi può essere rifiutata per un insieme di dati. Se minore di una soglia data, si rifiuta l’ipotesi nulla (b=0) che non vi sia una relazione lineare tra X e Y
gdl SQ MQ F Significatività F Regressione 1 23,716 23,716 1111,6875 5,93051E-05
Residuo 3 0,064 0,021333333 Totale 4 23,78
Essendo il valore di significatività molto piccolo, si può concludere che: l’ipotesi che non vi sia una relazione lineare tra pesi e lunghezze delle molle, può essere decisamente scartata
23‐04‐2014
14
Coefficienti
Errore standard Stat t
Valore di significatività Inferiore 95%
Superiore 95%
Intercetta 10,38 0,153188337 67,75973 7,08297E-06 9,892486342 10,86751366
Pesi 1,54 0,046188022 33,34198 5,93051E-05 1,393009102 1,686990898
X • Coefficienti Intercetta (risp. Pesi-X): il valore dell’intercetta (risp. dell’inclinazione) • Errore standard dell’intercetta (risp. Pesi-X) • Stat t intercetta (risp. Pesi-X): valore della statistica test per la verifica dell’ipotesi a=0 (risp. b=0) • Valore di significatività intercetta (Pesi-X): livello della significatività osservato per la verifica dell’ipotesi a=0) (risp. b=0) • Inferiore 95% intercetta (risp. Pesi-X): limite inferiore dell’intervallo di confidenza per a (risp. b), al livello di significatività del 95% • Superiore 95% intercetta (risp. Pesi-X): limite superiore dell’intervallo di confidenza per a (risp. b), al livello di significatività del 95%
Osservazione Previsto
Lunghezze Residui Residui
standard 1 11,92 0,08 0,632455532 2 13,46 0,04 0,316227766 3 15 -0,2 -1,58113883 4 16,54 -0,04 -0,316227766 5 18,08 0,12 0,948683298
Percentile Lunghezze 10 12 30 13,5 50 14,8 70 16,5 90 18,2
23‐04‐2014
15
-0,25
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
0 1 2 3 4 5 6
Res
idui
Pesi
Pesi Tracciato dei residui
Non evidenzia un andamento particolare
0
2
4
6
8
10
12
14
16
18
20
0 10 20 30 40 50 60 70 80 90 100
Lung
hezz
e
Percentile campionaria
Tracciato della probabilità normale
Serie1
Evidenzia la normalità dei residui (se esce come istogramma, cambiare
il grafico)
23‐04‐2014
16
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
20,0
0 1 2 3 4 5 6
Y
Variabile X 1
Tracciato delle approssimazioni
Y
Y prevista
Se i valori di Y e Y prevista sono molto vicini conviene cambiare le
Opzioni indicatore
23‐04‐2014
17
due variabili numeriche x e y misurate sugli stessi individui di una popolazione. In altre parole abbiamo due campioni di dati dove x_i e y_i sono i valori delle due variabili misurate sullo stesso individuo.
Rivediamo il diagramma di dispersione
Abbiamo a disposizione un campione (222) di misurazioni su due grandezze
D= durata dell’eruzione (in minuti) T = tempo di attesa per l’eruzione
successiva (in minuti)
Abbiamo calcolato la tabella delle frequenze, prendendo come classi i singoli valori della variabile T
23‐04‐2014
18
Osserviamo che i dati sono concentrati in due blocchi
PROVATE VOI: non avete i 222 campioni, ma solo 24
Nella tabella seguente sono stati considerati 12 neonati per i quali è stato misurato
Il peso alla nascita (x) L’aumento percentuale di peso tra il 70° e il 100° giorno di vita (y)
Esiste una relazione tra le due variabili? Rappresentiamo la tabella usando un diagramma cartesiano di dispersione,
in cui consideriamo le coppie (x_i, y_i)
23‐04‐2014
19
Interpretazione del diagramma I valori tendono ad allinearsi lungo una retta: c’è correlazione fra i due
valori. Sorprendentemente, si osserva una tendenza “negativa”: ad un maggior peso alla nascita, corrisponde una minor crescita
Riprodurre il diagramma di dispersione sia per l’esempio dell’eruzione dei geyser, sia per l’esempio dei 12 neonati (in questo caso, far partire l’asse orizzontale da 70 e quella verticale da 40, rispettando l’ampiezza degli intervalli)
23‐04‐2014
20
La correlazione si misura mediante indici, tra cui il coefficiente di correlazione lineare r, ed esprime la «forza», o «intensità», del loro legame.
Talvolta l’analisi della correlazione precede lo studio della regressione, in quanto una variabile viene confrontata con varie altre per vedere quelle più connesse fra loro.
Covarianza di X e Y (ossia varianza congiunta di X e Y)
varianza di X e varianza di Y
Senza tener conto di variabile dipendente o
indipendente
Valore compreso tra -1 e 1
r = 1 se dati allineati lungo una retta crescente
r = -1 se dati allineati lungo una retta decrescente
r = 0 se non esiste relazione lineare tra i due caratteri
23‐04‐2014
21
E’ calcolata come differenza dalla retta di regressione dal valore medio
Si tratta di un altro coefficiente che indica quale frazione di varianza totale dipende dalla dipendenza tra Y e X (varianza spiegata), ossia quale frazione della variazione della variabile Y è spiegata dalle variazioni della variabile X (misura quanto si discostano i valori osservati da quelli teorici). Vale tra 0 e 1. Quanto più è vicino a 1, tanto è maggiore la bontà del modello lineare .
E’ calcolata come differenza (dispersione) dalla retta di regressione dal valore medio
23‐04‐2014
22
La covarianza è determinabile dalla funzione COVARIANZA(matrice1;matrice2)
[matrice1,matrice2: primo e secondo intervallo di celle di interi]
Il coefficiente di correlazione lineare (r) è calcolato dalla funzione PEARSON(matrice1;matrice2)
[matrice1(risp. matrice2): insieme di valori indipendenti (risp. dipendenti)]
Il coefficiente di determinazione (r2) è calcolato dalla funzione RQ(y_nota;x_nota)
[y_nota,x_nota: matrici o intervalli di valori]
Mediante uno spettrofotofluorimetro vengono studiate alcune soluzioni acquose di fluorosceina, la cui concentrazione viene espressa in picogrammi (pg) per cm3 di soluzione
concentrazione intensità 0 2,1 2 5,0 4 9,0 6 12,6 8 17,3 10 21,0 12 24,7
Proviamo a calcolare la dipendenza tra X e Y
23‐04‐2014
23
Otteniamo i seguenti dati concentrazione intensità 0 2,1 2 5,0 4 9,0 6 12,6 8 17,3 10 21,0 12 24,7
covarianza = 30,8857143 coeff. corr.= 0,99887957 coeff. det.= 0,99776039
Essendo il coefficiente di correlazione prossimo a 1, vuol dire che le due
rette di regressione sono molto vicine.
Inoltre, essendo il coefficiente di determinazione prossimo a 1, possiamo affermare che circa il 99,7% della varianza di Y dipende da X.
Quindi il modello lineare esprime bene la relazione tra Y e X.
Per le altre regressioni (logaritmica, polinomiale, potenza, esponenziale) occorre cambiare il tipo di linea di tendenza
(Esempi 11.6-11.9)