LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6–...

79
LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro Università di Sassari

Transcript of LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6–...

Page 1: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE

MODELLI MATEMATICI E STATISTICI[6– Modelli statistici]

Proff. Giuseppe Pulina & Corrado Dimauro

Università di Sassari

Page 2: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

IL TEOREMA DEI MINIMI QUADRATI E LA CURVA DI GAUSS

Page 3: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

IL METODO DEI MINIMI QUADRATI

Il primo ad utilizzare tale metodo fu Carl Friederich Gauss (1777-1855)

TEOREMA

Il valore medio delle osservazioni Om è il valore

medio della grandezza misurata che minimizza

La somma degli errori al quadrato

Page 4: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

DIMOSTRAZIONE

Oi = i-esima osservazione Om = il valore medio

x = il valore vero εi = l’errore di cui è affetta l’i-esima osservazione

Siano:

11 mOO

22 mOO

nmn OO

Poiché m

n

ii nOO 0

n

ii

Page 5: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Consideriamo la somma degli scarti dal valore vero al quadrato

222

21 )(..........)()()( nOxOxOxxS

Che può essere scritta, relativa alla media, come:

222

21 )(.......)()()( nmmm OxOxOxxS

Dobbiamo dimostrare che questa somma è minima quando x =Om

Sviluppando i quadrati si ottiene:

222

222

22

2

211

21

2

2)(2

......................................................

2)(2

2)(2)(

nnmmnm

mmm

mmm

OOxOx

OOxOx

OOxOxxS

Page 6: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Da cui ordinando si ha:

n

i

n

im

n

imm nOnxnOxnOnxxS1

2

11

22 222)(

Raggruppando si ottiene:

n

imOxnxS1

22)()( n

inx1

2 n

imnO1

2

Essendo = 00n

ii

Page 7: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Si ha alla fine: n

imOxnxS1

22)()(

Questa funzione ha un minimo in mOx

Da cui sostituendo si ha: n

ixS1

2)(

)(xS

x mO

n

i1

2

Page 8: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

LA CURVA DI GAUSS

Il prototipo della curva di Gauss è

2

2

)( h

x

exf

Con h = parametro di larghezza

Studiamo questa funzione

Page 9: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

80706050403020100-10

400

300

200

100

0

C1

Fre

quency

Histogram of C1

Page 10: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

80706050403020100-10

400

300

200

100

0

C1

Fre

quency

Histogram of C1, with Normal Curve

Page 11: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

La funzione ha quindi un massimo

2

2

)( h

x

exf

2

1

1 ;2

eh

F

2

1

2 ;2

eh

F

)1;0(M

E due flessi

2

2

2)( h

x

exf

2

1

1 ;ehF

2

1

1 ;ehF

Page 12: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

2

2

2)( h

x

exf

h = parametro di larghezza?

Page 13: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

2

2

2)( h

x

exf

Non è ancora nella sua forma finale

1)( dxxf Condizione di normalizzazione

2

2

2 2

1)( h

x

eh

xf

Page 14: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

2

2

2 2

1)( h

Xx

eh

xf

Sostituendo x con x-X

Il massimo sarà )1;(XM

X X X

f(x)

x

Page 15: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

2

2

2 2

1)( h

Xx

eh

xf

Si può dimostrare che

h

X

Ed infine si ha

2

2

2 2

1)(

x

exf

Page 16: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

La deviazione standard come limite di confidenzadel 68%

1)( dxxf

2

2

2 2

1)(

x

exf

b

a

dxxf )( Probabilità che una data misura cada in [a,b]

dxxf )( Probabilità che una data misura cada tra [μ-σ, μ+σ ]

68,0P

Page 17: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

68%

Page 18: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

I MODELLI STATISTICI

Page 19: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

I modelli statistici sono strumenti matematici e algebrici in grado di analizzare le componenti regolari e casuali di un insieme di dati

In questo corso analizzeremo le relazioni fra variabili con il metodo della regressione multipla. Tale classe di modelli appartiene ai metodi dell’Analisi a più variabili.

Saranno analizzate principalmente le tecniche della regressione lineare multipla [modelli lineari o linearizzabili] e una parte sarà dedicata alla regressione non lineare (esponenziale; allometrica)

Le applicazioni saranno eseguite con le routine di MS-Excell®

Page 20: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Il fine dell’analisi della regressione multipla è quello di stabilire, se esiste, una relazione fra una variabile risposta (variabile dipendente, generalmente indicata con y) e un insieme di variabili indipendenti, generalmente indicate con x1, x2…xn.

Il modello statistico generale è il seguente

yi = a + b1x1i+b2x2i,+…+bnxni+εi

In cui yi= variabile dipendente; x.i = variabile indipendente; εi= scostamento casuale dal modello o residuo (media =0, varianza σ2); a = intercetta (stessa dimensione della y); b = coefficienti (o regressori parziali) del modello.

Nelle scienze zootecniche l’analisi della regressione multipla è ampiamente utilizzata per la messa a punto di modelli di previsione del comportamento di una variabile di interesse zootecnico (es.: produzione di latte, accrescimento, qualità di prodotti, ingestione alimentare, ecc..) rispetto ad altre variabili [chiamate “predittori del modello”]

Page 21: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

REGRESSIONE LINEARE SEMPLICE

Consideriamo il caso in cui una certa variabile detta variabile dipendente è influenzata da una o più variabili dette variabili dipendenti.

Il caso più semplice è: la y dipende solo da un’altra variabile x.

ESEMPIO: relazione tra peso ed ingestione in pecore Sarde in asciutta

Page 22: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.
Page 23: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

0,8

0,9

1

1,1

1,2

1,3

1,4

37 39 41 43 45 47 49 51 53

peso

inge

stio

nePLOT DEI DATI SU UN SISTEMA DI ASSI

Page 24: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Il metodo impiegato per la stima dei parametri dell’equazione che meglio si adatta ai dati è quello detto DEI MINIMI QUADRATI

La procedura generale dei minimi quadrati è la seguente:

f (x i) y i i

min)]([ 2

1

i

n

ii xfy

min)( 2 iS

Page 25: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Equazione cartesiana della retta:

In statistica:

Una equazione in questa forma rappresenta un modello deterministico

ii mxqy

ii xy 10

Page 26: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

0,8

0,9

1

1,1

1,2

1,3

1,4

37 39 41 43 45 47 49 51 53

peso

inge

stio

ne

y i 0 1x i

Page 27: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Vogliamo ottenere la stima dei parametri del modello:

Per ottenere la retta di regressione

La stima di E(y) è data dall’equazione

iii xy 10

E(y i) 0 1x i

ii xy 10ˆˆˆ

Page 28: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Metodo dei minimi quadrati per la stima dei parametri

0 1e

Consideriamo il cosiddetto residuo

Il metodo dei minimi quadrati permette di scegliere la retta migliore per minimizzare la somma:

y i ˆ y i

2 (y i ˆ y i )2 (y i ˆ 0 ˆ 1x i)2

Page 29: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Sviluppando i quadrati si ottiene:

210 )ˆˆ( ii xy

Questa funzione è minima quando la derivata prima rispetto β0 e a β1 è zero:

iiiiii xyyxxy 101022

120

2 222

0

y i2 0

2 12x i

2 201x i 2y i0 2y i1x i 0

1

y i2 0

2 12x i

2 201x i 2y i0 2y i1x i 0

Page 30: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Sviluppiamo la prima:

0

y i2 0

2 12x i

2 201x i 2y i0 2y i1x i 0

0222 10 ii yx

y i n0 1 x i

Page 31: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Sviluppiamo la seconda:

1

y i2 0

2 12x i

2 201x i 2y i0 2y i1x i 0

21x i2 2x iy i 20x i 0

x iy i 0 x i 1 x i2

Page 32: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

x iy i 1 x i2 0 x i

y i n0 1 x i

Le due derivate costituiscono un sistema di equazioni:

Poniamo: 2ixx xS ix xS

iixy yxS iy yS

01

01

nSS

SSS

xy

xxxxy

E sostituendo:

Page 33: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Risolvendo il sistema di equazioni si ottiene:

1 Sxy

SxSy

n

Sxx (Sx )2

n

E sostituendo:

1 x i y i

x i yi

n

x 2

( x i )2n

β0 sarà calcolata sostituendo nell’equazione della retta:

xy 10

Page 34: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

REGRESSIONE LINEARE MULTIPLA

Page 35: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Ingestione Peso ProdLatte

2,833 45,0 1,7

2,459 44,0 1,4

2,087 35,0 1,2

2,130 41,0 1

2,941 42,0 2

3,003 43,4 2,1

2,524 46,9 1,2

2,663 45,2 1,5

2,295 39,8 1,2

3,160 50,1 2,2

2,926 49,2 1,9

2,722 45,3 1,5

3,031 46,2 2

2,353 44,2 1,2

2,310 41,2 1,24

3,154 52,1 2,05

3,094 47,7 2,11

2,785 48,2 1,75

2,108 38,1 1,1

2,440 49,0 0,9

Esempio: è noto che l’ingestione alimentare degli animali zootecnici dipende, tra le altre cose, dalla mole e dal livello produttivo.

La matrice dei dati riportata a fianco riguarda dei rilievi sperimentali effettuati su pecore in lattazione di razza Sarda.

Il quesito è: riusciamo a prevedere l’ingestione di sostanza secca di una pecora Sarda in base al suo peso corporeo e alla sua produzione di latte?

Page 36: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Il modello fornisce un’unica previsione e un insieme di correlazioni parziali. Ciascun coefficiente “b” rappresenta un contributo indipendente di ciascuna variabile alla previsione del valore della variabile dipendente (y).

Il fatto di dover fornire un contributo indipendente significa che la variabili “x” sono indipendenti fra loro, cioè non sono correlate. In termini geometrici, gli assi delle variabili (tutte, dipendente e indipendenti) sono fra loro ortogonali.

Il primo passo dell’analisi della regressione lineare multipla è l’EDA (exploratory data analysis) che consiste

1. nel “plottare” le singole variabili indipendenti rispetto alla variabile dipendente;2. nel calcolare la matrice della correlazione fra le variabili indipendenti. Se fra due di esse la correlazione è “importante” [ad es, esiste (cioè è differente da zero per p<0,05) ed è superiore al 20-25%, una delle variabili deve essere eliminata per evitare fenomeni di collinearità.]

Page 37: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

L’EDA consente di verificare:

1. Se l’andamento della singola variabile indipendente rispetto alla dipendente è lineare

2. Se vi è una correlazione “importante” fra le due

3. Se le variabili indipendenti sono correlate fra di loro

4. Se esiste una aggregazione di dati [cluster] e dei dati “lontani” detti outliers

Page 38: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Risposte ai singoli quesiti EDA.

1. Si: il “regressore” può essere trattato con un modello lineare. No: si deve utilizzare una trasformata (es, logaritmo, inversa, ecc.) oppure un ordine superiore (quarato, cubo).

2. Si: la variabile va inserita nel modello lineare. No: va esclusa.

3. Si: va scartata una delle due, di solito quella meno correlata con la y (cioè quella che spiega una minore quota di variabilità).

4. Si: deve essere cambiata la scala (cluster); devono essere ricontrollati i dati e “scaricati” quelli anomali (grande attenzione a non “scaricare” dati “buoni”)

Page 39: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Un altro assunto importante per l’analisi della regressione multipla è la distribuzione normale delle variabili e degli errori (o residui).

Ing. kgSS   peso (kg)   Latte (kg)  

Media 2,6509 Media 44,68 Media 1,5625

Errore standard 0,081213717 Errore standard 0,958359 Errore standard 0,094821

Mediana 2,6925 Mediana 45,1 Mediana 1,5

Moda #N/D Moda #N/D Moda 1,2

Deviazione standard 0,363198786 Deviazione standard 4,285913 Deviazione standard 0,424052

Varianza campionaria 0,131913358 Varianza campionaria 18,36905 Varianza campionaria 0,17982

Curtosi -1,368363617 Curtosi 0,000342 Curtosi -1,52423

Asimmetria -0,135963248 Asimmetria -0,44209 Asimmetria 0,086596

Intervallo 1,073 Intervallo 17,1 Intervallo 1,3

Minimo 2,087 Minimo 35 Minimo 0,9

Massimo 3,16 Massimo 52,1 Massimo 2,2

Somma 53,018 Somma 893,6 Somma 31,25

Conteggio 20 Conteggio 20 Conteggio 20

Page 40: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

3,23,02,82,62,42,22,0

5

4

3

2

1

0

Ing. kgSS

Fre

quen

cyHistogram of Ing. kgSS, with Normal Curve

Page 41: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

53514947454341393735

5

4

3

2

1

0

peso (kg)

Fre

quen

cyHistogram of peso (kg), with Normal Curve

Page 42: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

2,22,01,81,61,41,21,0

6

5

4

3

2

1

0

latte

Fre

quen

cyHistogram of latte, with Normal Curve

Page 43: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Pecore Sarde

1,5

1,7

1,9

2,1

2,3

2,5

2,7

2,9

3,1

3,3

30 35 40 45 50 55

Peso corporeo (kg)

Ing

esti

on

e S

S (

kg/d

)EDA - Correlazioni (1)

Pecore Sarde

1,5

2

2,5

3

3,5

0,5 1 1,5 2 2,5

Produzione di latte (kg/d)

Ing

esti

ne

SS

(kg

/d)

Page 44: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

2,0

351,5

2,0latte

2,2

2,4

2,6

40

2,8

3,0

3,2

451,0

Ing. kgSS

50peso (kg)

EDA – Visione di insieme dei dati

Page 45: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

35

2,0

2,2

2,4

2,6Ing. kgSS

peso (kg)

40

peso (kg)45

2,8

3,0

3,2

50

2,0

1,5 latte

1,0

latte

EDA – Visione di insieme dei dati [superficie]

Page 46: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

EDA - Correlazioni (2)

  Ing. kgSS peso (kg) latte

Ing. kgSS 1

peso (kg) 0,742347 1

latte 0,931149 0,486831 1

Collinearità fra le variabili indipendenti

Non vi è nessuna aggregazione [cluster] di dati né outliers.

Page 47: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

La varianza di un set di misure

La covarianza tra due set di misure 2

))((

n

yyxxi

ii

xy

1

)( 2

2

N

xxN

ii

xx

sxy > 0 se x ed y tendono a cadere al di sopra delle lore medie

sxy < 0 se x ed y tendono a cadere al di sotto delle lore medie

Es. Peso statura

LA CORRELAZIONE PARZIALE

Page 48: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Correlazione Negativa Positiva

Piccola −0,3 a −0,1 0,1 a 0,3

Media −0,5 a −0,3 0,3 a 0,5

Grande −1,0 a −0,5 0,5 a 1,0

11

La correlazione tra due set di misure

yyxx

xyxy

Es. Peso statura

Page 49: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Matrice di varianza e covarianza di un set di p misure

pppp

p

p

......

:......::

......

......

21

22212

12111

Matrice di correlazione di un set di p misure

1......

::::

......1

......1

21

212

112

pp

p

p

R

Page 50: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Supponiamo di avere tre variabili: x, y, z

Ci interessa la correlazione tra x ed y, ma sospettiamo che z influenzi tale

correlazione.

Ad esempio x=HG ed y=cn:

quale è l’influenza di z=HD?

quale è la correlazione netta tra HG e cn?

Page 51: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Calcoliamo rxy.z

rxy.z uguale a rxy

rxy.z diverso da rxy

Algoritmo di calcolo:

1) Regressione x-z e residui

2) Regressione y-z e residui

3) La correlazione parziale rxy.z è la correlazione tra i residui

Page 52: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

La bontà della regressione è valutabile :

1. Dal valore del coefficiente di determinazione R2

2. Dalla distribuzione casuale dei residui

3. Dall’ininfluenza della eliminazione (trimming) di uno o più dati “estremi” sui valori dei regressori [a oppure b.]

4. Dall’esistenza deI regressore [a oppure b.] il cui valore deve essere significativamente diverso da zero.

VALUTAZIONE DELLA REGRESSIONE

Page 53: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Risultati dell’analisi della regressione effettuata con MS-Excell®

  CoefficientiErrore

standard Stat tValore di

significatività

Intercetta (SS) 0,3058 0,1602 1,9095 0,0732

Variabile X 1 (PC) 0,0298 0,0041 7,2852 0,0000

Variabile X 2 (L) 0,6479 0,0414 15,6556 0,0000

L’equazione ottenuta è la seguente:

Ingestione (kg/d SS) = 0,3058 (ns) + 0,0298 PC (kg) + 0,6479 L (kg/d) [+ ε]

Page 54: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Osservazione (Y) Prevista (Ŷ) Residui(ε)

2,833 2,750 0,083

2,459 2,525 -0,066

2,087 2,127 -0,040

2,130 2,177 -0,047

2,941 2,854 0,087

3,003 2,961 0,042

2,524 2,482 0,042

2,663 2,626 0,037

2,295 2,270 0,025

3,160 3,226 -0,066

2,926 3,004 -0,078

2,722 2,629 0,093

3,031 2,980 0,051

2,353 2,402 -0,049

2,310 2,338 -0,028

3,154 3,188 -0,034

3,094 3,096 -0,002

2,785 2,877 -0,092

2,108 2,155 -0,047

2,440 2,351 0,089

Sviluppo dell’equazione calcolata

Page 55: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Risultati dell’analisi della regressione effettuata con MS-Excell®

Statistica della regressione

R multiplo 0,985334

R al quadrato 0,970882

R al quadrato corretto 0,967457

Errore standard 0,06552

Osservazioni 20

ANALISI VARIANZA

  gdl SQ MQ F Significatività F

Regressione (Ŷ) 2 2,433375 1,216687 283,4204 0,00000

Residuo (ε) 17 0,072979 0,004293

Totale (Y) 19 2,506354      

R2 = coefficiente di determinazione. Misura la quota di variabilità “spiegata” dalla regressione sulla variabilità totale

Y

Y

SQ

SQR ˆ2

MQ

Page 56: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Variabile X 1 Tracciato dei residui

-0,150

-0,100

-0,050

0,000

0,050

0,100

0,150

30 35 40 45 50 55

Variabile X 1

Res

idui Variabile X 2 Tracciato dei residui

-0,150

-0,100

-0,050

0,000

0,050

0,100

0,150

0,8 1,3 1,8 2,3

Variabile X 2

Res

idu

i

Page 57: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Variabile X 1 Tracciato delle approssimazioni

1,5

2

2,5

3

3,5

30 35 40 45 50 55

Variabile X 1

YY

Y prevista

Variabile X 2 Tracciato delle approssimazioni

1,5

2

2,5

3

3,5

0,5 1 1,5 2 2,5

Variabile X 2

Y

Y

Y prevista

Page 58: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

35

2,0

2,5Prevista

peso (kg)

40

peso (kg)45

3,0

50

2,0

1,5 latte

1,0

latte

Forma geometrica della regressione [superficie]

Page 59: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Un ulteriore modo per verificare la bontà del modello è quello di “plottare” i dati attesi su quelli osservati. Il modello è tanto migliore quanto l’R2 è maggiore, se il parametro “a” non differisce significativamente da zero e se il parametro “b” non differisce significativamente da 1.

Ingestione pecore Sarde

y = x

R2 = 0,9709

2,000

2,200

2,400

2,600

2,800

3,000

3,200

3,400

2,000 2,200 2,400 2,600 2,800 3,000 3,200 3,400

Osservata

Pre

vis

ta

  Coeff. ES Stat t PInferiore

95%Superiore

95%

Intercetta 0,0772 0,1060 0,7283 0,4758 -0,1455 0,2999

Variabile X 1 0,9709 0,0396 24,4987 0,0000 0,8876 1,0541

Page 60: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Validazione modello ingestioney = 1,2976x - 0,1018

R2 = 0,5951

1,00

1,50

2,00

2,50

3,00

3,50

4,00

4,50

5,00

1,50 1,70 1,90 2,10 2,30 2,50 2,70 2,90 3,10Osservati

Att

esi

  Coefficienti ES Stat t P Inf95% Sup95%

Intercetta -0,1018 0,3865 -0,2634 0,7937 -0,8850 0,6813

Variabile X 1 1,2976 0,1760 7,3748 0,0000 0,9411 1,6541

La validazione di un modello è la sua applicazione su un dataset indipendente. Nel caso del modello di ingestione da noi studiato, la sua applicazione ad una altro dataset ha fornito i seguenti risultati.

Page 61: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Stima dei parametri della curva di lattazione secondo il modello di Wood con il metodo della regressione lineare multipla.

latte (kg/d)

mese secondipare

1 35,8

2 41,2

3 39,7

4 37,4

5 35,1

6 32,9

7 31,2

8 29,1

9 25,5

10 22,2

Prendiamo in considerazione i dati di produzione giornaliera di una vacca secondipara Frisona, rilevati con cadenza mensile.

secondipare

0

10

20

30

40

50

1 2 3 4 5 6 7 8 9 10

settimane

latt

e (k

g/d)

Page 62: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

L’equazione gamma-modificata originariamente proposta da Wood (1966) è la seguente [vedi modulo 3 del corso]

y(t) = a tb e-ct

Il modello di wood può essere trasformato nella forma logaritmica

ln (y) = ln (a) + b ln (t) + ct

che rappresenta una equazione di regressione multipla utilizzabile per il fitting sui dati sperimentali

Y = A + bx + ct In cui Y = ln(y); A = ln(a); x = ln(t)

Page 63: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Per poter applicare il modello logaritmico i dati devono essere riarrangiati nel seguente modo

log(latte) log(mese) mese

3,578 0,000 1

3,718 0,693 2

3,681 1,099 3

3,622 1,386 4

3,558 1,609 5

3,493 1,792 6

3,440 1,946 7

3,371 2,079 8

3,239 2,197 9

3,100 2,303 10

  CoefficientiErrore

standard

Intercetta 3,725633 0,021721

Variabile X 1 0,336426 0,041645

Variabile X 2 -0,13703 0,010083

a = exp(3,725633) = 41,5b = 0,336c = -0,137R2= 0,9841

y (t) = 41,5 t0,336 e-0,137 t

Page 64: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Curva di lattazione delle secondipare

05

1015202530354045

1 2 3 4 5 6 7 8 9 10

Mesi

Latte

(kg/

d)

Curva di lattazione stimata con il modello di Wood

y (t) = 41,5 t0,336 e-0,137 t; R2=0,9841

Page 65: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Curva di lattazione secondipara Frisona (latte kg)

y = 0,988x + 0,3767

R2 = 0,9825

20

25

30

35

40

45

20 25 30 35 40 45

Osservato

Sti

mat

o

Page 66: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5 6 7 8 9 10

settimane

latt

e (k

g/d

)

primipare secondipare pluripare

Esercizio: evoluzione della produzione di latte in vacche Frisone: calcolare il valore dei parametri della curva di lattazione.

Page 67: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

latte (kg/d)

settimana primipare secondipare pluripare

1 27,4 35,8 38,1

2 30,5 41,2 43,9

3 29,9 39,7 41,6

4 30,2 37,4 39

5 29,1 35,1 35,5

6 28,6 32,9 32,6

7 27,4 31,2 29,8

8 25,4 29,1 27

9 22,8 25,5 24,2

10 21,3 22,2 20,2

Evoluzione della produzione di latte in vacche Frisone

Page 68: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Cenni di tecniche di regressione non lineare

Tra le tecniche di regressione non lineare analizzeremo:

1. La regressione allometrica

2. La regressione esponenziale

3. I modelli polinomiali di grado superiore al 2°

Page 69: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

La regressione allometrica segue il modello

baxy In cui i parametri da stimare sono “a” e “b”

Prima di procedere all’applicazione del modello si effettua l’EDA sui dati sperimentali

Page 70: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Il grafico si riferisce alla produzione di latte e di grasso di pecore di razza Sarda. L’ipotesi è che l’andamento segua un modello allometrico

0

20

40

60

80

100

120

140

160

180

200

0 0,5 1 1,5 2 2,5 3

Produzione di latte (kg/giorno)

Pro

du

zio

ne

di g

rass

o (

g/g

iorn

o)

Page 71: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

L’equazione trovata conferma che il la secrezione complessiva di grasso è meno che proporzionale a quella di latte con una ragione d’esponente pari a 0,85.

Si impiega la routine grafica di Excell ® [click sui dati con il pulsante destro del mouse; aggiungi linea di tendenza; potenza; opzioni; equazione; R2] per trovare l’equazione.

y = 71,213x0,8439

R2 = 0,9181

0

20

40

60

80

100

120

140

160

180

200

0 0,5 1 1,5 2 2,5 3

Produzione di latte (kg/giorno)

Pro

du

zio

ne

di g

rass

o (

g/g

iorn

o)

Page 72: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Velocità di secrezione del grasso in pecore Frisone

4,0

5,0

6,0

7,0

8,0

9,0

10,0

0 5 10 15 20 25 30

intermungitura (ore)

pro

du

zin

oe

di

gra

sso

(g

/h)

I dati a fianco si riferiscono alla velocità di secrezione oraria del grasso nel latte di pecore Frisone (Mickusick et al JDS 2002)

Si impiega la routine grafica di Excell ® per trovare l’equazione.

Page 73: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Ritmo di secrezione del grasso in pecore Frisone

y = 14,128x-0,3243

R2 = 0,9639

4,0

5,0

6,0

7,0

8,0

9,0

10,0

0 5 10 15 20 25 30

intermungitura (ore)

pro

du

zin

oe

di

gra

sso

(g

/h)

L’equazione dice che la velocità di secrezione al tempo x=1 è di 14 g/h (circa) e che si riduce di una ragione esponenziale di circa 1/3 per ora.

Page 74: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

La regressione esponenziale segue il modello matematico

bxaey

In cui i parametri da stimare sono “a” e “b”

Frazione cisternale del latte in pecore Sarde

30

35

40

45

50

55

60

0 5 10 15 20 25 30

intermungitura (ore)

fra

zio

ne

cis

tern

ale

(%

)

I dati a fianco si riferiscono alla frazione cisternale di latte in pecore Sarde in funzione dell’intermungitura (Pulina et al, 2005)

Page 75: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Frazione cisternale del latte in pecore Sarde

y = 30,739e0,0279x

R2 = 0,8988

30

35

40

45

50

55

60

65

0 5 10 15 20 25 30

intermungitura (ore)

fra

zio

ne

cis

tern

ale

(%

)

Si impiega la routine grafica di Excell ® [click sui dati con il pulsante destro del mouse; aggiungi linea di tendenza; opzioni; esponenziale; equazione; R2] per trovare l’equazione.

Page 76: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Il modello polinomiale multiplo è il seguente

nn xbxbxbay ..2

21

Velocità di secrezione del latte in pecore Frisone

92949698

100102104106108

0 5 10 15 20 25 30

intermungitura (ore)

pro

du

zio

ne

di

latt

e (g

/h)

I parametri da stimare sono la “a” e i “b.”

I dati a fianco si riferiscono alla velocità di secrezione oraria del latte in pecore Frisone (Mickusick et al JDS 2002)

Page 77: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Velocità di secrezione del latte in pecore Frisone

y = 0,0011x4 - 0,0463x3 + 0,5351x2 - 0,8537x + 94,736

R2 = 0,8131

90

95

100

105

110

0 5 10 15 20 25 30

intermungitura (ore)

pro

du

zio

ne

di

latt

e (g

/h)

Si impiega la routine grafica di Excell ® [click sui dati con il pulsante destro del mouse; aggiungi linea di tendenza; opzioni; polinomiale; equazione; R2] per trovare l’equazione.

n.b. = excell calcola polinomi fino al 6° grado; dal 3° in poi i parametri perdono significato biologico!!

Page 78: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

…infatti, l’aumento del grado del polinomio comporta il passaggio della curva su tutti i dati. Nel nostro caso un polinomio di 6° grado si comporta così:

Velocità di secrezione del latte in pecore Frisone

y = -0,0006x5 + 0,0455x4 - 1,2074x3 + 14,502x2 - 76,457x + 237,58

R2 = 1

90

95

100

105

110

0 5 10 15 20 25 30

intermungitura (ore)

pro

du

zio

ne

di

latt

e (g

/h)

…con l’ovvia conseguenza di descrivere tutto e non spiegare nulla.

Page 79: LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Fine del corso e buon lavoro.