Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 1
Metodi statistici per l’analisi dei dati
Massimiliano GrossoDipartimento di Ingegneria Meccanica, Chimica e dei
MaterialiE-mail: [email protected]: http://people.unica.it/massimilianogrosso
Metodi statistici per l'analisi dei dati
INTRODUZIONEMetodi Statistici per l’Analisi dei Dati
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 2
Richiami di statistica –Esperimenti
replicati
Motivazioni
• Obbiettivo della pianificazione sperimentale:
– Pianificazione degli esperimenti in maniera tale che i risultati della campagna sperimentali possano essere analizzati con metodi statistici, per giungere a delle conclusioni oggettive del processo
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Due fasi distinte:
1. Pianificazione della campagna sperimentale (Design Of Experiments: DOE)
2. Analisi statistica dei risultati
Richiami di statistica –Esperimenti
replicati
Motivazioni
Metodi statistici per l'analisi dei dati14-18 settembre 2015
ProcessoInputs:
…x1 x2 x3 xn
…z1 z2 z3 zn
Outputs y
Fattori controllabili:
Fattori incontrollabili:
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 3
Richiami di statistica –Esperimenti
replicati
Motivazioni
• Lo studio di un processo è una procedura iterativa
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Congettura su un processo
Esperimenti sul processo
Conoscenza del processo
Richiami di statistica –Esperimenti
replicati
Progettazione campagna sperimentale –Concetti di base
• I principi di base della progettazione della campagna sperimentale sono:
1. Replicazione
2. Randomizzazione
3. Blocking
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 4
Richiami di statistica –Esperimenti
replicati
Progettazione campagna sperimentale –Concetti di base
• Replicazione
• Ripetere gli esperimenti nelle stesse condizioni più volte
1. Permette di ottenere una stima «genuina» dell’errore sperimentale
2. Permette una stima più precisa della variabile di output
• N.B. Non si deve confondere il concetto di replica della misura sperimentale con misura ripetuta
• Nell’ultimo caso si può valutare al più la variabilità intrinseca del sistema di misura
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Richiami di statistica –Esperimenti
replicati
Progettazione campagna sperimentale –Concetti di base
• Randomizzazione
• Ordine con cui sono eseguite le misure sperimentali deve essere del tutto casuale
• Randomizzando l’ordine delle esperienze si possono compensare eventuali effetti di ulteriori fattori (non considerati nel modello) che possono essere presenti
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 5
Richiami di statistica –Esperimenti
replicati
Progettazione campagna sperimentale –Concetti di base
• Blocking
• Tecnica di progettazione della campagna sperimentale usata per aumentare la precisione con cui sono effettuati i confronti tra i fattori di interesse.
• Il Blocking è usato per ridurre la variabilità relativa a fattori di disturbo
– fattori che possono influenzare la risposta ma a cui non siamo interessati
• Blocco – Definizione
• Un insieme di condizioni sperimentali relativamente omogenee
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Richiami di statistica –Esperimenti
replicati
Linee guida per una campagna sperimentale
1. Definizione del problema
2. Scelta dei fattori, livelli e intervalli
3. Selezione delle variabili da misurare
4. Pianificazione della campagna sperimentale
5. Esperimenti
6. Analisi statistica dei dati
7. Conclusioni
• Le linee guida riportate sono valide qualunque sia il livello di conoscenza del processo
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 6
Richiami di statistica –Esperimenti
replicati
Conoscenza del processo – Outline degli strumenti a disposizione
Halffractionaldesign
Screening preliminare delle variabili
Full factorialdesign
Valutazione delle variabili che influenzano il processo
Modelli empirici
Modelli lineari
Ottimizzazione
Response Surface Model
Modelli a principi primi
Regressione non lineare
Metodi statistici per l'analisi dei dati14 – 18 settembre 2015
Co
no
sce
nza
de
l pro
cess
o
Ogg
ett
o d
el c
ors
o
RICHIAMI DI STATISTICA –ESPERIMENTI REPLICATI
Metodi statistici per l’analisi dei dati
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 7
Richiami di statistica –Esperimenti
replicati
Introduzione alla sezione
• La discussione permetterà di rivedere diversi concetti di base di statistica
– Variabili aleatorie
– Distribuzioni di probabilità
– Campioni aleatori
– Distribuzioni di campionamento
– Test delle ipotesi – Intervalli di fiducia
• Per il momento esperimenti effettuati sempre nelle stesse condizioni.
• N.B. Da non confondere esperimenti replicati nelle stesse condizioni con misure ripetute
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Richiami di statistica –Esperimenti
replicati
Esempio introduttivo
• Si intende monitorare la qualità di una crema destinata ad uso alimentare.
• A tal proposito sono effettuate
– 10 misure sperimentali di viscosità riportate in tabella
• L’insieme di misure di viscosità è un campione sperimentale.
Metodi statistici per l'analisi dei dati
jControllo
(cp)
1 70.00
2 70.52
3 73.00
4 72.00
5 71.44
6 71.00
7 72.88
8 71.60
9 71.84
10 72.60
71.69y
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 8
Richiami di statistica –Esperimenti
replicati
Concetti di statistica di base
• Le prove sperimentali (etichettate con il pedice j) differiscono tra loro per effetto delle fluttuazioni dovute all’errore sperimentale.
• La presenza dell’errore sperimentale implica che la singola misura sia l’esito di una variabile aleatoria (ovvero, non è possibile a priori la sua previsione).
Metodi statistici per l'analisi dei dati
Richiami di statistica –Esperimenti
replicati
Concetti di statistica di base – Descrizioni grafiche della variabilità
• Diagramma per punti
• Utile per campioni di piccole dimensioni (sino a 20 osservazioni).
• Il diagramma permette di riconoscere il trend centrale e la dispersione dei dati.
Metodi statistici per l'analisi dei dati
Viscosità [cp]
69.5 70.0 70.5 71.0 71.5 72.0 72.5 73.0 73.5
69.711
==
=
n
y
y
n
jj
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 9
Richiami di statistica –Esperimenti
replicati
Concetti di statistica di base – Indici di posizione e dispersione del campione
• Scalari per identificare il trend centrale:
• Media aritmetica
• Mediana: rappresenta il valore centrale che divide il campione in due parti uguali costituiti rispettivamente dai valori inferiori e superiori ad esso
Metodi statistici per l'analisi dei dati16-20 settembre 2013
69.711
==
=
n
y
y
n
jj
Richiami di statistica –Esperimenti
replicati
Concetti di statistica di base – Indici di posizione e dispersione del campione
• Misure della dispersione dei dati:
• Varianza:
• Deviazione standard
• È la radice quadrata della varianza
• Utile perché ha le stesse dimensioni della variabile y
La somma dei quadrati è divisa per (n-1) anziché n
=
--
=n
jj yy
ns
1
22
1
1
=
--
=n
jj yy
ns
1
2
1
1
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 10
Richiami di statistica –Esperimenti
replicati
Concetti di statistica di base – Descrizioni grafiche della variabilità – Frequenze
Metodi statistici per l'analisi dei dati
• In presenza di campioni di dimensioni maggiori è possibile riportare i dati negli istogrammi delle frequenze assolute (o relative) del campione di dati.
• L’istogramma è costruito dividendo l’asse orizzontale in intervalli (in genere di uguale lunghezza) e disegnando un rettangolo sul j-esimo intervallo la cui area sia proporzionale a nj, numero di osservazioni che cadono nell’intervallo.
2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 3.8 4
0
0.5
1
1.5
2
Richiami di statistica –Esperimenti
replicati
Viscosità [cp]70 71 72 73
• Rappresentazione dei campioni tramite “diagrammi a scatola” (“box-plots”)
Concetti di statistica di base – Descrizioni grafiche della variabilità
Metodi statistici per l'analisi dei dati
Primo quartile Terzo quartile
Il 25% delle osservazioni cade in questo intervallo
Valore minimo
del campione
Valore massimo
del campione
Mediana
Il 50 % delle osservazioni cade in questo intervallo
Il 75% delle osservazioni cade in questo intervallo
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 11
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie
• L’obiettivo dell’inferenza statistica è trarre delle conclusioni su una popolazione a partire da un suo campione
Metodi statistici per l'analisi dei dati
Popolazione
Campione
Campagna sperimentale
Inferenza statistica
Dal campione si intende ottenere informazioni sulla popolazione generatrice non nota
Richiami di statistica –Esperimenti
replicati
Caratterizzazione della Popolazione –Distribuzioni di probabilità
• La struttura di probabilità di una variabile aleatoria (VA) Y è descritta dalla sua funzione densità di probabilità(probability density function: pdf) f(y).
• Proprietà fondamentali della pdf di una VA:
Metodi statistici per l'analisi dei dati
0yf
=b
a
dyyfbyaP
1=
-
dyyf
1.
2.
3.
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 12
Richiami di statistica –Esperimenti
replicati
Caratterizzazione della Popolazione –Distribuzioni di probabilità
• Esempio di funzione densità di probabilità
Metodi statistici per l'analisi dei dati
0 10 20 30 400.00
0.02
0.04
0.06
0.08
0.10
0 10 20 30 400.00
0.02
0.04
0.06
0.08
0.10 =20
10
2010 dyyfyP
Richiami di statistica –Esperimenti
replicati
Distribuzioni di probabilità – Scalari associati
• Media di una variabile aleatoria Y (anche definito valore atteso)
• Definizione
• L’operatore Valore Atteso E[X] restituisce il risultato medio che si osserverebbe per in presenza di infinite osservazioni della Variabile Aleatoria X
Metodi statistici per l'analisi dei dati
YEdyyfy ==m
-
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 13
Richiami di statistica –Esperimenti
replicati
Caratterizzazione della Popolazione –Scalari associati ad una VA
• Varianza di una variabile aleatoria Y
• Varianze piccole sono associate ad incertezze piccole.
Metodi statistici per l'analisi dei dati
222 m-=m-==s
-
YEdyyfyYV
Richiami di statistica –Esperimenti
replicati
Caratterizzazione della Popolazione –Scalari associati ad una VA
• Alcune proprietà di interesse delle VA. 1/2
Metodi statistici per l'analisi dei dati
1.
3.
4.
5.
6.
ccE =
m== cycEcYE
0=cV
2s=YV
222 s== cYVccYV
2. m=YE
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 14
Richiami di statistica –Esperimenti
replicati
Caratterizzazione della Popolazione –Scalari associati ad una VA
• Alcune proprietà di interesse delle VA. 2/2
• In presenza di più variabili aleatorie:
• Dove è definita la covarianza delle VA Y1 e Y2:
Metodi statistici per l'analisi dei dati
6.
7.
212121 mm== YEYEYYE
),cov(2 212121 YYYVYVYYV =
221121 ),cov( m-m-= YYEYY
Richiami di statistica –Esperimenti
replicati
Caratterizzazione della Popolazione –Scalari associati ad una VA
• Statistica – Definizione:
• Una statistica è una funzione delle osservazioni di un campione che non contiene parametri incogniti della popolazione che ha generato il campione (es: media e varianza).
• Esempi di statistiche:
• Media aritmetica
• Varianza campionaria
Metodi statistici per l'analisi dei dati
n
Y
Y
n
ii
== 1
11
2
2
-
-
=
=
n
YY
S
n
ii
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 15
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie -Stimatori
• Stimatore – definizione:
• Uno stimatore di un parametro ignoto è una statistica che mira a valutare il parametro stesso.
• La media aritmetica e la varianza campionaria sono esempi di stimatori puntuali.
• Lo stimatore puntuale del generico parametro è in genere indicato con il simbolo del cappuccio:
• Esempio media aritmetica:
• Un valore numerico puntuale calcolato da un campione di dati, prende il nome di stima.
Metodi statistici per l'analisi dei dati
m== ˆnYY i
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie -Stimatori
• Proprietà stimatori
• Imparzialità: Uno stimatore si dice imparziale (unbiased) se il suo valore atteso coincide con il valore vero del parametro
• NB sebbene il valore vero non sarà mai noto è possibile valutare il verificarsi della imparzialità.
• Efficienza: È una misura della varianza dello stimatore. Se dispongo di più stimatori devo scegliere quello con varianza minima ovvero quello con la massima efficienza.
Metodi statistici per l'analisi dei dati
=E
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 16
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie -Stimatori
• Lo stimatore media aritmetica è imparziale:
Metodi statistici per l'analisi dei dati
m=m=m=
===
=
=
==
=
nnn
YEn
YEnn
YEYE
n
i
n
i i
n
i i
n
i i
11
11
1
11
1
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie -Stimatori
• Lo stimatore media aritmetica è efficiente:
Metodi statistici per l'analisi dei dati14-18 settembre 2015
nn
nn
YVn
Yn
Vn
YVYV
n
i
n
i i
n
i i
n
i i
22
21
2
2
121
1
11
11
s=s=s=
==
=
=
=
==
=
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 17
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie -Stimatori
• In maniera analoga si può dimostrare che la varianza campionaria S2 è imparziale
• dove SS è la somma corretta dei quadrati delle osservazioni yi
Metodi statistici per l'analisi dei dati
SSEn
YYEnn
YYESE
n
i i
n
i i
1
1
1
1
1 1
21
2
2
-=
=--
=
-
-=
=
=
=-=
n
i i yySS1
2
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie -Stimatori
• Dimostrazione imparzialità varianza – Continua
• da cui:
Metodi statistici per l'analisi dei dati
22
1
1s=
-= SSE
nSE
222
1
22
2
1
2
1
2
1 s-=sm-sm=
=-=-=
=
==
nnn
YnYEYYESSE
n
i
n
i i
n
i i
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 18
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie –Definizione gradi di libertà
• Il numero di gradi di libertà di una somma di quadrati è data dal numero di elementi indipendenti presenti nella somma.
• Esempio: SS ha n-1 g.d.l.
• In SS non tutti gli elementi sono indipendenti: la media aritmetica è calcolata a partire dei valori yi.
• In altre parole, deve essere soddisfatto il vincolo:
Metodi statistici per l'analisi dei dati
=-=
n
i i yySS1
2
01
=- =
n
i i yy
Richiami di statistica –Esperimenti
replicati
Campioni e distribuzioni campionarie –Definizione gradi di libertà
• Risultato generale:
• Se y è una variabile aleatoria di varianza s2 e la somma degli
scarti quadratici ha g.d.l., allora
• Proprietà importante per le applicazioni successive
Metodi statistici per l'analisi dei dati
2s=
SSE
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 19
Richiami di statistica –Esperimenti
replicati
Caratterizzazione della Popolazione –Esempi di distribuzione
• Distribuzione di tipo normale o Gaussiana
• La densità di probabilità è data da:
• La funzione è definita lungo tutto l’asse reale (ovvero un qualunque numero reale può essere un esito di una VA di tipo normale)
• Il grafico di tale funzione è una curva a campana simmetrica
rispetto a y=m
• La distribuzione dipende da due parametri, m e s2.
Metodi statistici per l'analisi dei dati
-
s
m--
s= y
yyf
2
2
2
1exp
2
1
Richiami di statistica –Esperimenti
replicati
Distribuzione normale
In figura sono riportate tre gaussiane con egual media e varianza 0.25, 0.5, 1
Metodi statistici per l'analisi dei dati
4 2 2 4
0.2
0.4
0.6
0.8
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 20
Richiami di statistica –Esperimenti
replicati
m-s ms ms msm-sm-s m
Distribuzione normale
68.26%
95.46%
99.73%
Aree sottese dalla distribuzione normale
N.B.
Questo è vero per ogni valore di m e s nel caso della Gaussiana!
Richiami di statistica –Esperimenti
replicati
Distribuzione normale di tipo standard –Definizione
• Data una variabile aleatoria Y (di tipo gaussiano) di media m e
varianza s2
• Si consideri la seguente trasformazione lineare:
• È facile verificare che la nuova VA Z ha media 0 e varianza unitaria:
s
m-=
YZ
Gaussiana di tipo standard
2,~ smNY
1,0~ NZ
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 21
Richiami di statistica –Esperimenti
replicati
Funzioni di VA GaussianeTrasformazioni lineari
• Nota la funzione di distribuzione standard è possibile ricavare le proprietà di una qualsiasi distribuzione gaussiana
• In particolare, è possibile calcolare la probabilità che si verifichi un dato evento per un generico processo, con media e varianza note.
• Questo è possibile sapendo solo i valori della distribuzione di tipo standard.
Richiami di statistica –Esperimenti
replicati
Calcolo probabilità per una Gaussiana generica
-5 0 5 10 15
m = 10; s2 = 0.5
(y – m)z =
s
-2.83
8
-1.58 1.58-5 0 5 10 15
Normale standard
100-5 5 15
m = 5; s2 = 10
0
10
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 22
Richiami di statistica –Esperimenti
replicati
Calcolo probabilità per una Gaussiana generica
• Esempio: calcolare quale è la probabilità che si verifichi un evento appartenente all’intervallo [0,5] per la variabile aleatoria di media 3 e deviazione standard 2:
• Si deve calcolare quale è la probabilità che la variabile aleatoria di tipo standard assuma un valore nell’intervallo corrispondente.
43
Richiami di statistica –Esperimenti
replicati
Calcolo probabilità per una Gaussiana generica
• Dobbiamo calcolare la probabilità:
• Gli estremi dell’intervallo corrispondente per la distribuzione di tipo standard possono essere facilmente calcolati
0 5P X
11
0 3
2X
X
xz
m
s
- -= =
22
5 31
2X
X
xz
m
s
- -= = =
0 5
1.5 1
0.8413 0.0668 77.4%
P X
P Z
=
- =
- =
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 23
Richiami di statistica –Esperimenti
replicati
Calcolo probabilità per una Gaussiana generica
• Esercizi
• Sia Y una variabile aleatoria di tipo normale, di media m = 16 e varianza s2 = 25
• Calcolare:
– P(Y > 20)
– P(20 < Y < 25)
– P(Y < 10)
– P(12 < Y < 24)
Richiami di statistica –Esperimenti
replicati
Teorema del limite centrale
• Teorema del limite centrale
• Sia y1,y2, …, yn una successione di n VA indipendenti ed
identicamente distribuite tali che E[yi]=m e V(yi)=s2.
• Sia inoltre xn=y1+y2+…+yn
• Allora:
• tende ad una VA Gaussiana di tipo standard per n →
Metodi statistici per l'analisi dei dati
2s
m-=
n
nXZ n
n
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 24
Richiami di statistica –Esperimenti
replicati
Teorema del limite centrale
• VA Gaussiana è ideale per descrivere l’errore sperimentale
• La VA di tipo normale è un valido modello matematico per descrivere le incertezze presenti nella misura sperimentale
– È ragionevole assumere che le deviazioni dal valore vero provengano da diverse fonti indipendenti
Metodi statistici per l'analisi dei dati
Richiami di statistica –Esperimenti
replicati
Variabili Aleatorie derivate dalla gaussiana
- Variabile
• Si considerino k VA di tipo Standard indipendenti z1, z2, …. zk
• La variabile aleatoria scalare
• prende il nome di variabile aleatoria 2 ad n gradi di libertà.
• Tale variabile aleatoria è caratterizzata completamente da un solo parametro, il numeri di gradi di libertà k.
• La pdf ha espressione:
222
21 ... kZZZX =
02
exp
22
1 12
2
-
=-
xx
xk
xfk
k
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 25
Richiami di statistica –Esperimenti
replicati
Variabile aleatoria
• Funzione densità di probabilità
0 1 2 3 4 5 6 7 8 9 100
0.1
0.2
0.3
0.4
0.5
n = 1n = 2n = 4n = 6
Richiami di statistica –Esperimenti
replicati
Variabile aleatoria
• Proprietà di una variabile aleatoria 2 a k gradi di libertà
• Il massimo si ha per y = n-2.
• Per n → ∞ la distribuzione 2 tende ad una gaussiana.
k
k
22 =s
=m
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 26
Richiami di statistica –Esperimenti
replicati
Variabile aleatoria – Esempio
• Esempio di VA che segue la distribuzione di tipo 2:
• Siano y1, y2, …, yn un campione di dati generati da una VA di tipo Gaussiano N(m,s2). Allora:
• Da cui, con semplici passaggi, si può ricavare la seguente relazione per la stima S2 della varianza:
Metodi statistici per l'analisi dei dati
2
121
2
2~ -
= s
-=
s
n
n
i i yySS
212
22 1
1-
s-
-= n
Sn
n
SSS
Richiami di statistica –Esperimenti
replicati
VA derivate dalla gaussiana Distribuzione T-student
• Siano dati una variabile aleatoria Z Gaussiana di tipo standard (ovvero Z N(0,1)), ed una 2 ad r gradi di libertà
• La variabile aleatoria :
è una distribuzione T di student ad r gradi di libertà.
r
ZT
r
r 2=
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 27
Richiami di statistica –Esperimenti
replicati
VA derivate dalla GaussianaDistribuzione T di student
• Espressione analitica della T di student
• Proprietà:
• Dipende da un solo parametro il numero intero r
-
=
y
r
yrr
r
yfrr
2
12
1
1
2
2
1
0, =m rt 22
2,
-=s r
r
rrtMedia: Varianza:
Richiami di statistica –Esperimenti
replicati
VA derivate dalla GaussianaDistribuzione T di student
• In figura sono mostrate le funzioni densità per 1,3,6 gradi di libertà.
• La T è simmetrica rispetto a y=0
• Per r →+∞ la T di student tende ad una gaussiana di tipo standard.
William Gosset“creatore” della T di student
y-4 -2 0 2 4
f Y(y
)
0.0
0.1
0.2
0.3
0.4n =2
n = 4Distribuzione Standard
n
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 28
Richiami di statistica –Esperimenti
replicati
Variabile aleatoria di tipo t di student –Esempio
• Esempio di VA che segue la distribuzione di tipo t di student:
• Siano y1, y2, …, yn un campione di dati generati da una VA di tipo Gaussiano N(m,s2). Allora, la quantità:
• Segue una distribuzione di tipo t di student a (n-1) g.d.l.
Metodi statistici per l'analisi dei dati
nS
yt
2
m-=
Richiami di statistica –Esperimenti
replicati
VA derivate dalla GaussianaLa distribuzione F di Fisher
• Siano Y e W due VA di tipo 2 rispettivamente ad u e v gradi di libertà.
• Il rapporto
è una VA di tipo F di Fisher ad (u,v) gradi di libertà.
• La VA ha due parametri, u e v.
v
uFv
u
vu 2
2
,
=
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 29
Richiami di statistica –Esperimenti
replicati
VA derivate dalla GaussianaLa distribuzione F di Fisher
• Espressione analitica della F di Fisher
=
-
y
yv
u
y
v
u
vu
vu
vuyfvu
un
0
122
2,;
2
2
22/
2,2
-
=m vv
vF
424
22
2
22
=s v
v- v-u
v-u vF
Media:
Varianza:
Richiami di statistica –Esperimenti
replicati
VA derivate dalla GaussianaLa distribuzione F di Fisher
• Grafici della F di Fisher al variare dei gradi di libertà
y0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
f Y(y)
0.0
0.2
0.4
0.6
0.8
1.0
1.2(10, 4) g.d.l.
(10, 10) g.d.l
(10, 50) g.d.l.
(10, Infinity) g.d.l.
Sir Ronald Aylmer Fisher1890 - 1962
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 30
Richiami di statistica –Esperimenti
replicati
Variabile aleatoria di tipo F di Fisher –Esempio
• Esempio di VA che segue la distribuzione di tipo F di Fisher:
• Siano:
– y1,1, y1,2, …, y1,n1 un campione di n1 osservazioni provenienti da una data popolazione
– y2,1, y2,2, …, y2,n2 un campione di n2 osservazioni provenienti da una altra popolazione
• Si suppone inoltre che la varianza s2 sia la stessa per entrambe le popolazioni. Allora:
• Dove S12 e S2
2 sono le due varianze campionarie calcolate per i due campioni
Metodi statistici per l'analisi dei dati
12,1122
21
-- nnFS
S
Richiami di statistica –Esperimenti
replicati
Analisi del campione di dati con strumenti statistici – Ulteriori sviluppi
• Modello statistico per il campione di dati:
Metodi statistici per l'analisi dei dati16-20 settembre 2013
njNy jjj ,...,2,1,0 2 =seem=
yi
j-esima osservazione sperimentale
mMedia della
risposta Costante
ej
Variabile aleatoria normale associata
con la j-esima osservazione
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 31
Richiami di statistica –Esperimenti
replicati
Analisi del campione di dati con strumenti statistici – Ulteriori sviluppi
• Nei prossimi lucidi si illustreranno delle tecniche utili per approfondire ulteriormente la conoscenza del campione di dati a disposizione:
– Test statistici delle ipotesi
– Intervalli di fiducia
Metodi statistici per l'analisi dei dati16-20 settembre 2013
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi – Introduzione
• Torniamo al campione sperimentale di prodotti alimentari dell’esempio introduttivo.
• Da pregressi studi sull’impianto si sa che nella linea produttiva non sono graditi materiali troppo viscosi (perdite di carico, costi di esercizio etc.).
• Da pregresse analisi si è stabilito un valore di soglia per la viscosità:
• al di sopra del quale risulta difficile la lavorazione del prodotto.
Metodi statistici per l'analisi dei dati16-20 settembre 2013
=72.5
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 32
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi - Definizione
• Un’ipotesi statistica è un’assunzione che noi facciamo sui parametri di una distribuzione o, equivalentemente, di un modello.
• L’ipotesi riflette qualche congettura sul problema in esame.
• Nel caso dell’esempio introduttivo, si vuole stabilire se
– la viscosità della crema possa essere almeno pari al valore critico oppure
– vi è una differenza significativa rispetto al valore =72.5.
Metodi statistici per l'analisi dei dati
Richiami di statistica –Esperimenti
replicati
Test statistici – Definizione del problema
• Un test statistico di un’ipotesi è una procedura in cui si conclude se è possibile non rigettare l’ipotesi (cioè non si può escludere che essa sia vera) oppure rigettare l’ipotesi.
– Si usa un campione e si cerca di concludere se tale campione è compatibile o meno con l’ipotesi nulla di partenza.
• Nell’esempio preso in considerazione, si vuole testare se il campione sperimentale possa derivare da una variabile
aleatoria di media = 72.5
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 33
Richiami di statistica –Esperimenti
replicati
Test delle Ipotesi - Ipotesi nulla
• Il test delle ipotesi richiede l’introduzione di una ipotesi nulla H0:
• In alternativa è possibile che la viscosità sia realmente minore del valore di soglia. Questa ipotesi, in contrasto con l’ipotesi nulla, è l’ipotesi alternativa H1:
• Tutti i test delle ipotesi statistici richiedono la formulazione di un’ipotesi nulla e di un’ipotesi alternativa
• L’ipotesi nulla e l’ipotesi alternativa sono esaustive e mutuamente esclusive.
5.72: 00 =m=mH
5.72: 01 =mmH
Richiami di statistica –Esperimenti
replicati
Test statistici – Errori che si possono commettere nella procedura
• Errore di tipo I (o errore a)
• Probabilità di rigettare l’ipotesi nulla nonostante essa fosse vera
• è anche il livello di significatività del test.
• Errore di tipo II (o errore b)
• Probabilità di non rigettare l’ipotesi nulla nonostante essa fosse falsa
Metodi statistici per l'analisi dei dati
a=P(errore di tipo I)=P(rigetto H0|H0 è vera)
b=P(errore di tipo II)=P(non rigetto H0|H0 è falsa)
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 34
Richiami di statistica –Esperimenti
replicati
Test statistici – Sviluppo della procedura
• Parte della procedura consiste nel calcolo dell’insieme di valori che portano al rigetto di H0.
• Tale insieme di valori prende il nome di regione critica o regione di rigetto del test.
Metodi statistici per l'analisi dei dati
Richiami di statistica –Esperimenti
replicati
Test statistici – Caso varianza s2 nota –Ricetta 1/4
• N.B. Tale eventualità non è solo di interesse didattico: l’incertezza presente nelle misure sperimentali può essere nota a priori, per esempio da pregresse misure.
• Per l’esempio si assume s2=1
1. Scegliere un livello di significatività a del test (in genere a=0.05)
2. Calcolare il valore critico za tale che:
• Nel caso in esame, per a=0.05 si può leggere dalle tabelle za=-1.64485
a= azZP
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 35
Richiami di statistica –Esperimenti
replicati
• Distribuzione normale di tipo standard con l’evidenzia delle regioni critiche
Test statistici – Esempio: Caso varianza nota – Ricetta 2/4
Metodi statistici per l'analisi dei dati
3 2 1 1 2 3
0.1
0.2
0.3
0.4
Regione di rigetto Regione di non rigetto
za=-1.645
-2.101
area=a=0.05
Richiami di statistica –Esperimenti
replicati
Test statistici – Esempio: Caso varianza nota – Ricetta 3/4
• Calcolare
• Dove:
– è la media campionaria
– s2 è la stima dell’errore sperimentale
– n è la dimensione del campione
n
yz
2
00
s
m-=
y
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 36
Richiami di statistica –Esperimenti
replicati
Test statistici – Esempio: Caso varianza nota – Ricetta 3/4
• Si confronta il valore di z0 osservato con il valore critico za
• non rigettiamo l’ipotesi nulla H0: non si hanno evidenze sperimentali tali da affermare che la media sia significativamente minore del valore di riferimento
• Si rigetta l’ipotesi nulla: la media è significativamente
minore di m0.
• Il «rischio» di affermare la conclusione sbagliata è pari al livello di significatività a del test
Metodi statistici per l'analisi dei dati
azz 0
a zz0
Richiami di statistica –Esperimenti
replicati
Test delle Ipotesi sulla media - Teoria
• Caso varianza s2 nota
• Se l’ipotesi nulla
• fosse vera, la variabile aleatoria media campionaria
• si comporterebbe come una distribuzione gaussiana di media
m0 e varianza s2/n
00 : m=mH
n
YY i=
sm
nNY
2
0 ,
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 37
Richiami di statistica –Esperimenti
replicati
Test delle Ipotesi sulla media - Teoria
• Pertanto, se H0 fosse vera, la variabile aleatoria
• sarebbe una distribuzione normale di tipo standard e il valore osservato z0 sarebbe un esito che rispetta tale VA.
n
YZ
2
0
s
m-=
Metodi statistici per l'analisi dei dati
Richiami di statistica –Esperimenti
replicati
Test delle Ipotesi sulla media - Teoria
• Al di sopra di za è poco plausibile che la variabile aleatoria Zassuma valori
Metodi statistici per l'analisi dei dati
3 2 1 1 2 3
0.1
0.2
0.3
0.4
Regione di rigetto Regione di non rigetto
za=-1.645
-2.101
area=a=0.05
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 38
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media - Esempio
• Si consideri di nuovo l’esempio.
• Il test delle ipotesi è sul valore medio:
• Con un livello di significatività a = 5 %
01
00
:
:
mm
m=m
H
H
Metodi statistici per l'analisi dei dati
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media - Esempio
• Si valuta innanzitutto il valore za tale che P(Z<za)=a=0.05.
• Se l’ipotesi nulla fosse vera, il risultato
• sarebbe un valore osservato di una variabile aleatoria normale di tipo standard.
645.1-=a= aa zzZP
568.2101
5.7269.7100 -=
-=
s
m-= n
yz
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 39
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media - Esempio
Il valore osservato z0 rientra nella regione in cui la
variabile aleatoria ha poche probabilità
di cadere
C’è un 5% di probabilità che il valore osservato
appartenga alla VA supposta nell’ipotesi
nulla H0 e sia comunque rigettata
3 2 1 1 2 3
0.1
0.2
0.3
0.4
Regione di rigetto Regione di non rigetto
za=-1.645z0=-2.568
Metodi statistici per l'analisi dei dati
Richiami di statistica –Esperimenti
replicati
4.0 3.5 3.0 2.5 2.0
Test statistici – Uso del p-value
• Approccio alternativo a quello classico dell’individuazione delle zone di rigetto.
• Il p-value rappresenta la probabilità che la statistica test stimata assuma un valore almeno uguale al valore osservato della statistica nel caso in cui l'ipotesi nulla fosse vera.
• Nel caso dell’esempio:
Metodi statistici per l'analisi dei dati
4 2 2 4
0.1
0.2
0.3
0.4
z0=-2.5678
0051.0
568.20
=
-==- zZPvaluep
z0=-2.5678
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 40
Richiami di statistica –Esperimenti
replicati
Test statistici – Uso del p-value
• Pro
• Informazione più quantitativa
• Contro:
• Necessita di calcolatori con programmi specifici (o comunque competenze di programmazione avanzata)
Metodi statistici per l'analisi dei dati
Richiami di statistica –Esperimenti
replicati
Test delle Ipotesi - Ipotesi alternative 1/4
• Nel problema in esame si assume che il nostro campione di dati sperimentali sia caratterizzato da una variabile aleatoria che abbia una funzione densità di probabilità che coinvolge un
parametro ignoto e si assume l’ipotesi nulla che
• L’ipotesi alternativa era:
• Ma non è l’unica alternativa che possiamo considerare.
01 : H
00 θθ: =H
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 41
Richiami di statistica –Esperimenti
replicati
Test delle Ipotesi - Ipotesi alternative 2/4
• In altri casi la natura può suggerire altri tipi di alternative:
• Oppure
• Le prime 2 alternative si chiamano one-sided. L’ultima two-sided
01 : H
01 : H
Richiami di statistica –Esperimenti
replicati
Test delle Ipotesi – Ipotesi alternative 3/4
• Nel caso di ipotesi alternativa
• Si deve determinare il valore critico za tale che tutti i valori superiori ad esso abbiano una
probabilità di verificarsi pari a a
• Dobbiamo escludere i valori per cui la distribuzione gaussiana standard assume valori tali che
01 : H
a= azZP
3 2 1 1 2 3
0.1
0.2
0.3
0.4
Regione di rigettoRegione di non rigetto
za=+1.645
a=0.05
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 42
Richiami di statistica –Esperimenti
replicati
Test delle Ipotesi – Ipotesi alternative 4/4
• Nel caso di ipotesi alternativa
• Ricordiamo che è una ipotesi alternativa «two-sided»
• Si deve determinare il valore critico za tale che
Metodi statistici per l'analisi dei dati14-18 settembre 2015
01 : H
a= azZP
3 2 1 1 2 3
0.1
0.2
0.3
0.4
Regione di rigetto
Regione di non rigetto
za=1.95
a/=0.025a/=0.025
Regione di rigetto
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media - Varianza ignota
• Nel caso in cui non fosse nota la varianza s2 non è possibile sfruttare la statistica per determinare i valori critici dei test statistici
• È possibile ricorrere alla stima S2 della varianza campionaria
• Se l’ipotesi nulla fosse vera, allora la variabile aleatoria
• Sarebbe una distribuzione t di student ad (n-1) gdl.
nS
Yt
2
0m-=
s
m-= 0Y
nz
=-
-=
n
i i yyn
S1
22
1
1
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 43
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media – Varianza ignota
• Ricetta
• Fissare un livello di significatività del test (es: a= 5%)
• Calcolare il valore ta per cui:
• dove t è la distribuzione di student ad r=n-1 gradi di libertà.
• Calcolare S2:
• Calcolare
– t0 < ta: rigettare H0
– t0 > ta: non rigettare H0.
=-
-=
n
i i yyn
S1
22
1
1
a= attP
2
00
S
ynt
m-=
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media – Varianza ignota – Esercizio
• Ritorniamo al campione in esame
• Si fissa un livello di significatività a=0.05 per il test
• Dalle tabelle si determina il valore ta:
• Si calcola il valore stimato per la varianza:
• Da cui è possibile calcolare la statistica t0:
Metodi statistici per l'analisi dei dati14-18 settembre 2015
833.105.0 19, -== aa tttP
983.01
11
22 =--
= =
n
i i yyn
S
589.22
00 -=
m-=
S
ynt
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 44
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media – Varianza ignota – Esercizio
• Quindi
• Si rigetta l’ipotesi nulla.
• Alternativamente, è possibile calcolare il p-value
• Da notare come il p-value sia più elevato rispetto a quello stimato nel caso della varianza nota
– La mancanza di informazioni sul processo si riflette in delle conclusioni più incerte.
Metodi statistici per l'analisi dei dati14-18 settembre 2015
0146.059.20 =-= ttP r
19,0 a tt
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media – Altre ipotesi alternative
• Nel caso di ipotesi alternativa
• Si deve determinare il valore critico ta tale che tutti i valori superiori ad esso abbiano una
probabilità di verificarsi pari a a
• Dobbiamo escludere i valori per cui la t di student assuma valori tali che
01 : mmH
gdlrttP r 9=a= a
3 2 1 1 2 3
0.1
0.2
0.3
0.4
Regione di rigettoRegione di non rigetto
ta=+1.833
a=0.05
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 45
Richiami di statistica –Esperimenti
replicati
Test delle ipotesi sulla media – Altre ipotesi alternative
• Nel caso di ipotesi alternativa «two sided»
• Si deve determinare il valore critico za per cui
01 : mmH
gdlrttP r 9=a= a
a= a,rtTP3 2 1 1 2 3
0.1
0.2
0.3
0.4
Regione di rigetto
Regione di non rigetto
ta=2.26
a/=0.025a/=0.025
Regione di rigetto
Richiami di statistica –Esperimenti
replicati
Intervalli di fiducia - Introduzione
• Nell’esaminare un campione di dati sperimentali, si può essere interessati ad un’informazione più qualitativa di una semplice stima puntuale di parametri.
• Ad esempio, si può essere interessati a determinare un intervallo di valori in cui è molto probabile cada il valore vero del parametro.
• Tale tipo di inferenza prende il nome di inferenza di intervallo e il risultato della procedura è un intervallo di fiducia (anche denominato intervallo di confidenza)
• Per esempio, si può essere interessati ad un intervallo di
fiducia per la media m della viscosità.
Metodi statistici per l'analisi dei dati
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 46
Richiami di statistica –Esperimenti
replicati
Intervalli di fiduciaProcedura
• Si suppone che sia il parametro incognito da stimare
• Si sceglie una probabilità vicina a 1 (in genere =0.95). Tale probabilità prende il nome di livello di fiducia.
• In seguito si determinano due quantità L e U tali che
• L’intervallo di estremi L e U prende il nome di intervallo di fiducia e si indica con il simbolo:
ULCONF
= ULP
Richiami di statistica –Esperimenti
replicati
Intervalli di fiducia della Media – Caso varianza non nota.
Determinazione intervallo di fiducia:
1. Scegliere un livello di fiducia =1-a
2. Ricavare (per esempio da tabelle) il valore ta/ tale che:
essendo Tr la T di student a r=n-1 gdl
3. Calcolare media e varianza del campione dei dati sperimentali.
3. L’intervallo di fiducia per la media sarà:
a-==- aa 122 tTtP r
m- aan
Sty
n
StyCONF
2
2/
2
2/
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 47
Richiami di statistica –Esperimenti
replicati
Intervalli di fiducia della Medianel caso di varianza non nota.
• La variabile aleatoria:
• È una variabile normale di tipo standard
• Si può ulteriormente dimostrare che la variabile aleatoria:
• È una variabile aleatoria 2 a n-1 gradi di libertà
212
22
12
11
-=
s
-=-s
= n
n
ii
SnYYW
s
m-=
YnZ
Richiami di statistica –Esperimenti
replicati
Intervalli di fiducia della Medianel caso di varianza non nota.
• In conclusione la variabile aleatoria:
• È una variabile aleatoria di tipo t di student ad n-1 gradi di libertà
n
S
Y
n
YY
Y
nnW
ZT
i
2
2
2
1
1/
m-=
-s
-
s
m-
=-
=
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 48
Richiami di statistica –Esperimenti
replicati
Intervalli di fiducia della Medianel caso di varianza non nota.
• Dalla definizione di probabilità è possibile ricavare la relazione:
• da cui con qualche passaggio è possibile ricavare l’intervallo di fiducia desiderato:
Metodi statistici per l'analisi dei dati14-18 settembre 2015
=
m-
-=- aaaa 2/
1
22/2/2/ t
n
S
ytPtTtP r
=
m- aa
nSty
nStyP
112/2/
m- aan
Styn
StyCONF11
2/2/
L U
Richiami di statistica –Esperimenti
replicati
Intervalli di fiducia della Media – Esercizio
Determinazione intervallo di fiducia:
1. Si sceglie un livello di fiducia =95%
2. Ricavare il valore ta/ tale che:
essendo Tr la T di student a r=9 gdl
3. Calcolare media e varianza del campione dei dati sperimentali.
3. L’intervallo di fiducia per la media sarà:
Metodi statistici per l'analisi dei dati14-18 settembre 2015
262.2%95 2/22 ==- aaa ttTtP r
4.7298.7010
9834.0262.269.71
10
9834.0262.269.71 m=
m-CONF
9834.0,69.71 2 == Sy
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 49
Richiami di statistica –Esperimenti
replicati
Intervalli di fiducia della Media – Esercizio
• Da notare che nell’intervallo di fiducia calcolato non ricade il valore 72.5, confermando che tale valore è molto improbabile per la media della popolazione.
• In generale, si deve ricordare che, per le proprietà di simmetria della t di student:
• Il valore di ta/2 può essere calcolato anche dalla relazione:
Metodi statistici per l'analisi dei dati14-18 settembre 2015
22 aa =- tTPtTP rr
= a 12
12tTP r
Richiami di statistica –Esperimenti
replicati
Diagramma in scala probabilistica
• Da notare che il modello statistico preso in considerazione parte dall’assunzione che i dati sperimentali seguano una distribuzione di tipo Gaussiano.
• Tale assunzione può essere verificata costruendo un diagramma in scala probabilistica.
• La procedura è abbastanza semplice e consiste in un’analisi di tipo grafico.
• Per costruire il diagramma si deve:
– ordinare i dati dal più piccolo al più grande
– le osservazioni così ordinate sono rappresentate rispetto la loro frequenza cumulativa osservata
– la scala in ordinata non è lineare ma è tale che, se i dati rispettassero una dispersione di tipo Gaussiano, essi si disporrebbero approssimativamente lungo una retta
Metodi statistici per l'analisi dei dati14-18 settembre 2015
Metodi Statistici per l’Analisi dei Dati –Richiami di statistica 50
Richiami di statistica –Esperimenti
replicati
Diagramma in scala probabilistica
• Esempio dati crema
Metodi statistici per l'analisi dei dati16-20 settembre 2013
70 70.5 71 71.5 72 72.5 73
0.05
0.10
0.25
0.50
0.75
0.90
0.95
Viscosità [cp]
Pro
bab
ility
Normal Probability Plot
• In linea di principio, è possibile implementare il metodo a mano, ma risulta molto pesante.
• La maggior parte dei software di uso comune supportano la rappresentazione su carta probabilistica.
Richiami di statistica –Esperimenti
replicati
Conclusioni – Concetti importanti
• Esperimento come esito di una variabile aleatoria
– VA di tipo Gaussiano
• Campagna sperimentale esito di una variabile aleatoria
– VA di tipo student (o, in casi fortunati, di tipo Gaussiano)
• Con gli strumenti della statistica è possibile inferire conclusioni rigorose sul processo.
• Sono stati introdotti i concetti (verranno ampiamente ripresi nel seguito):
– Test statistici
– Intervalli di fiducia
• Diagrammi in scala probabilistica
Metodi statistici per l'analisi dei dati16-20 settembre 2013
Top Related