Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... ·...

25

Transcript of Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... ·...

Page 1: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Basi per Statistica Inferenziale in Matlab

Laboratorio di Programmazione IICorso di Laurea in Bioinformatica

Dipartimento di Informatica - Università di Verona

Page 2: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Sommario

Introduzione

Stime puntuali ed intervalli

Page 3: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Introduzione

Page 4: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Statistica Inferenziale

Motivazioni

Fare inferenze circa un insieme di elemnti a partire da uninsieme di osservazioni

Es: inferire il risultato di un referendum dagli exit poll

inferenza → asserzioni motivate (risultato referendum)

insieme di elementi → popolazione (tutti i votanti)

insieme di osservazioni → campione (persone intervistate)

Page 5: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Statistica inferenziale ed analisi dei dati

Analisi dei dati

Dati → campione

Es: tempi di esecuzione di due algoritmi su un certonumero n di istanze di problema

inferenza → decidere quale dei due algoritmi e' piu' veloce

insieme di elemetni → tutte le possibili istanze

insieme di osservazioni → tempo di esecuzione sulle istanzen

Page 6: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Statistica inferenziale ed analisi dei dati

Example (Confronto Algoritmi)

Page 7: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Stima Puntuale ed intervalli di con�denza

Page 8: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Stima Puntuale

Stimare parametri di distribuzioni parzialmente note

Dato un campione x1, · · · , xn di valori

Voglio stimare i parametri di una distribuzione che assumosia la distribuzione della mia popolazione

Es: assumo la distribuzione Gaussiana con media evarianza non note

Voglio stimare la media e la varianza della mia distribuzione

Page 9: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Stima Puntuale: terminologia

terminologia e concetti base

Data una serie di variabili aleatorie X1, · · · ,Xn con unmodello probabilistico pX (x , θ)

Statistica: T = f (X1, · · · ,Xn)

Stimatore: θ̂ = f (X1, · · · ,Xn)

Stimatore Corretto (o non distorto): ET = θ

Page 10: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Stimatori corretti

Stimatori corretti per media e varianza

assumo pX (x , θ) = N(µ, σ)

se x1, · · · , xn sono i campioni (valori numerici)

Allora si puo dimostrare che

x̄n = 1/n∑

n

i=1xi e' uno stimatore corretto di µ

s2

n= 1/(n − 1)

∑n

i=1(xi − x̄n)2 e' uno stimatore corretto di

σ2

Page 11: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Stima puntuale in matlab

Stimare media e varianza in matlab

X = vettore di dati

mean(X) = stimatore della media

var(X) = stimatore corretto della varianza

Page 12: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Campionamento dati

Campionamento da distibuzioni note

rand(M,1) estrae M campioni dalla distribuzione uniformetra (0,1)

normrnd(MU,SIGMA,M,1) estrae M campioni dalladistribuzione normale con media MU e varianza SIGMA

Page 13: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Esempio stima puntuale

Example (Stima media e varianza di campioni)

X = vettore di dati

� X = normrnd(0,1,N,1)

mean(X) = stimatore della media

var(X) = stimatore corretto della varianza

Page 14: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Visualizzazione dati: plot

Cenni di gra�ca 2-D

plot(x,y) gra�co 2D di y rispetto ad x

help plot per vedere tutte le possibili opzioni

Example (gra�co di una distribuzione normale con media MU evarianza SIGMA)

Es: x = [-10:0.01:10]

y = normpdf(x,MU,SIGMA)

plot(x,y)

Page 15: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Visualizzazione dati: hist

Cenni di gra�ca 2-D: istogrammi

hist(x,y) istogramma dei valori in x divisi in y contenitori

help hist per vedere tutte le possibili opzioni

Example (gra�co di una distribuzione normale con media MU evarianza SIGMA)

Es: x = [-10:0.01:10]

y = normpdf(x,MU,SIGMA)

plot(x,y)

Page 16: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Intervalli di con�denza

Motivazione

La stima puntuale non ci dice il valore vero del parametro

Vogliamo che la stima ci dia un valore ragionevolmentevicino a quello vero

Intervallo di con�denza: valore percentuale di con�denzache il parametro appartenga all'intervallo stimato

Page 17: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Intervalli di con�denza: terminologia

terminologia e formule

intervallo di con�denza: Pθ(T1 < h(θ) < T2)

T1 = t1(X1, · · · ,Xn) T2 = t2(X1, · · · ,Xn)

h(θ) appartiente a (t1(x1, · · · , xn), t2(x1, · · · , xn)) con unacon�denza di livello 100α%

con�denza non probabilita' perche' valutiamo a valle delcampionamento

Page 18: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Intervallo di con�denza per la media

Popolazione normale con varianza nota

Ipotesi X1, · · · ,Xn ∼ N(µ, σ)

Obiettivo Pµ(|X̄n−µ|σ/√n< z(1+α)/2

)= α

zβ quantile β della normale standard (N(0, 1))P(X ≤ zβ) = β

Quantili sono de�niti da tabelle note

Soluzione µ̂ = X̄n ± z(1+α)/2σ√n

Page 19: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Intervallo di con�denza per la media

Popolazione normale con varianza non nota

Ipotesi X1, · · · ,Xn ∼ N(µ, σ)

Obiettivo Pµ,σ(|X̄n−µ|√S2n/n< t(1+α)/2(n − 1)

)= α

tβ(m) quantile β ad m gradi di liberta' della distribuzione tdi Student

Soluzione µ̂ = X̄n ± t(1+α)/2(n − 1)

√S2n

n

Page 20: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Stima per grandi campioni

Popolazione qualsiasi ma tanti campioni

Per grandi campioni (n>=30) possiamo assumere che lapopolazione abbia approssimativamente una distribuzione tdi student

Quindi per n grande (>=30) usiamo sempre

µ̂ = X̄n ± t(1+α)/2(n − 1)

√S2n

n

Se n e' molto grande (n>=120) allora possiamo assumereche t(1+α)/2(n − 1) ' z(1+α)/2

Quindi usiamo µ̂ = X̄n ± z(1+α)/2σ√n

Page 21: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Sommario

Calcolare intervalli di con�denza

Dati i campioni

Calcolare media mean()

Calcolare varianza var()

Calcolare formula opportuna (utilizzando z o t)

Per calcolare z o t caricare il �le corrispondente:tvaluedSample95 oppure zvaluedSample95

Page 22: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Calcolo di t e z

Come calcolare i quantili

Leggiamo i quantili da �le

Per i quantili z vedere il �le zvaluesSampled.dat

Per i quantili t vedere il �le tvaluesSampled95.dat

Attenzione: il quantile t dipende da n ma non abbiamotutti gli n nel �le

se n > 120 usare 1.6449 se n1 < n < n2 interpolare trat(n1) ed t(n2)

per interpolare utilizzare interp1(...)

Page 23: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Visualizzazione dati: errorbar

Cenni di gra�ca 2-D

molto simile a plot

errorbar(x,y,u,l) gra�co 2D di y, y+u ed y-l rispetto ad x,

help errorbar per vedere tutte le possibili opzioni

Page 24: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Esercizi

Esercizi intervalli di con�denza

Implementare zcon�nt (utilizzare zvaluesSampled.dat)

campionare gaussiana, calcolare media ed intervallo dicon�denza (utilizzare zcon�nt)gra�care media ed intervallo di con�denza al variare delnumero di campioni (utilizzare plotConfInt)

Implementare tcon�nt95 (utilizzare tvaluesSampled95.dat)

campionare gaussiana, calcolare media ed intervallo dicon�denza (utilizzare tcon�nt95)gra�care media ed intervallo di con�denza al variare delnumero di campioni (utilizzare tplotConfInt)

Page 25: Basi per Statistica Inferenziale in Matlabprofs.sci.univr.it/~farinelli/courses/algBio/slides... · 2012-01-19 · Statistica Inferenziale in Matlab Introduzione Stima Puntuale ed

Basi perStatisticaInferenzialein Matlab

Introduzione

StimaPuntuale edintervalli dicon�denza

Intervalli dicon�denza

Esercizi II

Esercizi intervalli di con�denza

Calcolare media ed intervallo di con�denza per dati inmotifSearch.dat (usare tcon�nt95)

Gra�care l'andamento dei due algoritmi utilizzando errorbar