Recap on Measure Theory and Statistical Inference Carola Aiello [email protected].

Recap on Measure Theoryand

Statistical Inference

Carola [email protected]

Strumenti di statistica inferenziale

• Richiami di teoria della misura

• Strumenti di Statistica Inferenziale

INDICE


• “Non puoi controllare ciò che non puoi misurare” [T. De Marco, 1982]

• Le misure si effettuano ad esempio per:• verificare l'aderenza di alcuni parametri di qualità a dei valori di riferimento

(esterni/interni)

• rilevare delle deviazioni relative alla pianificazione temporale/ allocazione di risorse

• raccogliere vari indici di produttività

• validare l'effetto di strategie tese a migliorare un processo produttivo (qualità/ produttività / aderenza alla pianificazione / controllo dei costi)

• Nel processo di misura la fase progettuale assume la stessa importanza della fase di raccolta e di analisi dei dati vera e propria

• Durante la fase progettuale devono essere chiariti i seguenti aspetti

Definizione requisiti Selezione della metrica Definizione dei criteri di valutazione

...e solo in seguito

MISURA

Richiami di teoria della misura

Processo di misura

ISO/IEC 9126 Qualità del SW

Misura e analisi dei dati


Definizione dei criteri di valutazione

Rating (definizione dei livelli di riferimento)

A carico dell’organizzazione

Le metriche forniscono valori quantitativi che non sono di per sé una valutazione della qualità, dobbiamo mappare i dati quantitativi su una scala qualitativa


• Le misure, a loro volta, posseggono delle qualità che, in alcuni casi, è possibile quantificare in modo formale.

− Affidabilità (reliability). L'affidabilità è relativa ai valori che si ottengono effettuando più volte la stessa misura. Se i valori ottenuti sono vicini tra loro la metrica è affidabile. Tipicamente si caratterizza questa qualità analizzando la varianza s2 di misure ripetute. Più piccolo è questo valore più la metrica è affidabile.

− Validità (validity). La validità indica se la metrica misura effettivamente cosa vogliamo misurare. Per misure poco astratte (peso, volume) la validità coincide con l'accuratezza. Si noti che anche per misure poco astratte i concetti di affidabilità e validità sono differenti: un orologio fermo è perfettamente affidabile ma ha una validità molto ridotta...

Qualità di una misura

Affidabile ma

non valida Valida ma

non affidabile

Affidabilee

Valida


Errori di misura (1)

• Il risultato di un’operazione di misura è un numero reale x che esprime il valore vero (incognito) del fenomeno in esame ed è detto misura analitica

• La successione delle operazioni effettuate per ottenere la misura, secondo un complesso di istruzioni che costituiscono il metodo analitico, è detta procedimento analitico.

• L’esperienza indica che, se si eseguono più misurazioni di una stessa quantità, raramente le misure coincidono

I valori misurati (x) sono in genere diversi dal vero valore ()

• La differenza tra il valore misurato e quello vero è detta errore totale (ET)

X = + ET

misuravalore vero

errore totale

Θ Xprocedimento

analitico

valore vero misura


La Variabile Casuale Normale

• E’ la distribuzione statistica più famosa ed utilizzata: • si adatta bene alla rappresentazione grafica di moltissimi fenomeni reali;• è fondamentale in inferenza statistica perché approssima molte altre distribuzioni

di probabilità;

• Anche detta: variabile casuale Gaussiana, curva di Gauss, Campana di Gauss, curva degli errori, curva a campana, ogiva.

• “curva degli errori” perché che questa curva serve a rappresentare la legge con cui si distribuiscono gli errori di natura accidentale.

• La formula matematica che descrive la funzione della densità di probabilità normale è la seguente:

dove µ e σ rappresentano la popolazione media e lo scarto quadratico medio (o deviazione standard).

• L'equazione della funzione di densità è costruita in modo tale che l'area sottesa alla curva rappresenti la probabilità. Perciò, l'area totale è uguale a 1.

2

2

1

2

1)(

X

eXf

Distribuzione normale2

2

1

2

1)(

X

eXf


Errori di misura (2)

• La misurazione non consente di determinare con certezza il vero valore della quantità misurata, ma produce stime la cui capacità di approssimare il vero valore (attendibilità) dipende dal metodo analitico e da come è stato eseguito il procedimento analitico.

È necessario considerare la natura degli errori di misura

ET = Egrossolani + Esistematici + Ecasuali

Si prevengono con un’accorta organizzazione

dell’analisi

Costituiscono oggetto tipico della metodologia statistica

Esistematici

Ecasuali

Influenzano la validità

Influenzano l’affidabilità


Ma qual è il legame tra statistica e misura?


Per validare le ipotesi è necessario introdurre l'unità di analisi (componente o progetto), effettuare analisi statistiche (e.g., analisi della varianza), validare gli indicatori scelti, ovvero effettuare ed interpretare delle misure

ESEMPIO:Se presso una software house ottenessimo i seguenti dati tramite 9 esperimenti (3 al 50%, 3 al 70%, 3 al 90%) :

Copertura linee di codice Media errori trovati durante il test di sistema

50% 20/KLOC

70% 15/KLOC

90% 12/KLOC

Senza una corretta analisi dei dati quale l'analisi della varianza (ANOVA) non potremmo essere sicuri della significatività statistica di quanto ottenuto

Ad esempio se 20 è la media di {19, 20, 21}, 15 di {15, 15, 15}, e 12 di {11, 12, 13} ci sentiremmo abbastanza sicuri

Se invece 20 è la media di {10, 10, 40}, 15 di {1, 4, 40} e 12 di {3, 3, 30}...

Esempio


• Fornisce informazioni sintetiche sulla popolazione osservata nell’ipotesi di disporre di misurazioni che ne riguardano la totalità

• Data una popolazione di N elementi (noti) su cui si effettua una misura (e.g., il peso delle persone in italia) {x1,...,xN}, si definiscono i seguenti parametri:

− media m= (x1+ x2+... +xN)/N

− varianza var=[(x1-m)2+ (x2-m)2 +...(xN-m)2]/N

− spesso la varianza si indica con s2

− deviazione standard s=var1/2

− tipicamente gli N elementi si distribuiscono secondo una distribuzione normale (o gaussiana)

Richiami di statistica descrittiva


• Costi (economici e di tempo)• Popolazione non nota

Limiti della statistica descrittiva


• Si analizza una popolazione di M elementi (M non è noto) tramite un campione di N elementi {x1,...,xN} e si definiscono i seguenti parametri:

− media m= (x1+ x2+... +xN)/N

− varianza var=[(x1-m)2+ (x2-m)2 +...(xN-m)2]/(N-1)

− deviazione standard σ=var1/2

− spesso la varianza si indica con σ2

− tipicamente gli elementi del campione si distribuiscono secondo una distribuzione normale (o gaussiana)

− o, se così non è, si assume che lo sia…

• L'inferenza statistica è il procedimento per cui si deducono le caratteristiche di una popolazione dall'osservazione di una parte di essa, detta campione

Richiami di statistica inferenziale


Esempio (1)

• Assumiamo, per semplicità espositiva, che in una software house si conducano attività di test per tre differenti percentuali prefissate: 50 %, 70%, 90% e che, per ciascuna di esse, siano stati osservati per un anno 5 pacchetti software.

• Calcoliamo la media di DR ed otteniamo la seguente tabella

Codice ispezionato Difetti Riscontrati (KT) (e/KLOC)

− 50% 20− 70% 15− 90% 12

• Il problema è: le medie sono differenti, ma questo accade perchè effettivamente esiste una relazione tra KT e DR, oppure i dati vengono così, "per caso"?


Esempio (2)

KT DR− 50% 20− 70% 15− 90% 12

• L’osservazione acritica di questi dati porterebbe a concludere che l’aumento del KT implichi la diminuzione del DR

• D’altra parte è possibile che le medie della popolazione complessiva (tutti i programmi sw del mondo) siano uguali, ossia che calcolando l'andamento di DR su un numero molto più alto di casi si scopra che KT non abbia nessuna influenza su DR


Test statistici

• Molto spesso nell’ambito della ricerca sperimentale è necessario confrontare tra loro serie di misure ripetute (es. confronto di risultati di due o più metodi)

• Il confronto può essere condotto mediante appropriati test statistici (F di Fisher, t-Student, etc.)

• I test statistici consistono nel mettere alla prova l’ipotesi formulata su certi parametri delle popolazioni (es. medie o varianze) e nel verificare se con i dati a disposizione è possibile rifiutarla o no: se il campione fornisce risultati fortemente in contrasto con l’ipotesi formulata, questa viene rifiutata in favore dell’ipotesi alternativa

• Il test viene condotto fissando a priori la probabilità di errore che può essere commesso (α)


Ipotesi statistica

• Un’ipotesi statistica è una asserzione o supposizione sulla distribuzione di una o più variabili casuali e si indica con la lettera H

• Generalmente si mettono a confronto due ipotesi, contrarie tra loro:

• Ipotesi H0 (IPOTESI NULLA). Costituisce l’oggetto della verifica: specifica i valori dei parametri della popolazione da cui si suppone provenga il campione in esame

H0: = 0

• Dove indica il parametro della popolazione e 0 il parametro che ci si attende.

• Ipotesi H1 (IPOTESI ALTERNATIVA). È l’ipotesi contraria alla precedente

H1: ≠ 0


Test di verifica delle ipotesi

• Definizione: Un test di ipotesi è una regola attraverso la quale si decide se accettare o meno l'ipotesi formulata sulla base delle risultanze campionarie.

• Se si indica con C l'universo dei campioni o spazio dei campioni, cioè l'insieme di tutti i possibili risultati campionari, un test delle ipotesi consiste nel bipartire l'insieme C in due sottoinsiemi disgiunti C0 e C1 = C – C0 in modo tale che si decida di rifiutare l'ipotesi H0 se il punto campionario cade in C1, di accettare l'ipotesi se il punto campionario cade in C0.

• Lo spazio C1 di rifiuto di un'ipotesi viene usualmente detto regione critica, mentre si dice regione di accettazione lo spazio C0.

• Il test migliore minimizza la probabilità di commettere un errore di seconda specie β.


Test di ipotesi

REALTA’

Ho VERA Ho FALSA

DECISIONE

Accetto HoDecisione giusta(1-α, Protezione)

Errore di Tipo II(β)

Rifiuto HoErrore di Tipo I

(α, significatività)Decisione giusta

(1-β, Potenza)


Scelta dell’ipotesi nulla

• La progettazione delle ipotesi è fondamentale nel processo di test

• Per come è costruito il test, l’errore di I tipo è quello considerato più grave


Significatività e potenza del test

• La probabilità di commettere un errore di I tipo, e cioè la probabilità di rifiutare una ipotesi quando essa è vera, è indicata usualmente con α.

• dove α viene detto livello di significatività del test e X rappresenta il punto campionario.

• La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare un'ipotesi quando essa è falsa, è indicata con β ( Η1 )

• L’unico aspetto su cui possiamo intervenire è sul “confine” fra regione di accettazione e regione di Rifiuto Co


Costruzione del test

• Errore di Tipo I (α)

− rappresenta la probabilità di fare un errore decidendo di rifiutare Ho cioè di affermare che vi è una differenza quando in realtà non esiste tale differenza. Viene generalmente posta ad un valore basso (α).

• Errore di Tipo II (Errore β)

− Rappresenta la probabilità di commettere un errore assumendo Ho vera anche quando in realtà è falsa. E’ la capacità del test di individuare l’ipotesi alternativa quando è vera. Dipende da α (α = 1- β).

• Così posto il problema la migliore soluzione è rappresentata da un test che minimizzi simultaneamente le probabilità di commettere gli errori di I e di II tipo. Purtroppo, non è generalmente possibile perseguire un tale obbiettivo. La procedura che si segue generalmente è quella di fissare la misura della probabilità di commettere un errore di primo tipo (si stabilisce cioè il livello di significatività α) e nell'individuare poi il test che minimizza la probabilità di commettere un errore di II tipo.

• In sintesi: fissato il livello di significatività α (arbitrariamente), si cerca il test più potente (test MP dall’inglese Most Powerful), cioè, quello che minimizza β

• Se il test statistico dimostra che la probabilità α favore di Ho è inferiore ad α, si può affermare che fra le due misure esiste una differenza statisticamente significativa.


ANalysisOfVAriance

• L’analisi della varianza (ANOVA) è un insieme di tecniche statistiche facenti parte della statistica inferenziale utilizzato per la verifica d’ipotesi

• e’ nato nell’ambito della ricerca sperimentale per valutare l’effetto di determinati fattori, variabili indipendenti - di tipo continuo o categoriale , sulla variabile dipendente - di tipo continuo.

• assume nomi diversi a seconda di quante sono le variabili dipendenti e indipendenti:

− anova ad una via (one-way) quando si ha una sola variabile dipendente e una sola variabile indipendente.

− anova fattoriale quando si ha una sola variabile dipendente, ma piu’ variabili indipendenti.

− manova (multivariate analysis of variance) quando c’e’ + di una dipendente e + di una indipendente.

• Permette di confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità tra gruppi

• L’ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovute solo al caso

• Il confronto si basa sull’idea che se la variabilità interna ai gruppi è relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra questi gruppi è soltanto il risultato della variabilità interna.

• Il più noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite come la variabile casuale F di Snedecor

• Requisiti:

• Osservazioni di ogni trattamento devono essere distribuite normalmente

• Varianza costante


ANalysisOfVAriance

• Il metodo utilizza il rapporto tra varianze ma lo scopo dell’analisi riguarda la verifica dell’ipotesi nulla tra medie.

• Consiste nella scomposizione della varianza totale dell’esperimento in varianze parziali (corrispondenti a diverse e ben determinate fonti di variazione).

• La fonte delle variazioni dei dati viene chiamata fattore sperimentale (o trattamento) e può essere:

• a più livelli quantitativi (e.g. dosi crescenti dello stesso farmaco)

• a diverse modalità qualitative (e.g. somministrazione di farmaci differenti)

• Ogni unità od osservazione del gruppo sperimentale viene detta replicazione (o replica)

• Nell’ANOVA le ipotesi sono:

H0: μ1 = μ2 =…μK

H1: almeno 2 delle medie sono differenti


Come funziona

• Per confrontare i risultati dei diversi esperimenti (es. per controllare l’effetto dei diversi livelli di controllo del sw, ossia per testare la differenza tra le medie dei gruppi sottoposti ai diversi livelli di controllo), separiamo la variabilità complessiva della variabile dipendente in due fonti di variabilità:

• Varianza Between (VarB): attribuibile alla varianza tra gruppi

• Varianza Within (VarW): residua all’interno dei gruppi, varianza entro i gruppi

Dal confronto delle due varianze possiamo decidere se le differenze osservate nei diversi esperimenti sono significative, ossia se rappresentano effettivamente due popolazioni differenti (es. i controlli diversi hanno avuto effetto oppure no) oppure sono una manifestazione casuale

NB: lavoriamo sulla scomposizione della varianza , ma stiamo facendo inferenza sulle medie


Come funziona

• L’ANOVA, si applica nel caso si vogliano confrontare gli effetti medi di una variabile su I campioni distinti: {C1,…,CI }.

• Ciascun campione è assunto avere lo stesso numero J di soggetti (ma non è obbligatorio)

Yij è la j-esima osservazione sull’ i-esimo campione

Dove:

II

ii /)(

1

JYJ

jiji /)(

1

− Media del campione i :

− media generale:


Come funziona

IDENTITA’ PRINCIPALE DELL’ANOVA (somma dei quadrati)

SS totale = SSW + SSB

Ovvero:

Dove:

J

j

I

iiiij

I

i

J

jij

I

i

YYJYYYY1 1

2...

2.

11

2..

1

)()()(

IJYYI

iij

J

j

/)(1

..

J

jiij

I

iW YYSS

1

2.

1

)(

I

iiB YYJSS

1

2... )(

J

jij

I

iT YYSS

1

2..

1

)(

JYYJ

jijii /)(

1.


Test di Fisher

• Dalla teoria dei valori attesi si ricava:

~

• È stato dimostrato che questo test ha una distribuzione

campionaria F di Snedecor con (I-1) e (I(J-1)) gradi di libertà (F(I-

1),(I(J-1)) )• noti tali gradi di libertà (numeratore e denominatore) è possibile

valutare la probabilità associata ai valori di F

• per un valore prefissato, solitamente =0.05, questo test ci dice

quando l’ipotesi nulla è accettata ( F<F(I-1),(I(J-1)) ) e quando viene

rifiutata ( F> F(I-1),(I(J-1)) )

• Se il valore di F calcolato supera quello tabulato, alla probabilità prefissata, si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: almeno una media è diversa dalle altre

)]1(/[

)1/(

JISS

ISSF

W

B))1((,1 JIIF


Test di Fisher

• Criterio decisionale:

)1(,1

)1(,1

0JII

JII

FFserifiuto

FFseaccettoH


Esempio

Zona di Rifiuto

Zona di Accettazione


Esempio

• Supponiamo di aver sviluppato due prototipi sw e di volerli testare su un campione di possibili utenti

• Intervistiamo 7 utenti che hanno utilizzato il prototipo P1 e 7 utenti che hanno usato il prototipo P2

• Analizziamo in quest’esempio le risposte alla domanda che indaga la soddisfazione del cliente in merito alla funzione ‘help’ implementata

• le risposte ammissibili sono valori da 1 a 6 dove 1 indica un basso grado di soddisfazione e sei un alto grado di soddisfazione

• Nella tabella che segue sono riportate le risposte ottenute con le due indagini


Esempio

Prototipo

P1 P2

Questionario

Q1 1 5

Q2 6 3

Q3 1 1

Q4 1 6

Q5 6 2

Q6 6 4

Q7 2 1


Esempio

28,37/)2661161(.1 Y

14,37/)2426135(.2 Y

21,314/)24261352661161(.. Y

2222222 )28,32()28,36()28,36()28,31()28,31()28,36()28,31(WSS

0714,0])21,314,3()21,328,3[(7 22 BSS

29,62)14,31()14,34()14,32()14,36()14,31()14,33()14,35( 2222222

01376,0)]17(2/[29,62

)12/(0714,0

F 75,412,1 F<<Accetto Ho

)]1(/[

)1/(

JISS

ISSF

W

B


Esempio con excel

Analisi varianza: ad un fattore

RIEPILOGO

Gruppi Conteggio Somma Media Varianza

Colonna 1 7 23 3,285714 6,571429

Colonna 2 7 22 3,142857 3,809524

ANALISI VARIANZA

Origine della variazione SQ gdl MQ F Valore di significatività F crit

Tra gruppi 0,071429 1 0,071429 0,013761 0,908555546 4,747225

In gruppi 62,28571 12 5,190476

Totale 62,35714 13

Zona di Rifiuto

Zona di Accettazione

Recap on Measure Theory and Statistical Inference Carola Aiello [email protected].

Documents

Transcript of Recap on Measure Theory and Statistical Inference Carola Aiello [email protected].