Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è...

52
Scale di misura delle variabili • Qualitative: nominali o ordinali – l’unico parametro valutabile è la proporzione • Quantitative: intervalli o rapporti – possono essere eseguiti dei calcoli, i parametri valutabili sono molti (statistiche descrittive numeriche: misure di posizione e di dispersione) – possono essere discrete o continue.

Transcript of Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è...

Page 1: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Scale di misura delle variabili

• Qualitative: nominali o ordinali– l’unico parametro valutabile è la

proporzione

• Quantitative: intervalli o rapporti – possono essere eseguiti dei calcoli, i

parametri valutabili sono molti (statistiche descrittive numeriche: misure di posizione e di dispersione)

– possono essere discrete o continue.

Page 2: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Richiami di statistica descrittiva

•Dati univariati

•Dati bivariati

•Dati multivariati

Descrivere e sintetizzare i dati osservati attraverso grafici (es. distribuzioni di frequenza), indici di

posizione e dispersione

Page 3: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Indici di posizione

Indicano la tendenza centrale di un insieme di dati

n

iixn

x1

1Media aritmetica

Proprietà della media aritmetica:

n

ii xx

1

0 0)(..)()(1

21

xnxxxxxxxn

iin

la sommatoria degli scarti di ogni dato dalla media (momento di 1° ordine) è nulla.

n

ii xx

1

2min

la sommatoria del quadrato degli scarti (momento di 2° ordine) è minima

(ovvero non esiste alcun altro punto che sostituito alla media dia un valore inferiore

Page 4: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Indici di posizione

i

n

iii

f

xfx 1

Se i dati sono espressi come frequenze:

Se i dati sono espressi come proporzioni:

n

iiixpx

1

media aritmetica

media aritmetica ponderata

Page 5: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Moda: è il valore della classe a cui corrisponde la maggiore frequenza.

Media armonica: è il reciproco della media dei reciproci, idonea a mediare rapporti tra 2 variabili.

Media geometrica: è la radice ennesima del prodotto di n dati. Idonea per mediare tassi.

Indici di posizione Mediana: divide la serie ordinata in due parti di uguale numerosità

Page 6: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Indici di tendenza centrale resistenti

Trimmed mean: media aritmetica nella quale non vengono considerate le code della distribuzione (es. il 5% dei dati)

M-estimators (Maximum likelihood estimators): media aritmetica pesata con peso funzione della distanza dal valore centrale. Si differenziano per la funzione di assegnazione dei pesi.

Page 7: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Quantili: misure di posizione non centrale. Sono valori che dividono

la serie ordinata in un certo numero di parti di uguale numerosità.

Percentili: dividono la serie ordinata in 100 parti uguali. Il p-esimo

percentile di una distribuzione è quel valore con p% dei valori inferiori

ad esso. In statistica inferenziale sono interessanti il 1, 2.5, 5, 95,

97.5 e 99 esimo percentile

Quartili dividono la serie ordinata in 4 parti uguali. Sono il 25 esimo, il

50 esimo (è la mediana) e il 75 esimo percentile

L’intervallo tra il 25 esimo e il 75 esimo percentile si chiama distanza

interquartile.

Decili: dividono la serie ordinata in 10 parti uguali. Sono il 10, 20 30

…80, 90 percentile.

Indici di dispersione

Page 8: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Indici di dispersione

Campo di variazione (Range): Xmax - Xmin

Devianza (Sum of Squares)

n

ii xxSS

1

2

Varianza (o Quadrato Medio o Mean Square)

n

xn

ii

1

2

2

1

1

2

2

n

xxs

n

ii

i

n

iii

f

xf1

2

2

Se i dati sono in frequenze:

Scarti dalla media

n

iii xp

1

22 Se i dati sono in proporzioni:

Page 9: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Deviazione standard (standard deviation)

1

1

2

n

xxs

n

ii

Indici di dispersione

Coefficiente di variazione (CV)

100x

sCV

n

xn

ii

1

2

Page 10: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Indici di dispersione

Teorema di Tchebysheff: indipendentemente dalla distribuzione,

fissata una costante K, l’intervallo contiene almeno

[1-(1/K2)] dati. (s è la dev.standard)

Es. K = 2 l’intervallo contiene almeno il 75% dei dati

K = 3 l’intervallo contiene almeno l’ 89% dei dati

Approssimativamente, se una distribuzione è simmetrica e a campana:

l’intervallo contiene il 68% dei dati

l’intervallo contiene il 95% dei dati

l’intervallo contiene quasi il 100% dei dati

Ksx

sxsx 2sx 3

Page 11: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Indici di forma

Asimetria (Skewness)

Curtosi (Kurtosis)

negativapositiva

341

4

n

xxn

ii

31

3

n

xxn

ii

platicurticaleptocurtica

Page 12: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Cambio di scala dei dati

Se trasformo una variabile:

bYaX

ybax

a = cambio di origine

b = cambio di scala

La media e la varianza vengono trasformate nel modo seguente:

222yx sbs

Aggiungere una costante ai dati non ha effetto sulla loro varianza

Page 13: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Analisi esplorativa dei dati Tra i più comuni strumenti grafici (oltre ai bar charts e histograms)

della EDA sono i diagrammi stem and leaf e box plot

diagramma stem and leaf

2.2 , 2.2, 3.1, 3.1, 3,3, 3,4, 4.2, 4,6, 4,7, 4.8, 5 5.1

Si considerano le prime 2 cifre significative ( in questo caso l’intero

numero). la prima cifra costituisce lo stem, la seconda le leaf.

2 22

3 1134

4 2678

5 01

si ottiene una specie di distribuzione di frequenza

Page 14: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Stem-and-Leaf Plot

Frequency Stem & Leaf

7,00 2 . 0224688 13,00 3 . 0022444466668 14,00 4 . 00002244466888 7,00 5 . 0244688 9,00 6 . 000224446 1,00 7 . 6 ,00 8 . 3,00 9 . 444 2,00 10 . 26 8,00 Extremes (>=10,8)

Stem width: 1,0 Each leaf: 1 case(s)

Page 15: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Box plot

17N =

VAR00001

50

40

30

20

10

0

-10

16

17

mediana1° quartile

3° quartile

1,5 * diff. interquartile

La mediana e il box indicano asimmetria nella parte centrale della distribuzione, i bracci presenza di “code”

Outlayer (<3*diff int)

Outlayer (>3*diff int)

Page 16: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Inferenza statistica

POPOLAZIONE: insieme di tutte le manifestazioni relative a un certo fenomeno. Può essere finita o infinita. In genere ci si occupa di popolazioni molto grandi.

CAMPIONE: sottoinsieme della popolazione. Se estratto casualmente rappresenta la popolazione in esame.

Popolazione e campione

Page 17: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Obiettivi dell’inferenza statistica

POPOLAZIONE descritta da PARAMETRI

Campionamento Inferenza

CAMPIONE -> funzione campionaria -> STIME

1. Test delle ipotesi

2. Stima dei parametri della popolazione

Page 18: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Probabilità: definizioni

Spazio campione: insieme di tutti i possibili risultati o realizzazioni ottenibili.

Realizzazione (outcome): risultato specifico ottenuto.

Evento: combinazione di realizzazioni, che ha caratteristiche specifiche di interesse.

Esempispazio campione del lancio di un dado: 1, 2, 3, 4, 5, 6

spazio campione del lancio di 2 dadi:(1,1), (2,1), (3,1), (4,1), (5,1), (6,1), (1,2), (2,2), (3,2), (4,2), (5,2), (6,2), (1,3), (2,3), (3,3), (4,3), (5,3), (6,3), (1,4), (2,4), (3,4), (4,4), (5,4), (6,4), (1,5), (2,5), (3,5), (4,5), (5,5), (6,5), (1,6), (2,6), (3,6), (4,6), (5,6), (6,6),

Page 19: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Probabilità: definizioni

La probabilità di un evento A è indicata da P(A) ed è sempre compresa tra 0 e 1

Se due eventi si escludono l’un l’altro, sono detti mutualmente esclusivi.

La somma delle probabilità di tutti gli eventi mutualmente esclusivi deve essere = 1

Il complemento di un evento è il non verificarsi di tale evento. Il complemento di A è indicato con Ā

P(Ā) = 1 - P(A)

Due eventi A e B sono detti indipendenti se la probabilità che si verifichi A non è influenzata dal fatto che si sia verificato B o viceversa.

Page 20: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Regole per combinare le probabilità

Per combinare le probabilità di più eventi valgono le seguenti regole

Se due eventi sono indipendenti, la probabilità che entrambi si verifichino è:

P(A and B)= P(A)P(B)

La probabilità che si verifichi almeno uno dei due eventi è:

P(A or B)= P(A)+P(B)

Se i due eventi non sono mutualmente esclusivi:

P(A or B)= P(A)+P(B) - P(A and B)

Page 21: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzioni di probabilità

Variabile casuale: numero che viene assegnato a ciascuna realizzazione di un esperimento

Distribuzione di probabilità: probabilità associate a ciascun valore della variabile casuale

La variabile casuale può essere discreta o continua

1. Distribuzioni di probabilità discrete (di VC discrete)

2. Distribuzioni di probabilità continue (di VC continue)

La distribuzione di probabilità è la distribuzione teorica della popolazione, i cui parametri si intendono indagare

La media di una distribuzione di probabilità è detta valore atteso della variabile casuale

Page 22: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzioni di probabilità della somma di due dadi da gioco ERRORE NEL

GRAFICO DATI TRUCCATI!

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

NORMALI

TRUCCATI

Page 23: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzioni di probabilità discrete

1

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0

2 3 4 5 6 7 8 9 10 11 12

0 p(y) 1

p(y) = 1

Valore medio (valore atteso):

= y p(y)

Varianza:

2= (y- )2p(y)

y

p(y)

Page 24: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzioni di probabilità continue

1

Sono descritte da funzioni. Di queste ci interessa solo l’integrale

L’area sottesa dalla curva è = 1

L’area sottesa dalla curva tra due valori (es. a-b) è la probabilità che la variabile casuale assuma valori compresi tra a e b

a b

1)( dxxy

x

y

x

y

Page 25: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzioni di probabilità di interesseDistribuzione binomiale

Distribuzione normale

Distribuzione del t di Student

Distribuzione di F di Fisher

Distribuzione del 2

Distribuzione di Poisson

Distribuzione del Q

Distribuzione binomiale negativa

Distrib Gamma, beta, Cauchy, Gumbel, Weibull, Log-normale ecc…

Page 26: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Popolazione binomiale

Il caso più semplice di popolazione con variabili qualitative è la popolazione binomiale. Viene detta binomiale perché sono contemplate solo due possibilità, due possibili realizzazioni.

Vengono quindi analizzate le proporzioni delle due realizzazioni contemplate, dove:

p è la proporzione di individui che presentano una certa caratteristica

(1-p) è la proporzione di individui che non la presentano.

Page 27: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Convenzionalmente ad una delle due realizzazioni possibili viene assegnata l’etichetta di “successo” e viene indicata con 1. L’altra (“insuccesso”) viene indicata con 0.

Si indicano:P(1) = pP(0) = q = (1 - p)

La distribuzione binomiale descrive la distribuzione di una variabile casuale Y che è il numero di successi in un campione di numerosità n, composto cioè da n realizzazioni indipendenti dell’evento elementare.

Distribuzione binomiale

Page 28: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

La variabile casuale Y (numero di successi in un campione di numerosità n) è una variabile discreta che ha possibili realizzazioni: 0, 1, 2, …, n

Si tratta in sostanza di associare una probabilità a ciascuna di queste realizzazioni.

La formula è la seguente:

)()1()!(!

!)( yny pp

yny

nyp

Distribuzione binomiale

Dove y è una delle possibili realizzazioni di Y

Page 29: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Ho un sacco con 40 palline bianche e 60 nere. L’evento “successo” è dato dalla estrazione di una pallina bianca. Estraggo, con reimmissione, 5 palline. Quale probabilità di estrarre 2 palline bianche?

p=0.4 q=0.6

n=5 y=2

- Se i successi sono 2, gli insuccessi saranno 5-2=3

- Poiché le realizzazioni sono indipendenti: P = 0.4*0.4*0.6*0.6*0.6 = 0.420.63=0.03456

cioè: p2q3 = p2(1-p)3 = py(1-p)(n-y)

Questa è la probabilità di una sola possibile sequenza di estrazioni con 2 successi. (prime 2 estrazioni successo, ultime 3 insuccesso)

Origine distribuzione binomiale

)()1()!(!

!)( yny pp

yny

nyp

Page 30: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

1 1 1 0 0 02 1 0 1 0 03 1 0 0 1 04 1 0 0 0 15 0 1 1 0 06 0 1 0 1 07 0 1 0 0 18 0 0 1 1 09 0 0 1 0 1

10 0 0 0 1 1

Non avendo definito la sequenza di successi ed insuccessi a priori, per avere la probabilità di ottenere 2 successi in 5 realizzazioni devo considerare tutte le possibili combinazioni delle possibili estrazioni con 2 successi e applicare la regola additiva delle probabilità.

Il numero delle combinazioni possibili si può ottenere dal calcolo combinatorio:

10)123(12

12345

)!25(!2

!5

)!(!

!

yny

n

Origine distribuzione binomiale

Quindi la probabilità di estrarre due palline bianche estraendone 5 da una popolazione con p=0,4 è:

p(2) = 10 x 0.03456 = 0.3456

Page 31: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

p = 0.5 q= 1-p 0.5

d1 d2 d3 n succ P Probab.0 0 0 0 q*q*q 0.125 0.1251 0 0 1 p*q*q 0.1250 1 0 1 q*p*q 0.125 0.3750 0 1 1 q*q*p 0.1251 1 0 2 p*p*q 0.1251 0 1 2 p*q*p 0.125 0.3750 1 1 2 q*p*p 0.1251 1 1 3 p*p*p 0.125 0.125

}

}

00.05

0.10.15

0.20.25

0.30.35

0.4

1 2 3 4

0 successi 1 successo 2 successi 3 successi

Campione di numerosità 3 da popolazione con p=0.5

Page 32: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

p = 0.1 q= 1- p 0.9

d1 d2 d3 n succ P Probab.0 0 0 0 q*q*q 0.729 0.7291 0 0 1 p*q*q 0.0810 1 0 1 q*p*q 0.081 0.2430 0 1 1 q*q*p 0.0811 1 0 2 p*p*q 0.0091 0 1 2 p*q*p 0.009 0.0270 1 1 2 q*p*p 0.0091 1 1 3 p*p*p 0.001 0.001

}

}

00.10.20.30.40.50.60.70.8

1 2 3 4

0 successi 1 successo 2 successi 3 successi

Campione di numerosità 3 da popolazione con p=0.1

Page 33: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

)()1()!(!

!)( yny pp

yny

nyp

Caratteristiche della distribuzione binomiale

Dove y è una delle possibili realizzazioni di Y

Se i dati sono espressi come frequenze:

Valore medio (valore atteso): =np

Varianza: 2= np(1-p)

È descritta da un solo parametro: p

Page 34: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzione normale

Tra le varie distribuzioni di probabilità, una ha ruolo fondamentale in statistica: la distribuzione normale o Gaussiana

2

2

1

2

1

x

ey

E’ simmetrica intorno alla media ed è a forma di campana

Ha il massimo in x= e 2 flessi in

E’ completamente definita da 2 parametri (media e varianza – ovvero dev. St.) e viene sinteticamente indicata con N(; )

La variabile x (variabile casuale) può avere valore da - a +

Tra le proprietà della Gaussiana ricordiamo:

Page 35: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

0

0,1

0,2

0,3

0,4

0,5

0,6

0 5 10 15

N(6;2)

N(6;3,5)

N(8;0,5)

N(11;1)

Distribuzione normale

Esistono infinite curve normali (per ogni possibile media & dev. st.)

Le probabilità (superfici sottese) sono in relazione alle distanze dalla media misurata in numero di deviazioni standard

Page 36: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

la normale standardizzata

Tra le curve normali, si fa spesso riferimento alla cosiddetta “Normale standardizzata” che è N(0;1) e quindi ha:

media = 0

deviazione standard = 1

Tutte le normali possono essere ricondotte alla normale standardizzata, sottraendo a ogni dato la media e dividendo per la deviazione standard.

La distribuzione normale standardizzata si chiama distribuzione di Z

x

z

Page 37: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

la normale standardizzata

Data una normale qualsiasi e un punto x, l’area compresa

tra il punto x e + è la stessa di quella compresa tra il

corrispondente z e +

L’integrale della normale N(, ) tra x e + è calcolabile, ma

con notevole difficoltà; l’integrale di z è invece tabulato.

(l’integrale della normale N(, ) tra x e + ci dà la probabilità che

un’unità sperimentale abbia un valore superiore a x)

Page 38: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzione binomiale -> normale

0

0,1

0,2

0,3

0,4

0,5

0,6

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

n=2

n=3

n=5

n=10

n=20

n=30

p=0,7

all’aumentare della numerosità campionaria la distribuzione binomiale tende alla normale.

L’approssimazione è accettabile quando np5 e n(1-p)5

Page 39: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Uno stimatore è una statistica ottenuta da un campione che stima un parametro della popolazione.

Gli stimatori si indicano con lettera latinaI parametri della popolazione si indicano con lettera greca

Stimatori

x

22s

s

Lo strumento per valutare l’attendibilità di uno stimatore si basa sullo studio della probabilità

Media stimatore di

Varianza stimatore di

Dev. St. stimatore di

Page 40: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Stimatori e distribuzioni campionarie

Proprietà di uno stimatore

Non distorsione (accuratezza): la media di tutti i possibili valori dello stimatore è uguale al valore del parametro della popolazione.

Consistenza: all’aumentare della dimensione del campione lo stimatore tende al valore del parametro

Efficienza (precisione): è più efficiente, tra tutti gli stimatori non distorti, quello che ha minore varianza campionaria

Page 41: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Il miglior stimatore della media di una popolazione è la media del campione.

Il miglior stimatore della varianza di una popolazione è:

Se si divide per n invece che per n-1 lo stimatore è distorto

Non vi sono stimatori non distorti della deviazione standard, è per questo che si usa molto la varianza.

Stimatori di media e varianza

1

1

2

2

n

xxs

n

ii

Page 42: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

un universo: 2 3 5 6

media = 4dev.st= 1,6varianza= 2,5

Possibili campioni di numerosità 2 ottenibili per estrazione casuale con reimmissione:

x1 x2 media var (/n) var (/(n-1) dev st (/n) dev st (/(n-1)2 2 2 0,00 0,00 0,00 0,002 3 2,5 0,25 0,50 0,50 0,712 5 3,5 2,25 4,50 1,50 2,122 6 4 4,00 8,00 2,00 2,833 2 2,5 0,25 0,50 0,50 0,713 3 3 0,00 0,00 0,00 0,003 5 4 1,00 2,00 1,00 1,413 6 4,5 2,25 4,50 1,50 2,125 2 3,5 2,25 4,50 1,50 2,125 3 4 1,00 2,00 1,00 1,415 5 5 0,00 0,00 0,00 0,005 6 5,5 0,25 0,50 0,50 0,716 2 4 4,00 8,00 2,00 2,836 3 4,5 2,25 4,50 1,50 2,126 5 5,5 0,25 0,50 0,50 0,716 6 6 0,00 0,00 0,00 0,00

medie stimatori 4 1,25 2,50 0,88 1,24Varianze stimatori 1,25 1,844 7,375 0,484 0,969Dev. St stimatori 1,118 1,358 2,716 0,696 0,984

Campioni Statistiche

Page 43: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Teorema del limite centrale

Una variabile che derivi dalla somma di altre tende a essere

distribuita normalmente. Tante più variabili concorrono alla

somma tanto più l’approssimazione è buona

Le medie campionarie, anche se i campioni sono tratti

da popolazioni con distribuzioni diverse dalla normale,

tendono ad essere distribuite normalmente.

L’approssimazione è tanto maggiore quanto maggiore è

la numerosità campionaria

Page 44: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzione campionaria delle medie

media = (stimatore non distorto)

deviazione standard =n

n

2varianza =

la distribuzione campionaria della media di un campione di numerosità n estratto casualmente da una popolazione di media e varianza 2 ha:

Inoltre, per il teorema del limite centrale, se n (numerosità del campione) è sufficiente, la distribuzione delle medie campionarie è normale

Page 45: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

nx

100% x

e x

Errore standard della media

Errore percentuale:

Errore standard:

La deviazione standard della distribuzione delle medie campionarie, più piccola di di un fattore

, si chiama errore standard o deviazione standard della media o errore di campionamento della media.

n1

Page 46: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

La distribuzione binomiale (popolazione) descrive la probabilità di Y (numero di successi) in un campione di numerosità n. Se ci si riferisce alle proporzioni di successi, è caratterizzata da:

Media (valore atteso): =p

Varianza: 2= p(1-p)

L’estrazione di un campione casuale di numerosità n fornirà una proporzione campionaria di successi.

La proporzione di successi del campione, se n è sufficiente, è una variabile casuale con distribuzione approssimativamente normale e:

Media = p

Varianza = p(1-p)/n

Distribuzione campionaria di una proporzione

Page 47: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

La distribuzione del t di Student

Ve ne sono infinite, in funzione della dimensione campionaria.

In altri termini l’unico parametro della distribuzione sono i GL di s.

Per n= la distribuzione del t diviene quella di z.

s

xt

xs

xt

n

ssxcon:

Nella distribuzione delle medie campionarie:

Page 48: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

La distribuzione del t di Student

-5 -3 -1 1 3 5

n= 2

n= 5

norm ale n-> inf.

E’ tabulata per il n° di gradi di libertà (n-1) con cui si stima la deviazione standard

E’ simmetrica, più appiattita della normale (è tanto più platicurtica tanto

più piccola è la dimensione campionaria).

Page 49: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

La distribuzione F

Serve a descrivere la distribuzione del rapporto di due stime della varianza.

Dati due campioni indipendenti, estratti da popolazioni con distribuzione normale e varianze 2

1 22

22

22

21

21

s

s

F

È una variabile casuale con la distribuzione F

La distribuzione F ha due parametri: 1 e 2 che sono i gradi di libertà con cui sono calcolate le varianze stimate s2. Si indica con F(1, 2)

Page 50: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Definita solo per valori non negativi

Asimmetrica

Per ogni combinazione di gradi di libertà esiste una distribuzione

Bisogna scegliere quale varianza mettere a numeratore. Per convenzione si mette sempre la varianza più grande.

La distribuzione F

22

21

s

sF Se 2

1= 22

Page 51: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzione del X2

E’ data dalla sommatoria di n variabili indipendenti z2.

n x

12

22 )(

E’ sempre positiva.

E’ composta da n quote additive a ciascuna delle quali compete 1 grado di libertà (GL).

I GL sono quindi dati dal numero di variabili z2 sommate.

Per 1 GL, X2=z2

Page 52: Scale di misura delle variabili Qualitative: nominali o ordinali –lunico parametro valutabile è la proporzione Quantitative: intervalli o rapporti –possono.

Distribuzione del X2

Può essere usata per descrivere la distribuzione della varianza campionaria.

2

2)1(

sn

Ha la distribuzione di X2 con (n-1) GL.

Infatti:

Ovvero:2

2)(

xx