02statistica 146 sino_intervallo_confidenza

146
Totale diapositive 146 1. Indroduzione alla statistica 1.1 Definizione di statistica La statistica è un insieme di metodi e tecniche, basate sulla matematica e la probabilità che permettono di: osservare i fenomeni descriverne le caratteristiche in termini quantitativi e sintetici generare ipotesi esplicative verificare tali ipotesi valutare relazioni ed associazioni

Transcript of 02statistica 146 sino_intervallo_confidenza

Page 1: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

1. Indroduzione alla statistica 1.1 Definizione di statistica

La statistica è un insieme di metodi e tecniche, basate sulla matematica e la probabilità che permettono di:

•osservare i fenomeni• descriverne le caratteristiche in termini quantitativi e sintetici

•generare ipotesi esplicative•verificare tali ipotesi

•valutare relazioni ed associazioni

Page 2: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Iniziamo…

Page 3: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Quando entra in gioco la probabilità?

Conosco tutto Conosco parte (campione)

! Certezza Incertezza ?

Page 4: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Quadro argomenti

Page 5: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Il concetto di misura

“Misura ciò che è misurabile,e rendi misurabile ciò che non lo è”

Galileo Galilei

Page 6: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Il concetto di misura Misura Indicazione quantitativa di una

grandezza in relazione a una opportuna unità di misura. Ogni misurazione comporta un confronto con un riferimento noto.

La misura non può dare un risultato esatto:

Qualsiasi misura è sempre caratterizzata da una approssimazione.

Page 7: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Page 8: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Il concetto di misura le cifre significativeQuando si devono considerare le approssimazioni, ilnumero di cifre riportate è importante e anche gli zeridiventano significativi!Ad esempio, consideriamo due misure della stessalunghezza x:x = 3 mex = 3.00 mIl dato è lo stesso, ma il metadato è diverso: il primo

dato contiene un’incertezza di un metro, mentre nel secondo l’incertezza è di un centimetro!

Page 9: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

1.2 Dati

La scelta del metodo di analisi statistica dipende dal tipo di dati

Ad. es. ha senso fare la media della variabile stato civile?

Page 10: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

VARIABILI QUALITATIVE

ORDINALI E NOMINALI

• Una variabile si dice qualitativa se è un attributo non misurabile.Ad esempio: il genere (maschio o femmina) , il colore degli occhi, il livello di scolarità, etc.

– Un carattere qualitativo ordinale assume valori che posseggono naturalmente un ordine ovvero che possono essere disposti lungo una scala (gli attributi "pessimo", "cattivo", "mediocre", "buono" e "ottimo").

– Un carattere qualitativo nominale assume valori che non posseggono alcun ordine naturale (le malattie o i giorni della settimana).

• Un carattere quantitativo esprime una quantità, ovvero dei valori numerici (l'altezza o il numero di figli). – Discreto se può assumere

solo alcuni dei valori compresi in un intervallo (il numero di figli o gli anni di età).

– Continuo se può assumere tutti i valori contenuti in un determinato intervallo (ad esempio, il peso).

– Binomiale se ha due sole possibilità.

VARIABILI QUANTITATIVE CONTINUE

DISCRETE BINOMIALI

CONTINUE DISCRETE BINOMIALI

Page 11: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

DATI: classificazione

Categorici/qualitativi o numericiCategorici (due categorie, variabili dicotomiche)Maschio/femminaConiugato/singleFumatore/non fumatoreDiabetico/non diabeticoCategorici (più di due categorie)

Non fumatori/ex-fumatori/fumatori (<20) / fumatori (>20)

Coniugato/single/divorziato/separato/vedovo

Page 12: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

I dati numerici (quantitativi) possono essere: Dati discreti o dati di tipo

continuoDati discretiQuando le osservazioni possono

assumere solo alcuni valori numerici:Numero delle visite di un paziente in un annoNumero di figliDati continuiDi solito sono ottenuti tramite un metodo di misurazioneAltezza/peso/età/pressioneNumero di cellule linfocitarie CD4+

Page 13: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Come organizzo le mie informazioni per renderle più facilmente leggibili ed analizzabili?

Griglia rettangolare

righe: unità di osservazionecolonne: caratteristiche osservate su ciascuna unità

LA BASE (MATRICE) DEI DATI

Page 14: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Unità

1

2

3...n

caratteristiche/variabilisesso età istruz. peso

occup.

•Progettazione dell’inserimento dati•Codifica dei dati non numerici

Stato civile

n. figli

M 25

diploma

70

cuoco

coniugato

1

La base dei dati

Page 15: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

LA MATRICE DELLE INFORMAZIONI

E DEI DATIOgni riga contiene le informazioni

di ogni unità di osservazione

RECORD

Ogni colonna contiene le informazioni relative a caratteristiche costanti dell’analisi Di ogni osservazione CAMPI DELLE VARIABILI

VARIABILI

Soggetto Sesso Età Stato Civile

Professione

1 Maschio 34 Celibe Impiegato

2 Maschio 32 Celibe Insegnante

3 Femmina 45 Sposata Operaia

4 Maschio 31 Sposato Agricoltore

5 Femmina 29 Separata Impiegato

6 Maschio 27 Celibe Impiegato

RECORD

Page 16: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

ID SESSO

ETA'

PESO

BMI1 M 5

5….

….2 F 5

4….

….3 F 5

2….

….4 M 3

3….

….5 M 3

4….

….6 M 4

5….

….7 F 4

2….

….8 M 6

7….

….9 M 3

3….

….1

0F 1

3….

….1

1F 2

3….

….1

2F 2

5….

….1

3F 4

5….

….1

4F 6

5….

….1

5M 4

3….

….1

6F 4

3….

….1

7F 2

3….

….1

8F 1

2….

….1

9M 3

4….

….2

0F 6

5….

….2

1M 4

5….

….2

2M 3

4….

….2

3M 3

4….

….

1.3 Distribuzione di frequenza

Quanti sono i maschi nel gruppo di individui che sto esaminando?

Come si distribuisce il BMI (Body Mass Index) nella popolazione che sto esaminando?

Devo estrarre dalla mia matrice dei dati

LA DISTRIBUZIONE DI FREQUENZA

delle variabili che mi interessano

Page 17: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione di frequenza del sesso in una popolazione di 185 pazienti con AIDS diagnosticati tra Ottobre 1996 –30 Aprile 1997 nel Lazio

Sesso frequenza = n

Maschi 135Femmine 50Totale 185

Lazio

Sesso frequenza = n

Maschi 250Femmine 118Totale 368

Toscana

Frequenza relativa (%)

73 27100

Frequenza relativa (%)

68 32100

Distribuzione di frequenza

Page 18: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Frequenza semplice (n): numero di volte in cui i valori di una specifica variabile sono stati osservati (= 135 maschi)

Frequenza relativa o percentuale:

= f

(135/185) * 100 =

n

N* 100 = f %

n

N

frequenza percentuale di maschi nella popolazione di pazienti con AIDS Lazio

Distribuzione di frequenza

Page 19: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione per classi di età delle donne ricoverate per intervento chirurgico sulla mammella nel 1997 nel Lazio

✓Distribuzione di frequenza cumulata: somma delle frequenze relative all’aumentare dei valori della variabile

età in classi

Frequenza

% % valid

a

% cumulat

a<40

2 0,05

0,05

0,05

40-49

1068

27,50

27,57

27,62

50-69

1813

46,69

46,80

74,42

70-79

990

25,50

25,55

99,97

>=79

1 0,03

0,03

100,00

Totale casi validi

3874

99,8

100,0

Mancante di sistema

9 0,2

Totale

3883

100,0

Page 20: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

MISURE DI - TENDENZA CENTRALE - DI DISPERSIONE

MISURE TENDENZA CENTRALE MISURE DISPERSIONE

Inrorno a quali valori i dati si concentrano

Quanto i dati differiscono tra loro

Page 21: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

1.4 Statistica descrittiva: misure di tendenza centrale

Page 22: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Misure di -tendenza centrale - di dispersione

A cosa servono?

Sintetizzare Descrivere

Page 23: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Misure di tendenza centrale

La prima condizione che vincola la scelta del tipo di misura è rappresentato dal tipo di variabile in cui è espresso il carattere

rilevato.

modamedia

mediana

Page 24: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

moda

Definizione: è la modalità che presenta la frequenza assoluta più

alta. E’ in pratica il valore osservato più comunemente.

La moda può essere calcolata per qualsiasi tipo di dati.

Page 25: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

moda: esempio 1

Numero di figliper famiglia

Frequenzadi famiglie

Frequenzacumulata

0 50

501 12

01702 20

03703 4

04104 2

04305-

75 43

5

Page 26: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

mediana

• Definizione: è il valore che, in una serie ordinata di modalità, occupa il posto centrale, cioè ripartisce le osservazioni in due gruppi di uguale numerosità; il 50% delle osservazioni è inferiore alla mediana, il 50% superiore.

• Può essere calcolata per variabili le cui modalità possano essere ordinabili.

Page 27: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

mediana

• Se si dispongono le osservazioni in ordine crescente o decrescente, l’osservazione di mezzo è la mediana. Se il numero delle osservazioni, n, è dispari vi sarà un unico valore di mediana :

• se n è pari, non esiste una osservazione centrale e la mediana si definisce per convenzione come la media delle due osservazioni centrali:

5, 15, 20, 25, 45, 60, 89,

la mediana è 25.

5, 15, 20, 25, 45, 60, 70, 89

la mediana è (25+45)/2=35.

Page 28: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

mediana: esempio 1

L’osservazione centrale è data da (435+1)/2=218 che appartiene alla modalità ‘numero di figli’=2. Quindi la mediana è 2.

Numero di figliper famiglia

Frequenzadi famiglie

Frequenzacumulata

0 50

501 12

01702 20

03703 4

04104 2

04305-

75 43

5

11,539,185,194,398,9100,0

Frequenza %cumulata

Page 29: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Frequenze cumulative, mediana e centili

Questo tracciato è utile per determinare graficamente i centili (o percentili) di una distribuzione.

Page 30: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Per PERCENTILE o CENTILE si intende il livello di misura al di sotto del quale cade una determinata percentuale della distribuzione

Nell'esempio, il 25° percentile corrisponde a 58.8 cm circa, il 50° a poco meno di 61 cm ed il 75° a 63.3 cm circa.

Ciò significa che il 25% dei nostri bracchi era più basso di 58.8 cm, il 50% era più basso di 61 cm ecc.

Per esempio, il 90% dei bracchi è più basso di 65 cm, e quindi un cane alto 65 cm cadrà nel "90esimo percentile". Il 25° percentile è detto anche "primo quartile" in quanto raccoglie il primo quarto della popolazione; analogamente, il 75° percentile è detto anche "terzo quartile". Il 50° percentile, detto anche mediana, è un indice di tendenza centrale fra i più importanti, e la sua applicazione pratica verrà accennata in seguito.

Se i dati sono ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti, tenendo presente che la mediana è quel valore che lascia alla sua sinistra e alla sua destra un numero uguale di unità, allora:n+1/2

Page 31: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Definizione: è la somma dei valori osservati divisa per il numero delle osservazioni

• per tabelle di dati

media aritmetica

soggetti numero di esami

1 32 43 64 25 16 2

Il numero medio di esami è dato da:

3+4+6+2+1+2 = 3

6

Page 32: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

media aritmetica

-Per tabelle di frequenza

Il numero medio di figli è dato da:

Numero difigli

perfamiglia

Frequenzadi famiglie

0 501 1202 2003 404 205-

75 81

435

78043

5

120

150

0 ,.....medi

a==

++×+×=

Page 33: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Scegliere la statistica descrittiva appropriata

La scelta dipende dalla distribuzione dei dati

• Gruppo a: 11,12,13,13,14,15; media=13• Gruppo b: 11,12,13,13,14,25; media=17 mediana=

13La media è condizionata dagli estremi

Page 34: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

MEDIA

Si calcola sommando tutti i valori della osservazione e dividendo per il numero dei valori

Facile da calcolare e si utilizza quando non abbiamo grossa dispersione dei dati

degenze in ospedale per una certa patologia

5;5;5;7;10;20;102 sono i giorni

Media = 154/7= 22

Il risultato è atipico poiche le degenze di 22 giorni si verificano molto raramente

In questo caso è piu informativa la mediana (quadro piu reale)

MEDIANA

Corrisponde al valore centrale quando i valori sono ordinati in modo crescente

½ (n+1)esima della serie ordinata

Se n è pari non esiste un valore centrale e la mediana è la media aritmetica dei due valori centrali

Page 35: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Abbiamo 7 osservazioni mediana ½ (n+1)= ½ 7+1= 4

La mediana sarà la quarta osservazione ovvero 7 (una volta ordinate in ordine crescente)

MODA

È il valore chi si verifica piu frequentemente (massima frequenza)

Page 36: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

La moda è utilizzata raramente come misura descrittiva

In questo caso sarebbe 5 (il valore piu frequente)

MEDIA PESATA

È utile quando alcuni valori del set di osservazioni sono piu importanti di altri

1) Quando alcuni valori sono misurati piu precisamente di altri

2) Quando due o piu medie (o proporzioni) si uniscono insieme

temperature medie giornaliere all’interno di una sala ospedaliera in diversi giorni della settimana

Giorni lavorativi: 22,23,21,21,20 media 107/5=21,4°C

Fine settimana 17,15 media 32 /2=16°C

La media di tutte le temperature per i 7 giorni non è 21,4+16/2= 18,7°C

Page 37: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Perchè 21,4 è basato su 5 osservazioni mentre 16 solo su 2 osservazioni

Se vogliamo unire le due medie è necessario dare piu peso al valore 21,4 che al valore 16

La media per tutti e sette i giorni

(5 x 21,4 + 2 x 32) /5+2= 139 / 7 = 19,8°C

Questa è la media pesata perchè alla media del gruppo con piu osservazioni viene dato un peso maggiore

Abbiamo 5 pesi per i giorni lavorativi e 2 per il gruppo fine settimana

La formula di una media pesata è:

Xw= Σ WY/ Σ W

W= peso associato all’osservazione y

Se i pesi sono tutti uguali a media pesata è = alla media aritmetica

Page 38: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Riassumendo:

• I dati numerici (quantitativi) possono essere sinteticamente descritti da media e mediana

• La mediana è consigliabile quando la media è poco rappresentativa (presenza di dati troncati oppure presenza di “outliers”)

Page 39: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Altre misure: i quartili

il valore al di sotto del quale cade un quarto delle osservazioni ordinate si chiame quartile inferiore o primo quartile; il valore che è superato da un quarto delle osservazioni si chiama quartile superiore o terzo quartile. La distanza tra di essi è detta distanza interquartile. La mediana è definita come il secondo quartile

50% delle osservazioni

25% delle osservazioni

2° =mediana 3

°25% delle osservazioni

0,23,23,24 …… …34,35,……77,77,78,101

Page 40: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

percentili

se anziché dividere i dati in 4 parti, si dividono in 100 parti, si ottengono i percentili. Ad esempio, il 5-esimo percentile è il valore al di sotto del quale cade il 5% delle osservazioni. Così il primo quartile corrisponde al 25-esimo percentile.

5% delle osservazioni

1° quartile = 25° percentile

Page 41: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

PERCENTILI

Se la distribuzione cumulativa delle frequenze relative è calcolata per una variabile y

➢ il valore che separa l’ 1% delle osservazioni è il primo percentile

➢ il valore che divide il 2% delle osservazioni è il secondo percentile e cosi via

QUARTILI

Normalmente utilizziamo I valori che separano i dati in 4 gruppi di uguale grandezza

➢ 25esimo percentile chiamato 1° Quartile

➢50esimo percentile chiamato 2° Quartile

➢75esimo percentile chiamato 3° Quartile

La differenza tra tra il 25esimo e il 75esimo quartile è la distanza interquartile e contiene il 50% centrale delle osservazioni

Il 50esimo percentile è la mediana

La rappresentazione grafica dei 5 numeri è il “ box and whisker plot”

È da l’idea della grandezza totale e della variabilità

La mediana è il valore che divide i dati in due metà col 50% delle osservazioni in ciascuna metà

Page 42: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Box-plotDa Wikipedia, l'enciclopedia libera.In statistica il box-plot, detto anche box and whiskers plot (diagramma a scatola e baffi) o semplicemente boxplot, è una rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite semplici indici di dispersione e di posizione.Viene rappresentato (orientato orizzontalmente o verticalmente) tramite un rettangolo diviso in due parti, da cui escono due segmenti. Il rettangolo (la "scatola") è delimitato dal primo e dal terzo quartile, q1/4 e q3/4, e diviso al suo interno dalla mediana, q1/2. I segmenti (i "baffi") sono delimitati dal minimo e dal massimo dei valori.In questo modo vengono rappresentati graficamente i quattro intervalli ugualmente popolati delimitati dai quartili.

Page 43: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Se le due metà sono di nuovo divise in due metà per ottenere la mediana di ciascuna metà abbiamo il 25esimo e il 75esimo quartile

Possiamo indicare con Ymin il valore piu piccolo e con Ymax il valore pi grande

Questi 5 valori Ymin Ymax 25esimo 50esimo e 75esimo sono I numeri usati nel “ box and whisker plot”

La parte della scatola a destra della mediana e il suo baffo sono piu lunghi la misura è asimmetrica a destra

Page 44: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Percentili: box and whisker plot

25°

75°

97½°

2½°

Page 45: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Supponiamo di avere due popolazioni con lo stesso numero di individui che vogliamo confrontare e che troviamo uguale media e uguale deviazione standard concludiamo che sono uguali

ma i dati grezzi ci fanno notare come in un caso ho valori out-liers

ossia vicini ai valori estremi

quindi ho due differenti distribuzioni e una delle due è assimmetrica in questo caso media e SD ci danno una visione errata dello stato di cose e quindi pur potendo calcolare media e SD queste misure non mi riassumono in questo caso la distribuzione dei miei valori

Page 46: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Un approccio alternativo è:

manipolare matematicamente la distribuzione e “normalizzarla”

usare la mediana ossia il valore rispetto al quale metà dei valori della popolazione risulatano superiori e l’altra inferiori

inoltre per la misura della dispersine si riporta il valore che che separa il 25% inferiore della popolazione dal resto e il valore che separa il 25% superiore dal rimanente 75%

calcolare i percentili è buon sistema per valutare quanto una popolazione si ad atti ad una distribuzione normale

se i valori percentili non sono troppo diversi da quelli attesi sulla base di media e deviazione standard allora la distribuzione normale rappresenta bene la popolazione reale dei dati

Page 47: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 *

Gli Indici di VARIABILITA’

- Campo di variazione- Scarto dalla media- Varianza- Scarto quadratico medio- Coefficiente di variazione

Elementi di Statistica descrittiva

Page 48: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Indici di Variabilità

I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico

Hanno però il limite di non darci alcuna informazione sulla distribuzione dei dati

Page 49: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Esempio

In tre differenti prove di matematica 4 studenti hanno riportato le seguenti valutazioni

In tutte e tre le prove la media è 6,25

ma i dati sono chiaramente distribuiti in modo diverso

Page 50: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Diagramma di distribuzione delle tre prove

Page 51: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

• nel caso della 1a prova e 2a prova sarà

opportuno fare un recupero per alcuni studenti

• nel caso della 3a prova l’insegnante può ritenere che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente

Page 52: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

• Campo di variazione (Range)• Scarto medio dalla media• Varianza e scarto quadratico medio• Coefficiente di variazione

In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante

gli indici di variabilità (o dispersione)

Vedremo i seguenti indici

Page 53: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Campo variazione = x max – x min

Campo di variazioneE’ il più semplice degli indici di variazione:

Si calcola facendo la differenza tra il dato più grande e il dato più piccolo

Rappresenta l’ampiezza dell’intervallo dei dati

Page 54: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Esempio

Consideriamo le valutazioni della prima prova

Xmax = 9;

Xmin = 3 Range = 9 – 3 = 6

Page 55: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Calcoliamo il Range per tutte le tre prove

Range 1a prova = 6 ⇒ dati più dispersi,

risultati più eterogenei

Range 3a prova = 1 ⇒ dati più concentrati,

risultati più omogenei

Range 2a prova = Range 1a prova = 6

Stessa Distribuzione?

Page 56: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Vediamo graficamente

Page 57: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Osservazioni:

1. Il campo di variazione dà informazioni sulla distribuzione dei dati:

• più R è piccolo più i dati sono concentrati;

• più R è grande più i dati sono dispersi.

2. R è espresso nella stessa unità di misura dei dati

3. Tuttavia R tiene conto solo dei dati estremi della distribuzione e non di tutti i dati, pertanto

distribuzioni diverse ma con gli stessi valori

estremi hanno range uguali Es. Range 1aprova = Range 2a prova.

ma distribuzione 1a prova ≠ Distribuzione 2a prova

Page 58: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Scarto medio dalla media aritmeticaUn altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze

Scarto medio = Distanza media dei dati dalla media

Page 59: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Esempio

Consideriamo le valutazioni della prima prova

⏐Δx1⏐ = ⏐ 3 – 6,25 ⏐ = 3,25; Δ⏐ x2⏐ = ⏐ 5 – 6,25 ⏐ = 1,25;⏐Δx3⏐ = ⏐ 8 – 6,25 ⏐ = 1,75; Δ⏐ x4⏐ = ⏐ 9 – 6,25 ⏐ = 2,75;

Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25

4

Page 60: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Calcoliamo lo Scarto medio per tutte le tre prove

Scarto 1a prova = 2,25 ⇒ dati più dispersi,

risultati più eterogenei

Scarto 3a prova = 0,38 ⇒dati più concentrati,

risultati più omogenei

Scarto 2a pr. ≠ Scarto 1a pr.“Le Distribuzioni Differiscono”

Page 61: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Diagramma degli scarti dalla media

Page 62: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Osservazioni:

1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati:

• più SM è piccolo più i dati sono concentrati;

• più SM è grande più i dati sono dispersi.

2. SM è espresso nella stessa unità di misura dei

dati

3. Non ha l'inconveniente del “Campo di variazione”

In quanto SM tiene conto di tutti i dati della

distribuzione

Page 63: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Varianza e Scarto quadratico medio

Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati.Varianza

Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M

Page 64: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Page 65: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Esempio - Varianza

Consideriamo le valutazioni della prima prova

(Δx1)2 = (3 – 6,25 )2 = 10,5625; (Δx2)2 = (5 – 6,25 )2 = 1,5625;

(Δx3)2 = (8 – 6,25 )2 = 3,0625; (Δx4)2 = (9 – 6,25 )2 = 7,5625;

σ2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875

4

Page 66: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Calcoliamo la Varianza per tutte le tre prove

Varianza 1aprova = 5,69 ⇒ dati più dispersi,

risultati più eterogenei

Varianza 3a prova = 0,19 ⇒ dati più concentrati,

risultati più omogenei

Varianza 2a pr. ≠ Varianza 1a pr “Le Distribuzioni Differiscono”

Page 67: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Scarto quadratico medio o Deviazione standard

È uguale alla radice quadrata della varianza

Page 68: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Esempio - Scarto quadratico medio

Riprendiamo le valutazioni della prima prova

Page 69: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Calcoliamo lo Scarto quadratico medio per tutte le prove

Scarto q. 1aprova = 2,38 ⇒ dati più dispersi,

risultati più eterogenei

Scarto q. 3aprova = 0,43 ⇒ dati più concentrati,

risultati più omogenei

Scarto q. 2a pr. ≠ Scarto q. 1a pr “Le Distribuzioni Differiscono”

Page 70: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Osservazioni:

1. La varianza σ2 e lo scarto quadratico medio σ

danno

informazioni sulla distribuzione dei dati:

• più σ2 e σ sono piccoli più i dati sono concentrati;

• più σ2 e σ sono grandi più i dati sono dispersi.

2. Entrambi gli indici tengono conto di tutti i dati della distribuzione

Page 71: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

3. Entrambi si basano sulla proprietà della media per

cui

la somma dei quadrati degli scarti dalla media è

minima

4. La varianza è espressa mediante il quadrato

dell’unità

di misura dei dati

5. Lo scarto quadratico nella stessa unità di misura

dei

dati e pertanto viene preferito alla varianza

Page 72: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 146

Il coefficiente di variazione CV

Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale.

E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).

Page 73: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Se i valori di CV sono esterni a quelli indicati o si è in presenza di errori di rilevazione, oppure il fenomeno presenta aspetti particolari.

• se CV è molto basso (2 – 3 %) bisogna sospettare l’esistenza di fattori limitanti la variabilità,

• se CV è molto alto (intorno al 40% o più) è molto probabile l’esistenza di fattori che aumentano la

variabilità

In natura il coeff. di variazione tende a rimanere costante per ogni fenomeno: i valori normalmente variano dal 5% al 15%

Page 74: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Calcoliamo il Coeff. di variazione delle tre prove

CV 1a prova = 38,16% ⇒ dati più dispersi,

risultati più eterogenei

CV 3a prova = 6,93% ⇒ dati più concentrati,

risultati più omogenei

CV 2a pr. ≠ CV 1a pr ⇒ “Le Distribuzioni Differiscono”

Page 75: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Un esempio: la distribuzione normale

Page 76: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Le misure di Forma

Sono indici sintetici utilizzati per evidenziare particolarità nella forma della distribuzione.

Noi esamineremo:

• l’asimmetria

• la curtosi

Page 77: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Asimmetria

Una distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetria

In una distribuzione simmetrica media, mediana e moda sono coincidenti.

media = mediana = moda

In una distribuzione asimmetrica media, mediana e moda non sono più coincidenti

e proprio la differenza (distanza) tra la media e la moda può essere considerata una misura della asimmetria

Page 78: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Un altro coeff di asimmetria è il Coeff. di asimmetria (di Fisher)

σ = scarto quadratico medio

Se a = 0 distribuzione simmetrica

Se a > 0 asimmetria destra

Se a < 0 asimmetria sinistra

Sono state proposte diverse misure dell’ asimmetria, per esempio le più semplici sono:

Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson

Page 79: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

moda < mediana < media

Asimmetria positiva (as. Destra)

La distribuzione è asimmetrica quando non presenta nessun asse di simmetria.Si ha un’asimmetria positiva o destra quando il ramo destro della curva è più lungo di quello sinistro

In questo caso si ha:

media=63,65moda = 48mediana =58

Page 80: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

media < mediana < moda

Asimmetria negativa (as. Sinistra)

Si ha un’asimmetria negativa o sinistra quando il ramo sinistro della curva è più lungo di quello destro

In questo caso si ha:

media = 85,24

moda = 100

mediana = 90

Page 81: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Curtosi

Se una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss)

Se la curva è

• più appuntita si dice curva Leptocurtica

• più appiattita si dice curva Platicurtica

Coeff. di curtosi di Pearsonσ σ = scarto quadratico medio 0 ≤ K < + infSe K = 3 distribuzione normalese K > 3 curva leptocurticaSe K < 3 curva platicurtica.

Page 82: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Curtosi

leptocurtosi K = 8,57

platicurtosi K = 2,8

curva normale K = 3

Page 83: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Curtosi

Spesso il coeff. di curtosi viene indicato con b2 che, come visto, nel caso della distribuzione normale è = 3

pertanto, talvolta, la curtosi viene indicata con (b2 – 3)

Allora:

se la distribuzione è normale (b2 – 3 ) = 0

se la distribuzione è leptocurtica (b2 – 3 ) > 0

se la distribuzione è platicurtica (b2 – 3 ) < 0

Page 84: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Page 85: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

media=3

media=3

media=3

Misure di dispersione

Page 86: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Misure di dispersione

Sono necessari degli indicatori che sintetizzano queste diverse situazioni.

•Campo di variazione (Range)•deviazione standard•varianza

Page 87: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Campo di variazione

Chiamato anche RANGEE’ definito come la differenza tra il più grande ed il più piccolo valore osservato.

Range = max - min

Page 88: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Deviazioni dalla media: graficamente

= MEDIA

Page 89: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Varianza

è definita come il quadrato della deviazione standard, cioè:

( )21

2

SDn

media

xvarianza

n

i i =−

=∑ =

Page 90: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

è definito come la radice quadrata della somma dei quadrati delle differenze delle

osservazioni dalla loro media, cioè:

Deviazione standard

( )n

media

xSD

n

i i∑ =−

= 1

2

Page 91: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

media=3

media=3

media=3

Misure di dispersione

Page 92: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Numero di giorni di vacanza al mese

Soggetto

Situazione 1

Situazione 2

Situazione 3

1 3 1 1

8

2 3 2 0 3 3 0 0 4 3 4 0 5 3 5 0 6 3 6 0 Media

3 3 3 Dev.std

0 2,4

7,4

Maggiore è la variabilità in un insieme di dati, più grande è la sua deviazione standard.

Deviazione standard: esempio 1

Page 93: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

coefficiente di variazione

Definizione: è definito come rapporto tra la deviazione standard e la media.

E’ utile per confrontare la variabilità di fenomeni tra di loro diversi per l’unità di misura in cui sono espressi (ad esempio variabilità della statura e

del peso corporeo)

xSDC

V=

Page 94: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Coefficiente di variazione: esempio

Altezza nella popolazione maschile A:media= 175 cm SD = 15 cm

Peso nella popolazione maschile A:media= 74 Kg SD = 10 Kg

CV_altezza= 15/175 =8,5%CV_peso= 10/74 =13,5%

Page 95: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

VARIANZA E DEVIAZIONE STANDARD

La varianza misura la variabilità e si basa sulla differenza tra ogni osservazione e la media

Supponiamo una popolazione di N individui a cui misuriamo la temperatura T

Se la media di T è M la differenza tra I valori di T e la media sono

T1-M,T2-M,T3-M e cosi via

Se tra questi valori ci sono grandi deviazioni la variabilità attorno alla media è grande

Se le deviazioni sono piccole le osservazioni sono distribuite vicino alla media e la variabilità è piccola

Queste differenze sono la chiave per misurare la variabilità in modo efficiente

Il valore medio delle deviazioni non puo essere usato come misura della variabilità poiche le differenze positive devono essere cancellate esattamente dalle differenze negative

Page 96: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Quindi la Σ(T-M) deve essere zero e anche la media delle deviazioni deve essere zero

Per superare il problema delle deviazioni negative che cancellano le positive basta elevare al quadrato le deviazioni

Il valore medio dei quadrati delle deviazioni viene chiamamto varianza della popolazione

In una popolazione di N individui ognuno associato ad un valore di temperatura T la media della popolazione

M= Σ T / N

La varianza nella popolazione

V = Σ(T-M)2/N

In realtà la varianza non è molto usata poiché i dati per il totale della popolazione possono non essere disponibili

In questo caso si prende dalla popolazione un campione di t osservazioni

La media m = Σt/n è la stima della M media della popolazione totale

Page 97: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

In questo caso avremo

S2 = Σ (t-m) 2/(n-1)

Che ci da la stima CAMPIONARIA della varianza nella popolazione

Qui la somma dei quadrati è divisa per n-1 non solo per n

Questo perche in un campione la media di (t-m)2 sarà piu’ piccola del valore (T-M) della popolazione tutta e quindi

Σ (t-m)2 /n

Sarà una sottostima della varianza della popolazione

Se divido per n-1 invece che per n rimuovo questo BIAS dalla stima campionaria

Il denominatore n-1 sono i Gradi di Libertà

Questi possono essere pensati come il numero di confronti indipendenti di t con m quindi se n-1 delle differenze t-m sono note possiamo determinare l’ultima differenza poiché la somma di tutte le differenze deve essere zero

Page 98: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Il principale svantaggio della varianza è che l’unità di misura della varianza equivale al quadrato dell’unità di misura delle osservazioni originarie

Per cui se le osservazioni riguardano l’altezza in cm la varianza avra come unita di misura i cm2

Per evitare questo si usa la radice quadrata della varianza come misura della variabilità

SD ( deviazione standard)

S = √Σ (t-m)2 / (n-1)

La deviazione standard è una misura descrittiva della variabilità

È una deviazione media delle osservazione dalla media nel senso che alcune deviazioni saranno maggiori e altre minori

A condizione che n non sia troppo piccolo l’intervallo m+- 2s dovrebbe includere il 95% di tutte le osservazioni del campione

Page 99: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Di solito la calcola un computer

Nel caso di un calcolo a mano basta ricordare che il numeratore puo essere sviluppato come:

Σ (t-m)2 = Σt2 - (Σm)2 /n

Durata degenza in ospedale

y: 5 5 5 7 10 20 102; Σy= 154

y2 25, 25, 25, 49, 100, 400, 10404 Σy2 = 11028

Il numeratore della varianza è √Σ (t-m)2 = Σt2 - (Σm)2 /n= 11028-1542 /7= 7640

s2 = 7640/6= 1273,3

s= √1273,3= 35,68 giorni

Page 100: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

L’intervallo m+- 2s

Sarà 22+- 71

Ovvero da -49 a 93 che esclude una sola osservazione tra le sette rilevate invece del 5%

INTERVALLO DI NORMALITA’

L’intervallo media +-2DS che contiene circa il 95% delle osservazioni è l’intervallo di normalità di una variabile

L’uso della parola NORMALE è infelice poichè gli individui che danno l’informazione per la variabile non sono necessariamente normali “sani” e allostesso modo

Una persona con valori al di fuori di questo intervallo non necessariamente è malata

Se la distribuzione è simmetrica l'intervallo di normalità include il valore centrale del 95% dei valori con il 47,5% dei valori inferiori a m-2DS e il 47,5% dei valori superiori a m+2DS

Page 101: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Page 102: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Page 103: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Page 104: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Statistica descrittiva - Grafici

Page 105: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Istogramma

Page 106: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Grafico a torta

Page 107: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Grafici da evitare

Page 108: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Grafici da evitare

Page 109: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Grafici da evitare

Page 110: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

dove siamo arrivati?

Page 111: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Statistica inferenziale

Ovvero, come descrivere la popolazione partendo da un campione

Page 112: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Statistica inferenziale

Quando:• Non possiamo o non vogliamo misurare

tutta la popolazione• Vogliamo comunque descriverla• Vogliamo avere una stima degli indici

visti fino ad ora, ma entra in gioco l’Incertezza e quindi la probabilità:

Probabilità = 0 ... 1 = 0% …100%

Page 113: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Principi di inferenza statistica

• La distribuzione normale• La distribuzione campionaria• Deviazione standard e errore

standard• Intervalli di confidenza• Test di ipotesi (P-value)

Page 114: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Sommario

Distribuzione Normale o di Gauss:•Rappresentazione matematica•integrali•valor medio•Stima della varianza•Somma in quadratura

Page 115: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione Normale o di Gauss In teoria della probabilità la

distribuzione normale, o di Gauss (o gaussiana) dal nome del matematico tedesco Carl Friederich Gauss, è una distribuzione di probabilità continua che è spesso usata come prima approssimazione per descrivere variabili casuali a valori reali che tendono a concentrarsi attorno a un singolo valor medio. Il grafico della funzione di densità di probabilità associata è simmetrico e ha una forma a campana, nota come Campana di Gauss (o anche come curva degli errori, curva a campana, ogiva).

Page 116: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione Normale o di Gauss

Valore vero di una grandezza: quello a cui ci si avvicina sempre più facendo un gran numero di misure (vedi esempi dei dadi).

Se le misure sono soggette ad errori casuali “piccoli” e posso trascurare gli errori sistematici, la loro distribuzione può assumere la forma di una campana centrata sul valore più probabile, in altre parole da funzione di distribuzione di probabilità che meglio approssima la mia distribuzione di

dati può essere la funzione di Gauss:

Page 117: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione NormaleLa curva è centrata sul valore x=m ed incorrispondenza diesso assume il valore

La funzione è normalizzataposso partire dalla distribuzione

e trovare il coefficiente di normalizzazione dalla condizione

Page 118: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione Normale

• Teorema del limite centraleLe medie di campioni di dimensioni nsufficientemente grandi estratti da una popolazionecomunque distribuita, seguono la legge di distribuzione normale con media m e varianza σ2/n.Da questo si deduce immediatamente l’importanza di studiare la distribuzione normale o gaussianaIl teorema si può utilizzare anche nel limite dellasomma di un numero relativamente piccolo divariabili, dell’ordine della decina.

Page 119: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione Normale• Integrali della funzioneL’integrale della funzione di Gauss non è risolvibile matematicamente, ma attraverso metodi numerici. La probabilità che una variabile aleatoria cada in un

intervallo centrato su m (valor medio) di larghezza σ è data da:

Page 120: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione Normale• Integrali della funzioneNel grafico si vede la probabilità che la mia variabile

aleatoria cada in un intervallo di larghezza tσcentrato sempre sul valo medio m

Questo corrisponde ad un• limite di confidenza del 68,27% tσ=1, • limite di confidenza del 95,40% tσ=2,• limite di confidenza del 99,70% tσ=3 etc.

Page 121: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione Normale• Integrali della funzioneRicapitolando:Probabilità che le misure siano comprese tra 1. m – 1σ e m+ 1σ 68,27%2. m – 2σ e m+ 2σ 95,45%3. m –3σ e m+ 3σ 99,73%

Page 122: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione Normale• Distribuzione standardizzataEseguendo la sostituzione X=(x – m)/σ riduco alla stessa forma tutte le distribuzioni normali, rendendo m=0 il valor medio (distribuzione centrata nello zero)e prendo σ come unità di misura, ovvero ho una distribuzione con σ=1Gli scarti x – m diventano scarti ridotti (x – m)/σ e la probabilità sarà

Page 123: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146

Distribuzione Normale

• Media come migliore stimaLa stima migliore per σ si ottiene derivando rispetto

a σ e ponendo la derivata uguale a zero, quindi

O sostituendo il valor medio al valore vero

Page 124: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

La distribuzione normale

Fonti di variazione sono presenti in ogni misurazione.

Tale variabilità non è del tutto imprevedibile: infatti molti fenomeni seguono una distribuzione normale.

Questo modello è utile in quanto possiamo impiegarlo conoscendo soltanto la media e la deviazione standard

Page 125: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

50% 50%

Proprietà della Distribuzione Normale

media

Page 126: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

+2SD

95%

-2SD

2.5%

2.5%

Proprietà della Distribuzione Normale

Page 127: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

-1SD +1SD

16%

16%

68%

Proprietà della Distribuzione Normale

Page 128: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Si dimostra che:

media ± deviazione standardcomprende il 68% circa dei dati

media ± 2 deviazione standard

comprende il 95% dei dati

media ± 3 deviazione standardcomprende pressoché tutti i dati (99.7%)

Proprietà della Distribuzione Normale

Page 129: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Distribuzione campionaria

E’ la distribuzione di frequenza di tutte le medie campionarie ottenute da tutti i possibili campioni della stessa grandezza estratti dalla popolazione in studio

Page 130: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Distribuzione della media campionaria

µ

σ

Popolazione

I campioni estraibili sono infiniti, quindi infinite medie campionarie

Page 131: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Numerosità campionaria eErrore di campionamento

All’aumentare della numerosità del campione la media del campione tende ad avvicinarsi alla media

della popolazione. Pertanto, maggiore è la dimensione del campione, minore è l’errore

campionario insito nella stima della media della popolazione con la

media del campione

Page 132: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Distribuzione campionariaesempio n=10,

200 campioni

Page 133: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Distribuzione campionariaesempio n=40,

200 campioni

Page 134: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Distribuzione campionariaesempio n=100,

200 campioni

Page 135: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Media della“Media campionaria”

Per campioni di qualsiasi numerosità, la media di tutte le possibili medie campionarie è uguale alla media della popolazione:

Page 136: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Errore standard della“Media campionaria”

Per campioni di qualsiasi numerosità, l’errore standard di tutte le possibili medie campionarie è uguale alla deviazione standard della popolazione diviso la radice quadrata della numerosità n:

Page 137: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Variabilità di una stima campionariadeviazione standard misura la variabilità nella

popolazione

errore standard misura la precisione di una stima come la media campionaria

Page 138: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Teorema del limite centrale

➢Per un campione relativamente grande, la variabile media campionaria è approssimativamente distribuita in modo normale indipendentemente dalla distribuzione della variabile sotto studio

➢L’approssimazione diventa migliore al crescere della dimensione del campione

Page 139: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Distribuzione campionaria e distribuzione normale

Page 140: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Errore standard della“Media campionaria”

Tanto più grande è n, tanto più piccolo è l’errore standard e quindi i valori calcolati su tutti i possibili campioni sono più vicini alla media µ della popolazione

Page 141: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

E’ possibile costruire un intervallo che, con una probabilità prefissata, contiene la vera media nella popolazione

Intervallo di Confidenzadella media campionaria

Page 142: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

ERRORE STANDARD (ES) e INTERVALLI DI CONFIDENZA (IC)

➢ Serve per determinare quanto la media di un campione sia vicina alla media della popolazione generale

➢ E’ correlato all’errore standard in quanto non è altro che una deviazione standard riferita però alle medie campionarie e non alle osservazioni individuali

➢ Può fornire un’idea di quanto sia variabile una singola stima della media

Page 143: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

CALCOLO INTERVALLO DI CONFIDENZA

Interpretazione: Intervallo di valori in cui si può essere sicuri al 95% che cadano le medie campionarie

Intervallo di probabilità al 95%= μ ± 2ES

+2ES

95%

-2ES

2.5%

2.5%

μ

Page 144: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Intervallo di Confidenzadella media campionaria

µ

Page 145: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

CALCOLO INTERVALLO DI CONFIDENZA

Intervallo di probabilità al 95%= μ ± 2ES

Nota: In realtà μ e σ sono ignoti. Per il calcolo li sostituiamo con x e DS

Intervallo di confidenza al 95% (IC 95%) = x ± 2ESM

Page 146: 02statistica 146 sino_intervallo_confidenza

Totale diapositive 146 Totale diapositive 168

Intervallo di Confidenzadella media campionaria

La media campionaria è: 530La numerosità è: 10La variabilità è: 100Errore standard: 100/√10 = 31.62Limite inferiore = 530-1.96*31.62 = 468.02Limite superiore = 530+1.96*31.62 = 591.98Quindi l’intervallo di fiducia al 95% sarà:

468.02 ≤ μ ≤ 591.98