02statistica 146 sino_intervallo_confidenza
-
Upload
angelo-barbato -
Category
Documents
-
view
427 -
download
0
Transcript of 02statistica 146 sino_intervallo_confidenza
Totale diapositive 146
1. Indroduzione alla statistica 1.1 Definizione di statistica
La statistica è un insieme di metodi e tecniche, basate sulla matematica e la probabilità che permettono di:
•osservare i fenomeni• descriverne le caratteristiche in termini quantitativi e sintetici
•generare ipotesi esplicative•verificare tali ipotesi
•valutare relazioni ed associazioni
Totale diapositive 146
Iniziamo…
Totale diapositive 146
Quando entra in gioco la probabilità?
Conosco tutto Conosco parte (campione)
! Certezza Incertezza ?
Totale diapositive 146
Quadro argomenti
Totale diapositive 146
Il concetto di misura
“Misura ciò che è misurabile,e rendi misurabile ciò che non lo è”
Galileo Galilei
Totale diapositive 146
Il concetto di misura Misura Indicazione quantitativa di una
grandezza in relazione a una opportuna unità di misura. Ogni misurazione comporta un confronto con un riferimento noto.
La misura non può dare un risultato esatto:
Qualsiasi misura è sempre caratterizzata da una approssimazione.
Totale diapositive 146
Totale diapositive 146
Il concetto di misura le cifre significativeQuando si devono considerare le approssimazioni, ilnumero di cifre riportate è importante e anche gli zeridiventano significativi!Ad esempio, consideriamo due misure della stessalunghezza x:x = 3 mex = 3.00 mIl dato è lo stesso, ma il metadato è diverso: il primo
dato contiene un’incertezza di un metro, mentre nel secondo l’incertezza è di un centimetro!
Totale diapositive 146
1.2 Dati
La scelta del metodo di analisi statistica dipende dal tipo di dati
Ad. es. ha senso fare la media della variabile stato civile?
Totale diapositive 146
VARIABILI QUALITATIVE
ORDINALI E NOMINALI
• Una variabile si dice qualitativa se è un attributo non misurabile.Ad esempio: il genere (maschio o femmina) , il colore degli occhi, il livello di scolarità, etc.
– Un carattere qualitativo ordinale assume valori che posseggono naturalmente un ordine ovvero che possono essere disposti lungo una scala (gli attributi "pessimo", "cattivo", "mediocre", "buono" e "ottimo").
– Un carattere qualitativo nominale assume valori che non posseggono alcun ordine naturale (le malattie o i giorni della settimana).
• Un carattere quantitativo esprime una quantità, ovvero dei valori numerici (l'altezza o il numero di figli). – Discreto se può assumere
solo alcuni dei valori compresi in un intervallo (il numero di figli o gli anni di età).
– Continuo se può assumere tutti i valori contenuti in un determinato intervallo (ad esempio, il peso).
– Binomiale se ha due sole possibilità.
VARIABILI QUANTITATIVE CONTINUE
DISCRETE BINOMIALI
CONTINUE DISCRETE BINOMIALI
Totale diapositive 146
DATI: classificazione
Categorici/qualitativi o numericiCategorici (due categorie, variabili dicotomiche)Maschio/femminaConiugato/singleFumatore/non fumatoreDiabetico/non diabeticoCategorici (più di due categorie)
Non fumatori/ex-fumatori/fumatori (<20) / fumatori (>20)
Coniugato/single/divorziato/separato/vedovo
Totale diapositive 146
I dati numerici (quantitativi) possono essere: Dati discreti o dati di tipo
continuoDati discretiQuando le osservazioni possono
assumere solo alcuni valori numerici:Numero delle visite di un paziente in un annoNumero di figliDati continuiDi solito sono ottenuti tramite un metodo di misurazioneAltezza/peso/età/pressioneNumero di cellule linfocitarie CD4+
Totale diapositive 146
Come organizzo le mie informazioni per renderle più facilmente leggibili ed analizzabili?
Griglia rettangolare
righe: unità di osservazionecolonne: caratteristiche osservate su ciascuna unità
LA BASE (MATRICE) DEI DATI
Totale diapositive 146
Unità
1
2
3...n
caratteristiche/variabilisesso età istruz. peso
occup.
•Progettazione dell’inserimento dati•Codifica dei dati non numerici
Stato civile
n. figli
M 25
diploma
70
cuoco
coniugato
1
La base dei dati
Totale diapositive 146
LA MATRICE DELLE INFORMAZIONI
E DEI DATIOgni riga contiene le informazioni
di ogni unità di osservazione
RECORD
Ogni colonna contiene le informazioni relative a caratteristiche costanti dell’analisi Di ogni osservazione CAMPI DELLE VARIABILI
VARIABILI
Soggetto Sesso Età Stato Civile
Professione
1 Maschio 34 Celibe Impiegato
2 Maschio 32 Celibe Insegnante
3 Femmina 45 Sposata Operaia
4 Maschio 31 Sposato Agricoltore
5 Femmina 29 Separata Impiegato
6 Maschio 27 Celibe Impiegato
RECORD
Totale diapositive 146
ID SESSO
ETA'
PESO
BMI1 M 5
5….
….2 F 5
4….
….3 F 5
2….
….4 M 3
3….
….5 M 3
4….
….6 M 4
5….
….7 F 4
2….
….8 M 6
7….
….9 M 3
3….
….1
0F 1
3….
….1
1F 2
3….
….1
2F 2
5….
….1
3F 4
5….
….1
4F 6
5….
….1
5M 4
3….
….1
6F 4
3….
….1
7F 2
3….
….1
8F 1
2….
….1
9M 3
4….
….2
0F 6
5….
….2
1M 4
5….
….2
2M 3
4….
….2
3M 3
4….
….
1.3 Distribuzione di frequenza
Quanti sono i maschi nel gruppo di individui che sto esaminando?
Come si distribuisce il BMI (Body Mass Index) nella popolazione che sto esaminando?
Devo estrarre dalla mia matrice dei dati
LA DISTRIBUZIONE DI FREQUENZA
delle variabili che mi interessano
Totale diapositive 146
Distribuzione di frequenza del sesso in una popolazione di 185 pazienti con AIDS diagnosticati tra Ottobre 1996 –30 Aprile 1997 nel Lazio
Sesso frequenza = n
Maschi 135Femmine 50Totale 185
Lazio
Sesso frequenza = n
Maschi 250Femmine 118Totale 368
Toscana
Frequenza relativa (%)
73 27100
Frequenza relativa (%)
68 32100
Distribuzione di frequenza
Totale diapositive 146
Frequenza semplice (n): numero di volte in cui i valori di una specifica variabile sono stati osservati (= 135 maschi)
Frequenza relativa o percentuale:
= f
(135/185) * 100 =
n
N* 100 = f %
n
N
frequenza percentuale di maschi nella popolazione di pazienti con AIDS Lazio
Distribuzione di frequenza
Totale diapositive 146
Distribuzione per classi di età delle donne ricoverate per intervento chirurgico sulla mammella nel 1997 nel Lazio
✓Distribuzione di frequenza cumulata: somma delle frequenze relative all’aumentare dei valori della variabile
età in classi
Frequenza
% % valid
a
% cumulat
a<40
2 0,05
0,05
0,05
40-49
1068
27,50
27,57
27,62
50-69
1813
46,69
46,80
74,42
70-79
990
25,50
25,55
99,97
>=79
1 0,03
0,03
100,00
Totale casi validi
3874
99,8
100,0
Mancante di sistema
9 0,2
Totale
3883
100,0
Totale diapositive 146
MISURE DI - TENDENZA CENTRALE - DI DISPERSIONE
MISURE TENDENZA CENTRALE MISURE DISPERSIONE
Inrorno a quali valori i dati si concentrano
Quanto i dati differiscono tra loro
Totale diapositive 146
1.4 Statistica descrittiva: misure di tendenza centrale
Totale diapositive 146
Misure di -tendenza centrale - di dispersione
A cosa servono?
Sintetizzare Descrivere
Totale diapositive 146
Misure di tendenza centrale
La prima condizione che vincola la scelta del tipo di misura è rappresentato dal tipo di variabile in cui è espresso il carattere
rilevato.
modamedia
mediana
Totale diapositive 146
moda
Definizione: è la modalità che presenta la frequenza assoluta più
alta. E’ in pratica il valore osservato più comunemente.
La moda può essere calcolata per qualsiasi tipo di dati.
Totale diapositive 146
moda: esempio 1
Numero di figliper famiglia
Frequenzadi famiglie
Frequenzacumulata
0 50
501 12
01702 20
03703 4
04104 2
04305-
75 43
5
Totale diapositive 146
mediana
• Definizione: è il valore che, in una serie ordinata di modalità, occupa il posto centrale, cioè ripartisce le osservazioni in due gruppi di uguale numerosità; il 50% delle osservazioni è inferiore alla mediana, il 50% superiore.
• Può essere calcolata per variabili le cui modalità possano essere ordinabili.
Totale diapositive 146
mediana
• Se si dispongono le osservazioni in ordine crescente o decrescente, l’osservazione di mezzo è la mediana. Se il numero delle osservazioni, n, è dispari vi sarà un unico valore di mediana :
• se n è pari, non esiste una osservazione centrale e la mediana si definisce per convenzione come la media delle due osservazioni centrali:
5, 15, 20, 25, 45, 60, 89,
la mediana è 25.
5, 15, 20, 25, 45, 60, 70, 89
la mediana è (25+45)/2=35.
Totale diapositive 146
mediana: esempio 1
L’osservazione centrale è data da (435+1)/2=218 che appartiene alla modalità ‘numero di figli’=2. Quindi la mediana è 2.
Numero di figliper famiglia
Frequenzadi famiglie
Frequenzacumulata
0 50
501 12
01702 20
03703 4
04104 2
04305-
75 43
5
11,539,185,194,398,9100,0
Frequenza %cumulata
Totale diapositive 146
Frequenze cumulative, mediana e centili
Questo tracciato è utile per determinare graficamente i centili (o percentili) di una distribuzione.
Totale diapositive 146
Per PERCENTILE o CENTILE si intende il livello di misura al di sotto del quale cade una determinata percentuale della distribuzione
Nell'esempio, il 25° percentile corrisponde a 58.8 cm circa, il 50° a poco meno di 61 cm ed il 75° a 63.3 cm circa.
Ciò significa che il 25% dei nostri bracchi era più basso di 58.8 cm, il 50% era più basso di 61 cm ecc.
Per esempio, il 90% dei bracchi è più basso di 65 cm, e quindi un cane alto 65 cm cadrà nel "90esimo percentile". Il 25° percentile è detto anche "primo quartile" in quanto raccoglie il primo quarto della popolazione; analogamente, il 75° percentile è detto anche "terzo quartile". Il 50° percentile, detto anche mediana, è un indice di tendenza centrale fra i più importanti, e la sua applicazione pratica verrà accennata in seguito.
Se i dati sono ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti, tenendo presente che la mediana è quel valore che lascia alla sua sinistra e alla sua destra un numero uguale di unità, allora:n+1/2
Totale diapositive 146
Definizione: è la somma dei valori osservati divisa per il numero delle osservazioni
• per tabelle di dati
media aritmetica
soggetti numero di esami
1 32 43 64 25 16 2
Il numero medio di esami è dato da:
3+4+6+2+1+2 = 3
6
Totale diapositive 146
media aritmetica
-Per tabelle di frequenza
Il numero medio di figli è dato da:
Numero difigli
perfamiglia
Frequenzadi famiglie
0 501 1202 2003 404 205-
75 81
435
78043
5
120
150
0 ,.....medi
a==
++×+×=
Totale diapositive 146
Scegliere la statistica descrittiva appropriata
La scelta dipende dalla distribuzione dei dati
• Gruppo a: 11,12,13,13,14,15; media=13• Gruppo b: 11,12,13,13,14,25; media=17 mediana=
13La media è condizionata dagli estremi
Totale diapositive 146
MEDIA
Si calcola sommando tutti i valori della osservazione e dividendo per il numero dei valori
Facile da calcolare e si utilizza quando non abbiamo grossa dispersione dei dati
degenze in ospedale per una certa patologia
5;5;5;7;10;20;102 sono i giorni
Media = 154/7= 22
Il risultato è atipico poiche le degenze di 22 giorni si verificano molto raramente
In questo caso è piu informativa la mediana (quadro piu reale)
MEDIANA
Corrisponde al valore centrale quando i valori sono ordinati in modo crescente
½ (n+1)esima della serie ordinata
Se n è pari non esiste un valore centrale e la mediana è la media aritmetica dei due valori centrali
Totale diapositive 146
Abbiamo 7 osservazioni mediana ½ (n+1)= ½ 7+1= 4
La mediana sarà la quarta osservazione ovvero 7 (una volta ordinate in ordine crescente)
MODA
È il valore chi si verifica piu frequentemente (massima frequenza)
Totale diapositive 146
La moda è utilizzata raramente come misura descrittiva
In questo caso sarebbe 5 (il valore piu frequente)
MEDIA PESATA
È utile quando alcuni valori del set di osservazioni sono piu importanti di altri
1) Quando alcuni valori sono misurati piu precisamente di altri
2) Quando due o piu medie (o proporzioni) si uniscono insieme
temperature medie giornaliere all’interno di una sala ospedaliera in diversi giorni della settimana
Giorni lavorativi: 22,23,21,21,20 media 107/5=21,4°C
Fine settimana 17,15 media 32 /2=16°C
La media di tutte le temperature per i 7 giorni non è 21,4+16/2= 18,7°C
Totale diapositive 146
Perchè 21,4 è basato su 5 osservazioni mentre 16 solo su 2 osservazioni
Se vogliamo unire le due medie è necessario dare piu peso al valore 21,4 che al valore 16
La media per tutti e sette i giorni
(5 x 21,4 + 2 x 32) /5+2= 139 / 7 = 19,8°C
Questa è la media pesata perchè alla media del gruppo con piu osservazioni viene dato un peso maggiore
Abbiamo 5 pesi per i giorni lavorativi e 2 per il gruppo fine settimana
La formula di una media pesata è:
Xw= Σ WY/ Σ W
W= peso associato all’osservazione y
Se i pesi sono tutti uguali a media pesata è = alla media aritmetica
Totale diapositive 146
Riassumendo:
• I dati numerici (quantitativi) possono essere sinteticamente descritti da media e mediana
• La mediana è consigliabile quando la media è poco rappresentativa (presenza di dati troncati oppure presenza di “outliers”)
Totale diapositive 146
Altre misure: i quartili
il valore al di sotto del quale cade un quarto delle osservazioni ordinate si chiame quartile inferiore o primo quartile; il valore che è superato da un quarto delle osservazioni si chiama quartile superiore o terzo quartile. La distanza tra di essi è detta distanza interquartile. La mediana è definita come il secondo quartile
50% delle osservazioni
25% delle osservazioni
1°
2° =mediana 3
°25% delle osservazioni
0,23,23,24 …… …34,35,……77,77,78,101
Totale diapositive 146
percentili
se anziché dividere i dati in 4 parti, si dividono in 100 parti, si ottengono i percentili. Ad esempio, il 5-esimo percentile è il valore al di sotto del quale cade il 5% delle osservazioni. Così il primo quartile corrisponde al 25-esimo percentile.
5% delle osservazioni
1° quartile = 25° percentile
Totale diapositive 146
PERCENTILI
Se la distribuzione cumulativa delle frequenze relative è calcolata per una variabile y
➢ il valore che separa l’ 1% delle osservazioni è il primo percentile
➢ il valore che divide il 2% delle osservazioni è il secondo percentile e cosi via
QUARTILI
Normalmente utilizziamo I valori che separano i dati in 4 gruppi di uguale grandezza
➢ 25esimo percentile chiamato 1° Quartile
➢50esimo percentile chiamato 2° Quartile
➢75esimo percentile chiamato 3° Quartile
La differenza tra tra il 25esimo e il 75esimo quartile è la distanza interquartile e contiene il 50% centrale delle osservazioni
Il 50esimo percentile è la mediana
La rappresentazione grafica dei 5 numeri è il “ box and whisker plot”
È da l’idea della grandezza totale e della variabilità
La mediana è il valore che divide i dati in due metà col 50% delle osservazioni in ciascuna metà
Totale diapositive 146
Box-plotDa Wikipedia, l'enciclopedia libera.In statistica il box-plot, detto anche box and whiskers plot (diagramma a scatola e baffi) o semplicemente boxplot, è una rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite semplici indici di dispersione e di posizione.Viene rappresentato (orientato orizzontalmente o verticalmente) tramite un rettangolo diviso in due parti, da cui escono due segmenti. Il rettangolo (la "scatola") è delimitato dal primo e dal terzo quartile, q1/4 e q3/4, e diviso al suo interno dalla mediana, q1/2. I segmenti (i "baffi") sono delimitati dal minimo e dal massimo dei valori.In questo modo vengono rappresentati graficamente i quattro intervalli ugualmente popolati delimitati dai quartili.
Totale diapositive 146
Se le due metà sono di nuovo divise in due metà per ottenere la mediana di ciascuna metà abbiamo il 25esimo e il 75esimo quartile
Possiamo indicare con Ymin il valore piu piccolo e con Ymax il valore pi grande
Questi 5 valori Ymin Ymax 25esimo 50esimo e 75esimo sono I numeri usati nel “ box and whisker plot”
La parte della scatola a destra della mediana e il suo baffo sono piu lunghi la misura è asimmetrica a destra
Totale diapositive 146
Percentili: box and whisker plot
25°
75°
97½°
2½°
Totale diapositive 146
Supponiamo di avere due popolazioni con lo stesso numero di individui che vogliamo confrontare e che troviamo uguale media e uguale deviazione standard concludiamo che sono uguali
ma i dati grezzi ci fanno notare come in un caso ho valori out-liers
ossia vicini ai valori estremi
quindi ho due differenti distribuzioni e una delle due è assimmetrica in questo caso media e SD ci danno una visione errata dello stato di cose e quindi pur potendo calcolare media e SD queste misure non mi riassumono in questo caso la distribuzione dei miei valori
Totale diapositive 146
Un approccio alternativo è:
manipolare matematicamente la distribuzione e “normalizzarla”
usare la mediana ossia il valore rispetto al quale metà dei valori della popolazione risulatano superiori e l’altra inferiori
inoltre per la misura della dispersine si riporta il valore che che separa il 25% inferiore della popolazione dal resto e il valore che separa il 25% superiore dal rimanente 75%
calcolare i percentili è buon sistema per valutare quanto una popolazione si ad atti ad una distribuzione normale
se i valori percentili non sono troppo diversi da quelli attesi sulla base di media e deviazione standard allora la distribuzione normale rappresenta bene la popolazione reale dei dati
Totale diapositive 146 *
Gli Indici di VARIABILITA’
- Campo di variazione- Scarto dalla media- Varianza- Scarto quadratico medio- Coefficiente di variazione
Elementi di Statistica descrittiva
Totale diapositive 146
Indici di Variabilità
I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico
Hanno però il limite di non darci alcuna informazione sulla distribuzione dei dati
Totale diapositive 146
Esempio
In tre differenti prove di matematica 4 studenti hanno riportato le seguenti valutazioni
In tutte e tre le prove la media è 6,25
ma i dati sono chiaramente distribuiti in modo diverso
Totale diapositive 146
Diagramma di distribuzione delle tre prove
Totale diapositive 146
• nel caso della 1a prova e 2a prova sarà
opportuno fare un recupero per alcuni studenti
• nel caso della 3a prova l’insegnante può ritenere che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente
Totale diapositive 146
• Campo di variazione (Range)• Scarto medio dalla media• Varianza e scarto quadratico medio• Coefficiente di variazione
In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
Totale diapositive 146
Campo variazione = x max – x min
Campo di variazioneE’ il più semplice degli indici di variazione:
Si calcola facendo la differenza tra il dato più grande e il dato più piccolo
Rappresenta l’ampiezza dell’intervallo dei dati
Totale diapositive 146
Esempio
Consideriamo le valutazioni della prima prova
Xmax = 9;
Xmin = 3 Range = 9 – 3 = 6
Totale diapositive 146 Totale diapositive 168
Calcoliamo il Range per tutte le tre prove
Range 1a prova = 6 ⇒ dati più dispersi,
risultati più eterogenei
Range 3a prova = 1 ⇒ dati più concentrati,
risultati più omogenei
Range 2a prova = Range 1a prova = 6
Stessa Distribuzione?
Totale diapositive 146
Vediamo graficamente
Totale diapositive 146
Osservazioni:
1. Il campo di variazione dà informazioni sulla distribuzione dei dati:
• più R è piccolo più i dati sono concentrati;
• più R è grande più i dati sono dispersi.
2. R è espresso nella stessa unità di misura dei dati
3. Tuttavia R tiene conto solo dei dati estremi della distribuzione e non di tutti i dati, pertanto
distribuzioni diverse ma con gli stessi valori
estremi hanno range uguali Es. Range 1aprova = Range 2a prova.
ma distribuzione 1a prova ≠ Distribuzione 2a prova
Totale diapositive 146
Scarto medio dalla media aritmeticaUn altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze
Scarto medio = Distanza media dei dati dalla media
Totale diapositive 146
Esempio
Consideriamo le valutazioni della prima prova
⏐Δx1⏐ = ⏐ 3 – 6,25 ⏐ = 3,25; Δ⏐ x2⏐ = ⏐ 5 – 6,25 ⏐ = 1,25;⏐Δx3⏐ = ⏐ 8 – 6,25 ⏐ = 1,75; Δ⏐ x4⏐ = ⏐ 9 – 6,25 ⏐ = 2,75;
Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25
4
Totale diapositive 146 Totale diapositive 168
Calcoliamo lo Scarto medio per tutte le tre prove
Scarto 1a prova = 2,25 ⇒ dati più dispersi,
risultati più eterogenei
Scarto 3a prova = 0,38 ⇒dati più concentrati,
risultati più omogenei
Scarto 2a pr. ≠ Scarto 1a pr.“Le Distribuzioni Differiscono”
Totale diapositive 146
Diagramma degli scarti dalla media
Totale diapositive 146
Osservazioni:
1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati:
• più SM è piccolo più i dati sono concentrati;
• più SM è grande più i dati sono dispersi.
2. SM è espresso nella stessa unità di misura dei
dati
3. Non ha l'inconveniente del “Campo di variazione”
In quanto SM tiene conto di tutti i dati della
distribuzione
Totale diapositive 146
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati.Varianza
Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M
Totale diapositive 146
Totale diapositive 146
Esempio - Varianza
Consideriamo le valutazioni della prima prova
(Δx1)2 = (3 – 6,25 )2 = 10,5625; (Δx2)2 = (5 – 6,25 )2 = 1,5625;
(Δx3)2 = (8 – 6,25 )2 = 3,0625; (Δx4)2 = (9 – 6,25 )2 = 7,5625;
σ2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875
4
Totale diapositive 146
Calcoliamo la Varianza per tutte le tre prove
Varianza 1aprova = 5,69 ⇒ dati più dispersi,
risultati più eterogenei
Varianza 3a prova = 0,19 ⇒ dati più concentrati,
risultati più omogenei
Varianza 2a pr. ≠ Varianza 1a pr “Le Distribuzioni Differiscono”
Totale diapositive 146
Scarto quadratico medio o Deviazione standard
È uguale alla radice quadrata della varianza
Totale diapositive 146
Esempio - Scarto quadratico medio
Riprendiamo le valutazioni della prima prova
Totale diapositive 146
Calcoliamo lo Scarto quadratico medio per tutte le prove
Scarto q. 1aprova = 2,38 ⇒ dati più dispersi,
risultati più eterogenei
Scarto q. 3aprova = 0,43 ⇒ dati più concentrati,
risultati più omogenei
Scarto q. 2a pr. ≠ Scarto q. 1a pr “Le Distribuzioni Differiscono”
Totale diapositive 146
Osservazioni:
1. La varianza σ2 e lo scarto quadratico medio σ
danno
informazioni sulla distribuzione dei dati:
• più σ2 e σ sono piccoli più i dati sono concentrati;
• più σ2 e σ sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati della distribuzione
Totale diapositive 146
3. Entrambi si basano sulla proprietà della media per
cui
la somma dei quadrati degli scarti dalla media è
minima
4. La varianza è espressa mediante il quadrato
dell’unità
di misura dei dati
5. Lo scarto quadratico nella stessa unità di misura
dei
dati e pertanto viene preferito alla varianza
Totale diapositive 146 Totale diapositive 146
Il coefficiente di variazione CV
Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale.
E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).
Totale diapositive 146
Se i valori di CV sono esterni a quelli indicati o si è in presenza di errori di rilevazione, oppure il fenomeno presenta aspetti particolari.
• se CV è molto basso (2 – 3 %) bisogna sospettare l’esistenza di fattori limitanti la variabilità,
• se CV è molto alto (intorno al 40% o più) è molto probabile l’esistenza di fattori che aumentano la
variabilità
In natura il coeff. di variazione tende a rimanere costante per ogni fenomeno: i valori normalmente variano dal 5% al 15%
Totale diapositive 146 Totale diapositive 168
Calcoliamo il Coeff. di variazione delle tre prove
CV 1a prova = 38,16% ⇒ dati più dispersi,
risultati più eterogenei
CV 3a prova = 6,93% ⇒ dati più concentrati,
risultati più omogenei
CV 2a pr. ≠ CV 1a pr ⇒ “Le Distribuzioni Differiscono”
Totale diapositive 146
Un esempio: la distribuzione normale
Totale diapositive 146
Le misure di Forma
Sono indici sintetici utilizzati per evidenziare particolarità nella forma della distribuzione.
Noi esamineremo:
• l’asimmetria
• la curtosi
Totale diapositive 146
Asimmetria
Una distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetria
In una distribuzione simmetrica media, mediana e moda sono coincidenti.
media = mediana = moda
In una distribuzione asimmetrica media, mediana e moda non sono più coincidenti
e proprio la differenza (distanza) tra la media e la moda può essere considerata una misura della asimmetria
Totale diapositive 146
Un altro coeff di asimmetria è il Coeff. di asimmetria (di Fisher)
σ = scarto quadratico medio
Se a = 0 distribuzione simmetrica
Se a > 0 asimmetria destra
Se a < 0 asimmetria sinistra
Sono state proposte diverse misure dell’ asimmetria, per esempio le più semplici sono:
Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson
Totale diapositive 146
moda < mediana < media
Asimmetria positiva (as. Destra)
La distribuzione è asimmetrica quando non presenta nessun asse di simmetria.Si ha un’asimmetria positiva o destra quando il ramo destro della curva è più lungo di quello sinistro
In questo caso si ha:
media=63,65moda = 48mediana =58
Totale diapositive 146
media < mediana < moda
Asimmetria negativa (as. Sinistra)
Si ha un’asimmetria negativa o sinistra quando il ramo sinistro della curva è più lungo di quello destro
In questo caso si ha:
media = 85,24
moda = 100
mediana = 90
Totale diapositive 146
Curtosi
Se una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss)
Se la curva è
• più appuntita si dice curva Leptocurtica
• più appiattita si dice curva Platicurtica
Coeff. di curtosi di Pearsonσ σ = scarto quadratico medio 0 ≤ K < + infSe K = 3 distribuzione normalese K > 3 curva leptocurticaSe K < 3 curva platicurtica.
Totale diapositive 146 Totale diapositive 168
Curtosi
leptocurtosi K = 8,57
platicurtosi K = 2,8
curva normale K = 3
Totale diapositive 146
Curtosi
Spesso il coeff. di curtosi viene indicato con b2 che, come visto, nel caso della distribuzione normale è = 3
pertanto, talvolta, la curtosi viene indicata con (b2 – 3)
Allora:
se la distribuzione è normale (b2 – 3 ) = 0
se la distribuzione è leptocurtica (b2 – 3 ) > 0
se la distribuzione è platicurtica (b2 – 3 ) < 0
Totale diapositive 146
Totale diapositive 146
media=3
media=3
media=3
Misure di dispersione
Totale diapositive 146
Misure di dispersione
Sono necessari degli indicatori che sintetizzano queste diverse situazioni.
•Campo di variazione (Range)•deviazione standard•varianza
Totale diapositive 146
Campo di variazione
Chiamato anche RANGEE’ definito come la differenza tra il più grande ed il più piccolo valore osservato.
Range = max - min
Totale diapositive 146
Deviazioni dalla media: graficamente
= MEDIA
Totale diapositive 146
Varianza
è definita come il quadrato della deviazione standard, cioè:
( )21
2
SDn
media
xvarianza
n
i i =−
=∑ =
Totale diapositive 146
è definito come la radice quadrata della somma dei quadrati delle differenze delle
osservazioni dalla loro media, cioè:
Deviazione standard
( )n
media
xSD
n
i i∑ =−
= 1
2
Totale diapositive 146
media=3
media=3
media=3
Misure di dispersione
Totale diapositive 146
Numero di giorni di vacanza al mese
Soggetto
Situazione 1
Situazione 2
Situazione 3
1 3 1 1
8
2 3 2 0 3 3 0 0 4 3 4 0 5 3 5 0 6 3 6 0 Media
3 3 3 Dev.std
0 2,4
7,4
Maggiore è la variabilità in un insieme di dati, più grande è la sua deviazione standard.
Deviazione standard: esempio 1
Totale diapositive 146
coefficiente di variazione
Definizione: è definito come rapporto tra la deviazione standard e la media.
E’ utile per confrontare la variabilità di fenomeni tra di loro diversi per l’unità di misura in cui sono espressi (ad esempio variabilità della statura e
del peso corporeo)
xSDC
V=
Totale diapositive 146
Coefficiente di variazione: esempio
Altezza nella popolazione maschile A:media= 175 cm SD = 15 cm
Peso nella popolazione maschile A:media= 74 Kg SD = 10 Kg
CV_altezza= 15/175 =8,5%CV_peso= 10/74 =13,5%
Totale diapositive 146
VARIANZA E DEVIAZIONE STANDARD
La varianza misura la variabilità e si basa sulla differenza tra ogni osservazione e la media
Supponiamo una popolazione di N individui a cui misuriamo la temperatura T
Se la media di T è M la differenza tra I valori di T e la media sono
T1-M,T2-M,T3-M e cosi via
Se tra questi valori ci sono grandi deviazioni la variabilità attorno alla media è grande
Se le deviazioni sono piccole le osservazioni sono distribuite vicino alla media e la variabilità è piccola
Queste differenze sono la chiave per misurare la variabilità in modo efficiente
Il valore medio delle deviazioni non puo essere usato come misura della variabilità poiche le differenze positive devono essere cancellate esattamente dalle differenze negative
Totale diapositive 146
Quindi la Σ(T-M) deve essere zero e anche la media delle deviazioni deve essere zero
Per superare il problema delle deviazioni negative che cancellano le positive basta elevare al quadrato le deviazioni
Il valore medio dei quadrati delle deviazioni viene chiamamto varianza della popolazione
In una popolazione di N individui ognuno associato ad un valore di temperatura T la media della popolazione
M= Σ T / N
La varianza nella popolazione
V = Σ(T-M)2/N
In realtà la varianza non è molto usata poiché i dati per il totale della popolazione possono non essere disponibili
In questo caso si prende dalla popolazione un campione di t osservazioni
La media m = Σt/n è la stima della M media della popolazione totale
Totale diapositive 146
In questo caso avremo
S2 = Σ (t-m) 2/(n-1)
Che ci da la stima CAMPIONARIA della varianza nella popolazione
Qui la somma dei quadrati è divisa per n-1 non solo per n
Questo perche in un campione la media di (t-m)2 sarà piu’ piccola del valore (T-M) della popolazione tutta e quindi
Σ (t-m)2 /n
Sarà una sottostima della varianza della popolazione
Se divido per n-1 invece che per n rimuovo questo BIAS dalla stima campionaria
Il denominatore n-1 sono i Gradi di Libertà
Questi possono essere pensati come il numero di confronti indipendenti di t con m quindi se n-1 delle differenze t-m sono note possiamo determinare l’ultima differenza poiché la somma di tutte le differenze deve essere zero
Totale diapositive 146
Il principale svantaggio della varianza è che l’unità di misura della varianza equivale al quadrato dell’unità di misura delle osservazioni originarie
Per cui se le osservazioni riguardano l’altezza in cm la varianza avra come unita di misura i cm2
Per evitare questo si usa la radice quadrata della varianza come misura della variabilità
SD ( deviazione standard)
S = √Σ (t-m)2 / (n-1)
La deviazione standard è una misura descrittiva della variabilità
È una deviazione media delle osservazione dalla media nel senso che alcune deviazioni saranno maggiori e altre minori
A condizione che n non sia troppo piccolo l’intervallo m+- 2s dovrebbe includere il 95% di tutte le osservazioni del campione
Totale diapositive 146
Di solito la calcola un computer
Nel caso di un calcolo a mano basta ricordare che il numeratore puo essere sviluppato come:
Σ (t-m)2 = Σt2 - (Σm)2 /n
Durata degenza in ospedale
y: 5 5 5 7 10 20 102; Σy= 154
y2 25, 25, 25, 49, 100, 400, 10404 Σy2 = 11028
Il numeratore della varianza è √Σ (t-m)2 = Σt2 - (Σm)2 /n= 11028-1542 /7= 7640
s2 = 7640/6= 1273,3
s= √1273,3= 35,68 giorni
Totale diapositive 146
L’intervallo m+- 2s
Sarà 22+- 71
Ovvero da -49 a 93 che esclude una sola osservazione tra le sette rilevate invece del 5%
INTERVALLO DI NORMALITA’
L’intervallo media +-2DS che contiene circa il 95% delle osservazioni è l’intervallo di normalità di una variabile
L’uso della parola NORMALE è infelice poichè gli individui che danno l’informazione per la variabile non sono necessariamente normali “sani” e allostesso modo
Una persona con valori al di fuori di questo intervallo non necessariamente è malata
Se la distribuzione è simmetrica l'intervallo di normalità include il valore centrale del 95% dei valori con il 47,5% dei valori inferiori a m-2DS e il 47,5% dei valori superiori a m+2DS
Totale diapositive 146
Totale diapositive 146
Totale diapositive 146
Totale diapositive 146 Totale diapositive 168
Statistica descrittiva - Grafici
Totale diapositive 146 Totale diapositive 168
Istogramma
Totale diapositive 146 Totale diapositive 168
Grafico a torta
Totale diapositive 146 Totale diapositive 168
Grafici da evitare
Totale diapositive 146 Totale diapositive 168
Grafici da evitare
Totale diapositive 146 Totale diapositive 168
Grafici da evitare
Totale diapositive 146 Totale diapositive 168
dove siamo arrivati?
Totale diapositive 146
Statistica inferenziale
Ovvero, come descrivere la popolazione partendo da un campione
Totale diapositive 146 Totale diapositive 168
Statistica inferenziale
Quando:• Non possiamo o non vogliamo misurare
tutta la popolazione• Vogliamo comunque descriverla• Vogliamo avere una stima degli indici
visti fino ad ora, ma entra in gioco l’Incertezza e quindi la probabilità:
Probabilità = 0 ... 1 = 0% …100%
Totale diapositive 146 Totale diapositive 168
Principi di inferenza statistica
• La distribuzione normale• La distribuzione campionaria• Deviazione standard e errore
standard• Intervalli di confidenza• Test di ipotesi (P-value)
Totale diapositive 146
Sommario
Distribuzione Normale o di Gauss:•Rappresentazione matematica•integrali•valor medio•Stima della varianza•Somma in quadratura
Totale diapositive 146
Distribuzione Normale o di Gauss In teoria della probabilità la
distribuzione normale, o di Gauss (o gaussiana) dal nome del matematico tedesco Carl Friederich Gauss, è una distribuzione di probabilità continua che è spesso usata come prima approssimazione per descrivere variabili casuali a valori reali che tendono a concentrarsi attorno a un singolo valor medio. Il grafico della funzione di densità di probabilità associata è simmetrico e ha una forma a campana, nota come Campana di Gauss (o anche come curva degli errori, curva a campana, ogiva).
Totale diapositive 146
Distribuzione Normale o di Gauss
Valore vero di una grandezza: quello a cui ci si avvicina sempre più facendo un gran numero di misure (vedi esempi dei dadi).
Se le misure sono soggette ad errori casuali “piccoli” e posso trascurare gli errori sistematici, la loro distribuzione può assumere la forma di una campana centrata sul valore più probabile, in altre parole da funzione di distribuzione di probabilità che meglio approssima la mia distribuzione di
dati può essere la funzione di Gauss:
Totale diapositive 146
Distribuzione NormaleLa curva è centrata sul valore x=m ed incorrispondenza diesso assume il valore
La funzione è normalizzataposso partire dalla distribuzione
e trovare il coefficiente di normalizzazione dalla condizione
Totale diapositive 146
Distribuzione Normale
• Teorema del limite centraleLe medie di campioni di dimensioni nsufficientemente grandi estratti da una popolazionecomunque distribuita, seguono la legge di distribuzione normale con media m e varianza σ2/n.Da questo si deduce immediatamente l’importanza di studiare la distribuzione normale o gaussianaIl teorema si può utilizzare anche nel limite dellasomma di un numero relativamente piccolo divariabili, dell’ordine della decina.
Totale diapositive 146
Distribuzione Normale• Integrali della funzioneL’integrale della funzione di Gauss non è risolvibile matematicamente, ma attraverso metodi numerici. La probabilità che una variabile aleatoria cada in un
intervallo centrato su m (valor medio) di larghezza σ è data da:
Totale diapositive 146
Distribuzione Normale• Integrali della funzioneNel grafico si vede la probabilità che la mia variabile
aleatoria cada in un intervallo di larghezza tσcentrato sempre sul valo medio m
Questo corrisponde ad un• limite di confidenza del 68,27% tσ=1, • limite di confidenza del 95,40% tσ=2,• limite di confidenza del 99,70% tσ=3 etc.
Totale diapositive 146
Distribuzione Normale• Integrali della funzioneRicapitolando:Probabilità che le misure siano comprese tra 1. m – 1σ e m+ 1σ 68,27%2. m – 2σ e m+ 2σ 95,45%3. m –3σ e m+ 3σ 99,73%
Totale diapositive 146
Distribuzione Normale• Distribuzione standardizzataEseguendo la sostituzione X=(x – m)/σ riduco alla stessa forma tutte le distribuzioni normali, rendendo m=0 il valor medio (distribuzione centrata nello zero)e prendo σ come unità di misura, ovvero ho una distribuzione con σ=1Gli scarti x – m diventano scarti ridotti (x – m)/σ e la probabilità sarà
Totale diapositive 146
Distribuzione Normale
• Media come migliore stimaLa stima migliore per σ si ottiene derivando rispetto
a σ e ponendo la derivata uguale a zero, quindi
O sostituendo il valor medio al valore vero
Totale diapositive 146 Totale diapositive 168
La distribuzione normale
Fonti di variazione sono presenti in ogni misurazione.
Tale variabilità non è del tutto imprevedibile: infatti molti fenomeni seguono una distribuzione normale.
Questo modello è utile in quanto possiamo impiegarlo conoscendo soltanto la media e la deviazione standard
Totale diapositive 146 Totale diapositive 168
50% 50%
Proprietà della Distribuzione Normale
media
Totale diapositive 146 Totale diapositive 168
+2SD
95%
-2SD
2.5%
2.5%
Proprietà della Distribuzione Normale
Totale diapositive 146 Totale diapositive 168
-1SD +1SD
16%
16%
68%
Proprietà della Distribuzione Normale
Totale diapositive 146 Totale diapositive 168
Si dimostra che:
media ± deviazione standardcomprende il 68% circa dei dati
media ± 2 deviazione standard
comprende il 95% dei dati
media ± 3 deviazione standardcomprende pressoché tutti i dati (99.7%)
Proprietà della Distribuzione Normale
Totale diapositive 146 Totale diapositive 168
Distribuzione campionaria
E’ la distribuzione di frequenza di tutte le medie campionarie ottenute da tutti i possibili campioni della stessa grandezza estratti dalla popolazione in studio
Totale diapositive 146 Totale diapositive 168
Distribuzione della media campionaria
µ
σ
Popolazione
I campioni estraibili sono infiniti, quindi infinite medie campionarie
Totale diapositive 146 Totale diapositive 168
Numerosità campionaria eErrore di campionamento
All’aumentare della numerosità del campione la media del campione tende ad avvicinarsi alla media
della popolazione. Pertanto, maggiore è la dimensione del campione, minore è l’errore
campionario insito nella stima della media della popolazione con la
media del campione
Totale diapositive 146 Totale diapositive 168
Distribuzione campionariaesempio n=10,
200 campioni
Totale diapositive 146 Totale diapositive 168
Distribuzione campionariaesempio n=40,
200 campioni
Totale diapositive 146 Totale diapositive 168
Distribuzione campionariaesempio n=100,
200 campioni
Totale diapositive 146 Totale diapositive 168
Media della“Media campionaria”
Per campioni di qualsiasi numerosità, la media di tutte le possibili medie campionarie è uguale alla media della popolazione:
Totale diapositive 146 Totale diapositive 168
Errore standard della“Media campionaria”
Per campioni di qualsiasi numerosità, l’errore standard di tutte le possibili medie campionarie è uguale alla deviazione standard della popolazione diviso la radice quadrata della numerosità n:
Totale diapositive 146 Totale diapositive 168
Variabilità di una stima campionariadeviazione standard misura la variabilità nella
popolazione
errore standard misura la precisione di una stima come la media campionaria
Totale diapositive 146 Totale diapositive 168
Teorema del limite centrale
➢Per un campione relativamente grande, la variabile media campionaria è approssimativamente distribuita in modo normale indipendentemente dalla distribuzione della variabile sotto studio
➢L’approssimazione diventa migliore al crescere della dimensione del campione
Totale diapositive 146 Totale diapositive 168
Distribuzione campionaria e distribuzione normale
Totale diapositive 146 Totale diapositive 168
Errore standard della“Media campionaria”
Tanto più grande è n, tanto più piccolo è l’errore standard e quindi i valori calcolati su tutti i possibili campioni sono più vicini alla media µ della popolazione
Totale diapositive 146 Totale diapositive 168
E’ possibile costruire un intervallo che, con una probabilità prefissata, contiene la vera media nella popolazione
Intervallo di Confidenzadella media campionaria
Totale diapositive 146 Totale diapositive 168
ERRORE STANDARD (ES) e INTERVALLI DI CONFIDENZA (IC)
➢ Serve per determinare quanto la media di un campione sia vicina alla media della popolazione generale
➢ E’ correlato all’errore standard in quanto non è altro che una deviazione standard riferita però alle medie campionarie e non alle osservazioni individuali
➢ Può fornire un’idea di quanto sia variabile una singola stima della media
Totale diapositive 146 Totale diapositive 168
CALCOLO INTERVALLO DI CONFIDENZA
Interpretazione: Intervallo di valori in cui si può essere sicuri al 95% che cadano le medie campionarie
Intervallo di probabilità al 95%= μ ± 2ES
+2ES
95%
-2ES
2.5%
2.5%
μ
Totale diapositive 146 Totale diapositive 168
Intervallo di Confidenzadella media campionaria
µ
Totale diapositive 146 Totale diapositive 168
CALCOLO INTERVALLO DI CONFIDENZA
Intervallo di probabilità al 95%= μ ± 2ES
Nota: In realtà μ e σ sono ignoti. Per il calcolo li sostituiamo con x e DS
Intervallo di confidenza al 95% (IC 95%) = x ± 2ESM
Totale diapositive 146 Totale diapositive 168
Intervallo di Confidenzadella media campionaria
La media campionaria è: 530La numerosità è: 10La variabilità è: 100Errore standard: 100/√10 = 31.62Limite inferiore = 530-1.96*31.62 = 468.02Limite superiore = 530+1.96*31.62 = 591.98Quindi l’intervallo di fiducia al 95% sarà:
468.02 ≤ μ ≤ 591.98