Alcune nozioni di Statistica - people.unica.it · La statistica è un insieme di metodi che servono...
Transcript of Alcune nozioni di Statistica - people.unica.it · La statistica è un insieme di metodi che servono...
Alcune nozioni di Statistica
La statistica è un insieme di metodi che servono a descrivere ed elaborare i dati relativi ad un determinato insieme di individui.
Tale insieme di individui è chiamato popolazione.
Per popolazione si intende quindi un gruppo di individui che è oggetto di osservazione e di studio.
Questi individui possono essere, per esempio, persone, animali, cellule, geni, batteri, ecc.
In particolare, uno degli obiettivi della statistica descrittiva èquello di descrivere una grande quantità di dati in maniera piùchiara e sintetica mediante
-Strumenti grafici
diagrammi, grafici, ecc.
- Strumenti matematici
numeri che forniscono una informazione sul comporta-mento della popolazione
Esempio
Supponiamo di voler effettuare una analisi statistica sui giudizi finali che gli studenti della Facoltà di Farmacia hanno assegnato al corso “Matematica e AbilitàInformatiche” …
In questo caso:
Popolazione = {studenti della Facoltà di Farmacia che anno seguito il corso di Matematica}
Quindi un insieme di 200 individui
Il numero di dati è piuttosto elevato …
… si pone quindi il problema di come descriverli
Un primo modo per schematizzare i dati èscriverli su una tabella:
5Studente n. 200
……
……
……
……
6Studente n. 2
4Studente n. 1
Giudizio (da 1 a 10)
È sufficiente tale tabella per descrivere con chiarezza il
giudizio degli studenti?
Quale è il giudizio dello “studente medio”?
Quanto vari sono stati i giudizi?
Innanzitutto riorganizziamo la nostra tabella per renderla piùleggibile …
Chiediamoci:
- quanti studenti hanno dato un giudizio di 1?- quanti studenti hanno dato un giudizio di 2?……- quanti studenti hanno dato un giudizio di 10?
Effettuiamo tale conteggio ed in tal modo costruiamo una nuova
tabella
210
39
208
257
256
405
254
303
202
101
FrequenzaVoto
Questa tabella si chiama tabella delle
frequenze
10 studenti hanno assegnato voto “1”
20 studenti hanno assegnato voto “2”
Questo modo di rappresentare i dati è già più chiaro e utile della tabella iniziale.
Per esempio, emerge chiaramente come i giudizi positivi siano abbastanza esigui.
C’è un modo ancor più chiaro per visualizzare tale tabella …
… rappresentarla mediante uno speciale grafico, chiamato istogramma
Si costruiscono 10 rettangoli – uno per ciascun voto – di altezza pari alla relativa frequenza
1 2 3 4 5 6 7 8 9 100
5
10
15
20
25
30
35
40
45
Voto
Fre
qu
en
za
Tale rappresentazione grafica dà un “colpo d’occhio” del
fenomeno oggetto di studio.
Tuttavia non risolve alcune esigenze di tipo “quantitativo”.
Per esempio non riesce a dare una risposta convincente a queste domande:
- qual è stato il giudizio dello “studente medio”?- c’è stato un miglioramento o un peggioramento rispetto agli anni precedenti?
Per rispondere a queste domande, i grafici da soli non bastano.
Si introducono quindi alcuni numeri che forniscono una informazioni quantitative sul fenomeno analizzato.
Tali indicatori si dividono in due categorie:
- indicatori di posizione
(media, mediana)
- indicatori di dispersione
(varianza, deviazione standard)
Media aritmetica
Dati n numeri x1, x2, …, xn (osser-vazioni della grandezza in esame), la loro media aritmetica è il nume-ro
∑=
=+++
=n
i
in x
nn
xxxx
1
21 1⋯
Esempio
Un malato si misura la febbre ogni 4 ore a partire dalle 7 di mattina fino alle 23, registrando i seguenti dati:
37,9°Ore 23
38,5°Ore 19
38,8°Ore 15
38°Ore 11
37,5°Ore 7Calcola la temperatura media.
In questo caso abbiamo che
x1 = 37,5x2 = 38x3 = 38,8x4 = 38,5x5 = 37,9
Pertanto
14,385
7,1905
9,375,388,38385,37==
++++=x
Tornando all’esempio dei giudizi degli studenti …
… come calcolare il “giudizio medio”?
Quando i dati sono forniti mediante una tabella delle frequenze
fkxk
……
f2x2
f1x1
frequenzadato allora la media aritmetica si calcola considerando ciascun dato xi con la rispettiva frequenza fi
∑
∑
=
==+++
+++=
k
i
i
k
i
ii
k
kk
f
xf
fff
xfxfxfx
1
1
21
2211
......
Parliamo di media ponderata
Siamo quindi finalmente in grado di calcolare il “giudizio medio” degli studenti.
210
39
208
257
256
405
254
303
202
101
FrequenzaVoto
Tenendo conto che, nel nostro caso, la tabella delle frequenze è data dalla tabella a sinistra, la media è data da:
9,4200972
23202525402530201010293820725625540425330220110
==
+++++++++
⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅
=x
La media aritmetica non èl’unico tipo di media.
Ci sono situazioni in cui la media aritmetica non è un
numero adatto per descrivere il comportamento medio di una
serie di dati.
Esempio
Una colonia di batteri consiste di 2,7·106 unità. Dopo un’ora vi è un aumento del 30% e dopo un’altra ora di un ulteriore 50%. Calcolare l’incremento medio.
Il numero iniziale di batteri èN0 = 2,7·106
Dopo un’ora èN1 = N0 + 30/100 N0 = 3,5·106
Dopo due ore èN2 = N1 + 50/100 N1 = 5,26·106
Ci aspettiamo che l’incremento medio è quella percentuale m%che, applicata successivamente
dopo un’ora e dopo due ore, porta allo stesso numero di batteri che abbiamo trovato
applicando prima un aumento del 30% e poi uno del 50%.
Proviamo ora a calcolare la media aritmetica dei due incrementi.
Il primo incremento è 1,3 (=1+30/100)
Il secondo è 1,5 (=1+50/100)
Quindi la media aritmetica degli incrementi sarà
(1,3 + 1,5) / 2 = 2,8 / 2 = 1,4
che corrisponde ad un aumento medio percentuale del 40%
Tuttavia, se proviamo ad applicare per due volte un
aumento del 40% al numero di batteri, otteniamo che …
Dopo un’ora i batteri sono:
N1 = N0 + 40/100 N0 = 1,4 N0 = 3,8·106
Dopo due ore
N2 = N1 + 40/100 N1 = 1,4 N1 = 5,29·106
I conti non tornano …
otteniamo più batteri applicando due volte un aumento del 40% rispetto ad applicare prima il
30% e poi il 50%
La media aritmetica non èadeguata per questa situazione.
Si utilizza un altro tipo di media, chiamata media geometrica.
Dati n numeri x1, x2, …, xn
positivi, la loro media geometrica è per definizione il
numero
nng xxxM ⋯21 ⋅=
Nell’esempio dei batteri avevamo trovato che- incremento dopo 1 ora = 1,3- incremento dopo 2 ore = 1,5La media geometrica degli incrementi èdunque
che corrisponde ad un aumento medio del 39,64%
3964,195,15,13,12 ==⋅=gM
Si può verificare che questo è il numero “giusto”.
Cioè, applicando due volte un aumento del 39,64% si ottiene
lo stesso numero di batteri finale.
La media geometrica si utilizza
- ogni qualvolta si vuole trovare la media degli incrementi- se i dati hanno una “progressione geometrica”
Una serie di numeri
x1, x2, …, xn
si dicono in progressione geometrica se il rapporto di due qualsiasi numeri consecutivi è
costante, cioè
costante1 =+
i
i
x
x
Per esempio
3, 6, 12, 24, 48
sono numeri in progressione geometrica, poiché il rapporto
tra due qualsiasi numeri consecutivi è sempre 2 (6/3,
12/6, 24/12, 48/24).
EsempioSi registrano i seguenti dati relativi alla concentrazione plasmatica di un farmaco assunto da un paziente
5160
6440
8020
1000
ConcentrazioneTempo (min.)
Si calcoli la media geometrica della concentrazione
Si ha che che
48,715164801004 =⋅⋅⋅=gM
Si noti che da
nng xxxM ⋯21=
segue
( ) ( )
( )
( ).logloglog1
log1
logloglog
21
21
1
2121
naaa
na
nna
nnaga
xxxn
xxxn
xxxxxxM
+++=
⋅=
⋅=⋅=
⋯
⋯
⋯⋯
Cioè il logaritmo della media geometria è la media aritmetica
dei logaritmi dei singoli dati.
Per ragioni dovute al fatto che la risposta ad uno stimolo non è
proporzionale allo stimolo stesso ma al suo logaritmo (legge di Weber), la media
geometrica trova applicazioni in farmacologia e in altri contesti.
Non deve allora stupire se nei foglietti illustrativi di alcuni farmaci si parla di “media
geometrica”…
Nel foglietto illustrativo della Ciprofloxacina è scritto …
«Concentrazioni plasmatiche massime di 1,42 mg/L (media
geometrica) vengono raggiunte da 1 a 4 ore dopo la somministrazione»
C’è infine un altro indicatore di centralità ….
… la mediana
La mediana è il valore Me che occupa la posizione centrale in
un insieme ordinato di dati.
Per calcolarla è necessario
1. Disporre i valori in ordine crescente numero totale n di dati.
2. Se il numero n di dati è dispari, la mediana corrisponde al valore numerico del dato centrale, quello che occupa la posizione (n+1)/2.
3.se il numero n di dati è pari, la mediana èla media aritmetica tra i dati che occupano la posizione n/2 e n/2+1.
Esempio
Viene testato un farmaco su un gruppo di 11 pazienti. La risposta del farmaco negli 11 pazienti è rappresentata dal tempo libero da malattia, espresso in mesi:
4 - 3,2 - 5 - 8 - 2 - 6 - 9 -4,3 - 6,6 - 7 - 8
Calcolare la mediana della risposta del farmaco.
4 - 3,2 - 5 - 8 - 2 - 6 - 9 -4,3 - 6,6 - 7 - 8.
Per prima cosa, mettiamo in ordine crescente i dati:
2 3,2 4 4,3 5 6 6,6 7 8 8 9
Me = 6, cioè è quel dato che divide esattamente a metà i dati (dopo che sono stati ordinati)
EsempioSupponiamo, nell’esempio precedente, di disporre dei dati relativi a 12 pazienti:4 - 3,2 - 5 - 8 - 2 - 6 - 9 -
4,3 - 6,6 - 7 - 8 - 7Si calcoli la mediana.
Disponiamo ancora una volta i dati in ordine crescente:
2 3,2 4 4,3 5 6 6,6 7 7 8 8 9
Poiché questa volta n = 12 = numero parisi ha
Me = (6 + 6,6) / 2 = 6,3
La caratteristica principale della mediana è che essa è poco o influenzata da dati anomali.
Si ricorre al suo uso quando si vuole attenuare l’effetto di valori
estremi.
EsempioSi calcoli la media aritmetica e la mediana della seguente serie di misure:2,5 - 1 - 3 - 14 - 4
media = (2,5 + 1 + 3 + 14 + 4) / 5 = 4,9 mediana = 3