Biostatistica(SECS-S/02 )
STATISTICA PER LA RICERCA SPERIMENTALE E
TECNOLOGICAIncontro 2
13 Ottobre 2011
Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12
Medie di potenze di ordine k
• A volte può essere interessante calcolare la media di variabili trasformate del tipo x2 , x3 , x1/2 o in generale xk,definite come :
.1
ki
kik pxM
• Per frequenze ni=1 la media di potenza di ordine k si definisce come:
.1
1
kkik x
nM
Il ricorso ad una particolare potenza delle variabili dipende in generale dalla funzione di invarianza individuate dalle somme
ik
i nx kix oppure
Media quadratica (momento di ordine 2)
• Esempio: Due piastre quadrate hanno lato x1=3 e x2=5 .Si desidera sostituirle con 2 piastre uguali che mantengono invariata la superficie totale (32+52=34 ).Il lato delle nuove piastre è
.2
3411 22
1
22
ii x
nx
nM
Media Geometrica (k→0)• È usata in campi come la microbiologia o sierologia ,quando le
osservazioni sono espresse in titoli ,i cui valori sono multipli dello stesso fattore di diluizione .
• Per n osservazioni la media geometrica è la radice n-esima del prodotto delle osservazioni :
)log(1
)log(
0
i
ni
xn
G
xGM
Media Geometrica(Esempio)
• Il numero di mosche presenti in una popolazione di laboratorio è costituita originariamente da 100 elementi,viene rilevato in 3 periodi successivi.
• Al primo conteggio le mosche sono 112 ,al secondo 196 ,al terzo 369.
• Qual è il tasso di incremento medio della popolazione ?• Gli incrementi osservati nei tre periodi sono:
88.1196
36975.1
112
19612.1
100
112
36954.1*54.1*54.1*100
54.1)1888.0log(
1888.05664.0*3
1)log(
3
1)log(
antiG
xG i
Il tasso di incremento medio della popolazione è del 54%
Media Armonica (k=-1)
• Adatto per valori espressi come rapporti X=Y/Z• La prima formula vale se Y è costante ,la
seconda ha valenza generale
i
i
i
in
xn
nM
x
n
nxxx
M
1
21
1 11...........
111
Esempio(Media Armonica)
• Una certa proteina viene studiata mediante elettroforesi;si vuol conoscere la velocità di migrazione media . La proteina viene fatta correre sul gel in un campo elettrico per 20mm e viene misurato il tempo necessario a percorrere questa distanza in 5 prove diverse.
Prova Tempo
(s)
Velocità
(mm/s)
1
2
3
4
5
40
60
30
50
70
250
20/40=0.05
20/60=0.33
20/30=0.66
20/50=0.40
20/70=0.29
2.186
Esempio(Media Armonica ) (2)
• La media aritmetica della velocità è 2.186/5=0.4372 è diversa dalla velocità media ; il totale del cammino percorso nelle 5 prove è (20*5)mm=100mm,mentre questa risulterebbe pari a 109.3mm=0.4372*250.
• Invece usando la media armonica la distanza risulta invariata!
mm
M
1004.0*250
4.0
29.01
40.01
66.01
33.01
5.01
51
Indici di dispersione
• Limite degli indici di tendenza centrale:l’informazione fornita dalla misura di tendenza centrale(moda,media,mediana) può risultare più o meno affidabile a seconda della dispersione dei dati e della forma della distribuzione :è molto buona se le osservazioni sono poco disperse e simmetriche generica se la variabilità è ampia .
• Il ‘Campo di variazione’ (range) offre una prima informazione sulla dispersione campionaria :è la differenza tra i valori estremi delle osservazioni. Indicando con x(1) il più piccolo e con x(n) il più grande di n valori osservati il range risulta :
)1()( xxW n • È poco affidabile perché
dipende fortemente dal numero di osservazioni e dai valori estremi
Tabella riassuntiva indici di tendenza centrale
Esempio:
Misura del quoziente d’intelligenza in due diversi campioni
80 90 100 110 120
0.0
0.1
0.2
0.3
0.4
x
1/s
qrt
(2 *
pi)
* e
xp
(-0
.5 *
(x -
10
0)^
2)
80 90 100 110 120
0.0
0.1
0.2
0.3
0.4
x
dn
orm
(x, 1
00
, 5
)
•In entrambe i casi la media è 100 ,ma mentre nella figura 1 il valor medio è molto rappresentativo della distribuzione ,nel secondo caso,dove i dati sono maggiormente dispersi il valor medio non rispecchia del tutto la distribuzione dei dati.
Indici di dispersione
Indici di dispersione(Sum of Squares e Varianza )
• Per operare confronti tra collettivi formati da un diverso numero di individui si utilizza la varianza :
Indici di dispersione
Standard Error (Errore quadratici Medio) e Coefficiente di Variazione(CV)
Esempio(Indici di dispersione)
Esempio2 (Concentrazione media di un fitofarmaco)
Esempio2 (Concentrazione media di un fitofarmaco)(2)
Trasformazioni lineari
• Sia nota la media μx e la varianza σ2x di una variabile X .
• Y=a+bX con a e b costanti arbitrarie .
• Definiamo il valore atteso E(X)= μx e V(X)= σ2x .
XY
XY
bbXVaVbXaVYV
babXEaEbXaEYE222 0)()()()(
)()()()(
• Il valor atteso (media ) è un operatore lineare • La varianza è un operatore quadratico
Tabella a doppia entrata(Esempio1)
Indipendentemente dal tipo di variabili in studio, quando si ha a che fare con un numero notevole di individui è possibile costruire delle tabelle di contingenza: si tratta di tabelle a due entrate nelle quali ogni numero rappresenta la frequenza congiunta (in genere assoluta) per una particolare coppia di valori delle due variabili. Ad esempio consideriamo le variabili di fantasia X=Varietà (con i valori SANREMO e FANO) e Y=Forma delle bacche (con i valori LUNGO, TONDO, OVALE), nella tabella a seguire il valore 37 indica il numero di individui che presentano congiuntamente la modalità SANREMO e la modalità LUNGO .I totali mostrano le frequenze marginali delle due variabili separatamente. Ogni riga della tabella di cui sopra (esclusi i totali) costituisce una distribuzione condizionata della variabile Y, dato un certo valore della X (Y|SANREMO e Y|FANO). Viceversa ogni colonna (X|LUNGO, X|TONDO e X|OVALE).
Lungo Tondo Ovale Totale
Sanremo 37 32 61 130
Fano 45 74 69 178
Totale 82 106 120 308
In simboli:Tavola di contingenza generica
Y1 … Yj … Yk Totale
X1 n11 … n1j n1k n1.
… … … … … … …
Xi ni1 … nij … … ni.
… … … … … … …
Xh nh1 … nhj … nhk nh.
Totale n.1 n.j n.k n
Tavole di contingenza :Dipendenza
Se guardiamo le due distribuzioni condizionate Y|SANREMO e Y|FANO possiamo notare che esiste una certa differenza. Potremmo chiederci quindi se il presentarsi di una data modalità del carattere X (SANREMO o FANO) influenza il presentarsi di una particolare modalità del fenomeno Y. Se ciò non è vero si parla di indipendenza delle variabili (allora le distribuzioni condizionate sono uguali) altrimenti si parla di dipendenza o connessione. In caso di indipendenza, le distribuzioni condizionate di Y dovrebbero
essere uguali tra loro e alla distribuzione marginale di X. In simboli:
n
nnn
n
n
n
n jiij
i
j
ij ...
.
*
Indice χ2
A questo punto è logico costruire un indice statistico di connessione, detto χ2 che misuri lo scostamento tra le frequenze osservate e quelle attese nell'ipotesi di
indipendenza perfetta:
dove nij è frequenza osservata ed nij* frequenza attesa nel caso indipendenza perfetta. Questo indice assume valore pari a zero nel caso di indipendenza completa (le frequenze osservate sono uguali a quelle attese) ed assume un valore positivo tanto più alto quanto maggiore è la connessione tra i due caratteri.
ij
ijij
n
nn*
2*2 )(
Calcolo e proprietà dell’indice V di Cramer
• Nel caso in esame :
22.10....7.44
)7.4432(
6.34
)6.3437( 222
• Per valutare il significato del valore ottenuto, nel campo della statistica descrittiva si suole dividere l'indice per il suo valore massimo, che è proporzionale al numero di righe e di colonne della tabella:
0.1821588 308
22.10
)max(
)1,1min(*)max(
22
2
2
V
khn
• 0≤V ≤1
• V=0 se i caratteri sono indipendenti
• V=1 se viè dipendenza o interdipendenza perfetta
Esempio:Presenza assenza di virosi in un campione di piante di frumento di varietà differenti
Si No
C 4 3
N 3 3
S 2 1
V 2 20.1178983
20
27898.0
)12,14min(
2
n
Top Related