Formulario statistica

15
Formulario Statistica descrittiva Misure di posizione Media aritmetica semplice ̅ Media aritmetica ponderata (dati raggruppati) ̅ ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ̅ ∑ ( ) ∑ ( ) Media geometrica √∏ (∑ ( ) ) Mediana n dispari Per n dispari, la mediana è quel valore che occupa la posizione nell’insieme ordinato. n pari Per n pari, la mediana è il valore centrale tra quelli che occupano le posizioni e . Distribuzione per classi ( ) ( ) ( ) ( ) ( )

description

Formulario di statistica medica

Transcript of Formulario statistica

Page 1: Formulario statistica

Formulario

Statistica descrittiva

Misure di posizione Media aritmetica semplice

Media aritmetica ponderata (dati raggruppati)

( )⏞

( )

( )⏞

( )

( )⏞ ( )

∑ ( )

∑ ( )

∑ ( ) ∑ ( )

Media geometrica

√∏

(∑

( )

)

Mediana

n dispari Per n dispari, la mediana è quel valore che occupa la

posizione

nell’insieme ordinato.

n pari Per n pari, la mediana è il valore centrale tra quelli

che occupano le posizioni

e

.

Distribuzione per classi

( ) ( )

( ) ( )

( )

Page 2: Formulario statistica

( )

Moda Indica il valore o modalità che si presenta con frequenza più elevata ed è l’unico indice di tendenza centrale che si può calcolare per variabili qualitative nominali. La moda non è necessariamente presente e qualora lo fosse non è detto che sia unica.

Misure di dispersione Range Il campo di variazione (range) è la differenza fra il massimo ed il minimo valore osservato. Scarto interquartile Lo scarto interquartile (SIQ) è la differenza fra il terzo ed il primo quartile. Tale intervallo contiene la metà dei valori inclusi nel campione. Devianza

∑( )

(∑ )

n

xf

xf=xfxx=D

i

k

=i

ix

i

k

=i

ixi

k

=i

i

2

1

1

2

1

2

mTmfTffmT nxx+nxx+D+D=D 22

Varianza

∑ ( )

∑ ( )

Deviazione standard

√ √ Coefficiente di variazione

Page 3: Formulario statistica

Calcolo di probabilità Riassunto La probabilità è un numero reale compreso tra: ( ) Evento certo: ( ) Evento impossibile: ( ) Evento complementare: ( ) ( ) Unione di eventi generale: ( ) ( ) ( ) ( ) Union di eventi mutuamente esclusivi: ( ) ( ) ( )

Eventi condizionati: ( | ) ( )

( )

Intersezione di eventi: ( ) ( ) ( | ) ( ) ( | ) Intersezione di eventi indipendenti: ( ) ( | ) ( ) ( | )

( ) ( ) ( )

Teorema di Bayes:

( | ) ( ) ( | )

( ) ( | ) ( ) ( | )

Teorema di Bayes applicato ai test diagnostici:

( | )

( )( ) ( | )

( )

( ) ( )

Page 4: Formulario statistica

Sensibilità:

( | ) ( )

( )

Specificità:

( | ) ( )

( )

Variabili casuali quantitative discrete e continue Variabile casuale Può definirsi come un insieme di coppie di valori xi ; pi dove il primo elemento è il valore assunto dalla variabile X (tutti i valori assunti determinano lo spazio evento) mentre il secondo la probabilità con cui l’evento può manifestarsi. X = variabile casuale Valore atteso di X: ( ) ∑

Varianza di X: ( ) ( ) ( ) ∑ (∑ )

Se X e Y sono due variabili casuali: ( ) ( ) ( ) ( ) ( ) ( ) X e Y indipendenti ( ) ( ) ( ) ( ) X e Y non indipendenti Se X è una variabili casuale e k una costante qualunque: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) Distribuzione di probabilità per una variabile casuale discreta K possibili combinazioni di x oggetti su un insieme di n oggetti:

( )

( )

La distribuzione binomiale è la distribuzione del numero di successi in n prove statisticamente indipendenti, dove la probabilità di successo in ciascuna prova è π. La formula è:

( ) ( | )

( ) ( ) ( ) ( ) ( )

Page 5: Formulario statistica

Se n è sufficientemente elevato e π tale che | | non sia vicino a 1 allora per la funzione di probabilità binomiale vale l’approssimazione alla gaussiana:

( ) ( ) Si applica la correzione di continuità nel rapporto critico: Se P(x>…) allora -0,5 Se P(x<…) allora + 0,5 Densità di probabilità per una variabile casuale continua Funzione parametrica in due parametri:

( )

(

)

( )

( ) ( )

Rapporto critico, passaggio alla gaussiana standardizzata:

( )

Distribuzione di campionamento Distribuzione delle medie campionarie Sapendo che X è una variabile che ha una certa media e una certa varianza nella popolazione, immagino di estrapolare dalla popolazione campioni di dimensione n. Il teorema del limite centrale mi dice che la media campionaria si distribuisce in modo gaussiano, se n è sufficientemente grande, con media pari a µ e varianza pari a .

( ) (

) ( ) ( )

Rapporto critico ( noto):

Rapporto critico ( non noto):

IC ( noto):

(

√ ) ( √ )

IC ( non noto):

(

√ )

Confronto medie di due campioni indipendenti ( noto):

Confronto medie di due campioni indipendenti ( non noto):

Page 6: Formulario statistica

( ) ( )

√(

)

ES( )=√(

)

( ) √(

)

( ) ( )

( )

ES( )=√ (

)

( )

( )

( )

( )

Calcolo della dimensione di un campione per il confronto di campioni indipendenti:

( )

Confronto medie di due campioni non indipendenti:

∑( )

Distribuzione delle proporzioni campionarie Estraiamo tutti i possibili campioni di ampiezza n e calcoliamo per ognuno di essi la proporzione p di successi; la risultante distribuzione campionaria delle proporzioni al crescere di n è approssimativamente gaussiana con media pari a π e varianza pari a π(1- π)/n.

( ) ( ( )

) ( ) √

( )

Test d’ipotesi e IC:

√ ( ) ( ) √ ( )

√ ( )

L’errore standard (ES) usato nella statistica test (calcolato sotto H0) è diverso da quello usato per il calcolo dell’intervallo di confidenza (che prescinde da H0).

√ ( ) √ ( ) Tuttavia questo non comporta, in pratica, risultati contradditori perché p(1-p) varia abbastanza lentamente al variare di p.

Page 7: Formulario statistica

Calcolo della dimensione del campione per il confronto di una proporzione con un valore dato:

( ) ( )

Test di ipotesi e IC per la differenza di due proporzioni indipendenti:

( ) [ ( ) (

)]

√ ( ) (

)

( )

( ) ( ) √ ( )

( )

Distribuzione delle varianze campionarie Estraiamo tutti i possibili campioni di ampiezza n e calcoliamo per ognuno di essi la varianza; la risultante distribuzione campionaria della varianza (se la variabile è gaussiana nella popolazione) è il chi quadrato con

media pari a e varianza pari a

.

( )

( ) ( )

Test non parametrici Test del chi quadrato per l’indipendenza (test di ipotesi tra più di due proporzioni)

( ) ( )

( )( ) ∑

( )

( )

( )

( )

( )

( )

( )

Page 8: Formulario statistica

Test di McNemar (test di ipotesi tra più di due proporzioni campioni dipendenti)

Campione 1

( )

+ -

Campione 2

+ a b

- c d

Analisi di correlazione Coefficiente di correlazione lineare di Pearson

∑( ) ( )

Formalmente, il coefficiente di correlazione per due variabili X e Y, è un estimatore di ρ, definito come:

[(

)(

)]

∑( ) ( )

Test dell’associazione lineare H0: ρ=0 non c'è associazione lineare tra le due variabili H1: ρ≠0 c'è associazione lineare tra le due variabili.

√( ) ( ) √

( ) √

( )

Page 9: Formulario statistica

Analisi di regressione lineare semplice

1. Media a. Linearità: nella popolazione il valore medio di Y│X1 non è noto, ma è funzione lineare di X

( | ) { | }

b. L’effetto predittore X è dato da c. Il valore medio Y│X giace sulla retta di regressione (non è il valore osservato) d. Il predittore X può essere di ogni tipo (non necessariamente una variabile quantitativa

continua)

2. Variabilità

a. punti = media + errore casuale; b. Omoschedasticità: la variabilità di Y intorno al suo valor medio è la stessa per ogni valore di X

( ) c. Indipedenza: tutti gli errori εi e quindi tutte le risposte yi sono indipendenti. ε ha media 0 d. Normalità: le osservazioni sono distribuite in modo gaussiano ( ) e sono

indipendenti Per una valore fissato di X, Y ha distribuzione gaussiana, cioè dato X:

(

) ( )

Supponiamo di “fittare” un modello di regressione e di trovare , ovvero le stime dei coefficienti di regressione della popolazione , di conseguenza possiamo definire i valori stimati per ciascuna osservazione in base alla seguente equazione:

è il risultato osservato di Y per un particolare valore , mentre è il punto corrispondente della retta adattata, allora:

(

)

Sotto gli assunti specificati le stime più precise di sono quei valori che minimizzano la somma dei quadrati dei residui . Sono le cosiddette stime dei minimi quadrati.

∑( )

∑( )

1 Ciò che è correlato a X non è Y ma la media degli Y

Page 10: Formulario statistica

Da cui:

∑ ( )( )

∑ ( )

Inferenza per i coefficienti di regressione Il fine è quello di poter utilizzare la retta di regressione dei minimi quadrati:

Per fare inferenze sulla retta di regressione nella popolazione:

( | )

Pertanto abbiamo bisogno degli errori standard di che sono rispettivamente:

( )

√∑( )

√ ( )

∑( )

Nelle applicazioni pratiche

non è nota, di conseguenza dobbiamo stimarla attraverso la deviazione

standard del campione

dove:

√∑( )

( ) ( )

Se vogliamo testare se l’intercetta della popolazione è uguale ad un valore specifico oppure vogliamo calcolare un intervallo di confidenza utilizziamo calcoli analoghi a quelli per la pendenza. Output statistico

Page 11: Formulario statistica

Inferenza per i valori predetti Spendo che:

( | ) { | }

prima stimo μy│x, poi calcolo l'IC per il peso medio alla nascita dei bambini la cui madre ha un certo valore di estriolo. Per calcolare l'intervallo di confidenza ho bisogno dell'errore standard di y stimato:

( )

√[

( )

∑( ) ]

( )

Inferenza per i valori individuali predetti

( ) √ ( )

√[

( )

∑( ) ]

( )

Valutazione modello Scompongo la devianza in due parti: una parte spiegata dal modello di regressione e una parte residua.

( )⏟

( )⏟

∑( )

∑( )

∑( )

SST: variazione totale di Y attorno alla sua media (devianza) SSE: variazione residua non spiegata (somma degli errori al quadrato) SSR: variazione spiegata dal modello di regressione

Page 12: Formulario statistica

Analisi di regressione lineare multipla La regressione lineare nella popolazione è:

( | )

Si usa sempre un pacchetto statistico che fornisce un output simile:

Page 13: Formulario statistica
Page 14: Formulario statistica
Page 15: Formulario statistica