L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di...

71
L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione. Due forme di inferenza statistica sono: la stima il test di ipotesi

Transcript of L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di...

Page 1: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Due forme di inferenza statistica sono:         la stima       il test di ipotesi

Page 2: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

La popolazione statistica è definita

come l’insieme di tutte le possibili

unità statistiche, sulle quali possiamo

eseguire delle misure. Essa può

perciò essere infinita.

Page 3: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Concetto (frequentista)Concetto (frequentista) di probabilitàdi probabilità

Se un esperimento casuale è ripetuto un numero infinito di volte, la frequenza relativa di un certo risultato converge, con probabilità = 1, ad un unico limite fisso. (Legge dei grandi numeri) Si potrebbe allora dire che la probabilità di quel certo risultato è tale limite, se questa definizione non fosse circolare.

Page 4: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Legge dei grandi numeri: in generale stabilisce che più il campione è grande, più è probabile che la media aritmetica campionaria approssimi la media della popolazione.

Page 5: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Concetto (Bayesiano) di probabilitàConcetto (Bayesiano) di probabilità

Secondo alcuni statistici, è possibile assegnare una probabilità ad un evento, anche quando non si dispone di una frequenza relativa che ce ne possa suggerire il valore. In questo caso la probabilità è desunta dall’esperienza di chi l’assegna, anche se tale esperienza non è formalmente costituita da una sequenza di esperimenti casuali.

Page 6: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Assiomi di probabilitàAssiomi di probabilità    

A AP 10

][]Ø[ BPAPBAPBA

ABPAPBAP |

1.

2.

3.

Legge della somma

Legge del prodotto

Page 7: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

 Infezione da H.pylori

Madre affetta

Sì No

Sì No 

16 

112 

729 

Totale 22 841

Prevalenza di infezione da Helicobacter pylori in bambini di età Prevalenza di infezione da Helicobacter pylori in bambini di età pre-scolare, a seconda della presenza di ulcera nella madrepre-scolare, a seconda della presenza di ulcera nella madre

Brenner H, Rothenbacher D, Bode G, Adler G, Parental history of gastric or duodenal ulcer and prevalence of Helycobacter pylori infection in preschool children: population based study .BMJ 1998; 316:665.

Page 8: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

P(HB) = P( HB madre affetta) + P( HB madre non affetta)

P (HB madre affetta) = P( HB | madre affetta) • P(madre affetta)

118/863 = 6/ 863 + 112/863

6/863 = 6/22 • 22/ 863

Verifica della validità degli assiomi, sui dati di Brenner et al.Verifica della validità degli assiomi, sui dati di Brenner et al.

Legge della somma

Legge del prodotto

Page 9: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Le variabili casuali (o stocastiche o aleatorie) sono variabili numeriche, che assumono valori diversi a caso.

Variabili casualiVariabili casuali

Page 10: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Variabili casuali discreteVariabili casuali discrete

Non possono assumere tutti i valori in alcun intervallo. Per esempio, il numero di " teste " osservato dopo il lancio di due monete, assumerà valore 0, 1, o 2 ma non 1,75.

Page 11: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Variabili casuali continueVariabili casuali continue

Possono assumere tutti i valori in un certo intervallo. Perciò, hanno un’infinità di valori possibili tra due valori qualunque.

Page 12: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Una prova di Bernouilliprova di Bernouilli è un esperimento casuale con due soli esiti possibili, denominati “successo” e “insuccesso”. Non è importante quale di questi esiti sia considerato "successo "- questo è arbitrario – ma, una volta fatta la scelta, essa deve essere mantenuta per tutto il corso dei calcoli.La probabilità di successo è costante

Page 13: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Il numero totale di successi X osservato in una serie di n prove di Bernouilli indipendenti è una variabile casuale variabile casuale binomialebinomiale.

Page 14: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Le probabilità associate con tutti i possibili valori di una variabile casuale binomiale formano una distribuzione binomiale.

Distribuzione BinomialeDistribuzione Binomiale

Page 15: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

La distribuzione binomialedistribuzione binomiale descrive una famiglia di variabili casuali, ogni membro della quale è identificato dai valori dei parametri della distribuzione stessa:

nn il numero di prove indipendenti

ππ la probabilità di successo in ciacuna prova  La notazione usata per indicare che una variabile casuale X è binomiale è la seguente:

X ~ B(n, π)

(si legge: " X è una variabile casuale binomiale con parametri n e π“).

Page 16: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Il valore attesovalore atteso di una variabile binomiale casuale è la media d’infinite sue realizzazioni. Può essere calcolato con la formula:

E(X) nπ  La varianzavarianza (²) di una variabile binomiale casuale quantifica la dispersione d’infinite sue realizzazioni . La formula per la varianza di una variabili binomiale è:  

2 nπ(1-π)

Page 17: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Diagramma a barre della distribuzione binomiale di Diagramma a barre della distribuzione binomiale di probabilità con parametri n = 4 e probabilità con parametri n = 4 e = 0,75 = 0,75

Numero di "successi"

Pro

babilità

0.0040.047

0.211

0.422

0.316

0 1 2 3 4

0.0

00

.15

0.3

00

.45

Page 18: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Diagramma della funzione Diagramma della funzione FFXX((xx) = P(X ) = P(X xx),),

X è una variabileX è una variabile binomiale con parametri n = 4 e binomiale con parametri n = 4 e = 0,75. = 0,75.

FFXX((xx)) si chiama funzione di distribuzione di probabilità cumulata.si chiama funzione di distribuzione di probabilità cumulata.

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

Numero di "successi"

Probabilità c

um

ula

ta

Page 19: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Distribuzione di campionamento della Distribuzione di campionamento della media aritmeticamedia aritmetica::

È la distribuzione di frequenza delle medie campionarie, che si otterrebbero da ripetuti campioni indipendenti ciascuno di dimensione n, estratti a caso dalla popolazione .

Page 20: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Stimatore non distortoStimatore non distorto

Produce una stima, il cui valore atteso è uguale al

parametro che si vuole stimare.

Per esempio,x (media campionaria) è uno stimatore

non distorto di (media dell’intera popolazione),

perché il valore atteso della media campionaria è uguale

alla media della popolazione.

Page 21: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Aumentando la dimensione del campione, la

distribuzione di campionamento tende a restringersi

intorno alla media della popolazione. Questo è un aspetto

della legge dei grandi numeri, che afferma che la media

campionaria tende con probabilità 1 al valore atteso della

variabile casuale (media della popolazione), quando la

dimensione campionaria tende ad infinito.

Page 22: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

LL’errore standard della media’errore standard della media (ESM o ES o x) è:

rappresenta la deviazione standard della popolazione e n la dimensione campionaria. ESM tende a 0 al crescere di n, perciòx è una stima consistente di .

nESM

Page 23: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

La media aritmetica campionaria è una stima

non distorta

consistente

la più efficiente (con la minore varianza, a parità di n)

della media aritmetica della popolazione

Page 24: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Intervallo di confidenzaIntervallo di confidenza::

è un intervallo, all’interno del quale si trova il parametro, che si desidera stimare, con probabilità uguale al livello di confidenza dell’intervallo stesso.  

Page 25: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

•IV.A.6.c. Statistics

•Describe statistical methods with enough detail to enable a knowledgeable reader with access to the original data to verify the reported results. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as the use of P values, which fails to convey important information about effect size. References for the design of the study and statistical methods should be to standard works when possible (with pages stated). Define statistical terms, abbreviations, and most symbols. Specify the computer software used.

Page 26: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.
Page 27: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

 Problemi respirarori

gruppo di trattamento

Terbinafine placebo

presenti assenti 

51 

29 

Totale 56 29

Numero di pazienti con problemi respiratori tra i trattati Numero di pazienti con problemi respiratori tra i trattati con Terbinafine o placebocon Terbinafine o placebo

Goodfield MJD,Andrew L,Evans EGV Short-term treatment of dermatophyte onchomyosis with terbinafine,.BMJ 1992; 304:1151-4.

Page 28: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Intervallo di confidenza al 95%95% per la differenza fra le proporzioni di disturbi respiratori fra i pazienti trattati con terbinafine e placebo

-0,012 ; 0,190

Nota bene: la stima puntuale della differnza di proporzioni vale 0,09

(Calcolo eseguito con )R 2.0.1.lnk

Page 29: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

I più semplici intervalli di confidenza sono simmetrici I più semplici intervalli di confidenza sono simmetrici intorno alla stima puntuale del parametro da stimareintorno alla stima puntuale del parametro da stimare

Page 30: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Caso particolare:Caso particolare:

Intervallo di confidenza per Intervallo di confidenza per quando quando è è conosciutoconosciuto

 

P[ x -- 1.96 1.96 ESM < µ < x 1.961.96 ESM]

= 0,95

L’origine dei valori 1,96 diventerà chiara, dopo avere fatto conoscenza con il modello gaussiano

Page 31: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

La distribuzione gaussianadistribuzione gaussiana (chiamata anche normale) è una distribuzione di probabilità continua, simmetrica, unimodale e caratterizzata da una forma a campana. 

Si indica con X N( ) una qualunque variabile casuale, che segue la distribuzione gaussiana con media e deviazione standard .

Page 32: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Questa particolare gaussiana (denominata standard) ha media = 0 e deviazione standard = 1

Page 33: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Le curve di densità di probabilità hanno le proprietà seguenti: L’L’area totalearea totale sotto la curva di densità è uguale a 1       L’L’area sotto la curva (AUC)area sotto la curva (AUC) tra 2 punti qualunque, x1

ed x2, è la probabilità che la variabile casuale assuma

un valore nell’intervallo tra essi compreso. Da questo si deduce che la probabilità di un intervallo di larghezza 0, coincidente con un singolo valore, è uguale a 0

Page 34: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Densità gaussiana standard

Area = 0,025

Area = 0,025

-1,96 1,96

Area = 0,95

Origine dei valori 1,96 usati per il calcolo dell’intervallo di confidenza

Page 35: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Quando la deviazione standard della popolazione non è conosciuta una stima dell’errore standard della media (SESM) è:

 

Dove s rappresenta la deviazione standard campionaria e n la

dimensione campionaria

n

ssSESM x

Page 36: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Un altro caso particolare:Un altro caso particolare:

Intervallo di confidenza per Intervallo di confidenza per quando quando è è sconosciutosconosciuto

si utilizza la deviazione standard campionaria, s, come stima

di e si calcola un intervallo di confidenza al (1 ) 100%

per con:

x tn-1, 1-/2 SESM

 

dove tn-1, 1-/2 è il quantile, definito dalla frazione (1 – ),

della distribuzione t con n -1 gradi di libertà;

SESM vale: s /n.

Page 37: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

-6 -4 -2 0 2 4 6

0.0

0.1

0.2

0.3

Origine del valore tn-1, 1-/2 (in questo esempio n-1= 3 e

-t3, 1- /2= -3.18

Area 0.95 Area

0,025 Area 0,025

t3, 1- /2= 3.18

Page 38: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Alcuni possibili usi degli Alcuni possibili usi degli intervalli di confidenza: intervalli di confidenza: Stima diStima di

Medie e loro differenze

Proporzioni e loro differenze

Indici “non parametrici” (mediane, quantili, ecc.)

Rischi relativi, rischi attribuibili e odds ratio

Tassi di incidenza e tassi standardizzati

Parametri di modelli lineari e regressione logistica

Azzardi e rapporti di azzardi (studi di sopravvivenza)

Page 39: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

A : Ipotesi nulle ed alternativeA : Ipotesi nulle ed alternative 

Utilizziamo la notazione HH00 per indicare l’ipotesi

nulla ed HH11 (o Ha) per indicare l’ipotesi alternativa.

H0 corrisponde a “nessuna differenza” diversa da

quella che sarebbe ottenuta per puro caso. È l’ipotesi

che il ricercatore spera di poter rifiutare.

H1 è l’ipotesi che il ricercatore spera di poter

dimostrare, solitamente è l’esatto contrario di H0.

Page 40: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

La statistica teststatistica test è una quantità che

rispecchia i dati campionari, che, quando H0 è

vera, ha una distribuzione (o densità) di

probabilità completamente nota.

Essa è perciò lo strumento per determinare il

P-value.

Page 41: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

P-valueP-value

E’ la probabilità di ottenere dati

campionari altrettanto o meno probabili

di quelli ottenuti, allorché H0 è vera.

Page 42: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

P-value può perciò essere considerato una misura delle

prove fornite dai dati contro l’ipotesi nulla, infatti esso

risponde alla domanda seguente:

“Se l’ipotesi nulla fosse vera, quale sarebbe la

probabilità di osservare questo campione od uno

ancora più improbabile?”

Più P-value è piccolo, migliore è l’evidenza contro H0

Page 43: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Livello di significativitàLivello di significatività 

Prima di fare il test, stabiliamo il valore massimo

accettabile della probabilità di rifiutare erroneamente H0,

indicato con alfa ().

è solitamente posto uguale a 0,05 o 0,01.

Page 44: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Conclusione della procedura di testConclusione della procedura di test  

Per trarre delle conclusioni si calcola, tramite la statistica

test, il P-value. 

Se P è inferiore o uguale a α, H0 è rifiutata

Se P è superiore a , H0 non è rifiutata

per mancanza di prove contrarie 

Questa procedura assicura che la probabilità di rifiutare erroneamente H0 sia .

Page 45: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Il P-valueP-value può essere interpretato come il

valore minimo di α che si deve scegliere

per potere rifiutare H0, in presenza dei

dati campionari ottenuti.

Page 46: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Ipotesi nullaIpotesi nulla  

Condizioni dei Condizioni dei datidati

Test statistico Test statistico consigliatoconsigliato

Uguaglianza della media Uguaglianza della media di una popolazione ad un di una popolazione ad un valore prefissatovalore prefissato

Osservazioni Osservazioni indipendenti indipendenti Variabili Variabili approssimativamente approssimativamente gaussianegaussiane

Test “t” per un solo Test “t” per un solo campionecampione

Uguaglianza delle medie Uguaglianza delle medie di due variabili misurate di due variabili misurate sugli stessi soggetti o sugli stessi soggetti o ciascuna su uno dei due ciascuna su uno dei due elementi di una coppia elementi di una coppia

I soggetti misurati due I soggetti misurati due volte oppure le coppie di volte oppure le coppie di osservazioni sono osservazioni sono indipendenti fra loroindipendenti fra loroDifferenza fra le due variabili Differenza fra le due variabili approssimativamente approssimativamente gaussianagaussiana

Test “t” per dati appaiatiTest “t” per dati appaiati

Uguaglianza delle medie Uguaglianza delle medie di due popolazionidi due popolazioni

Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni hanno Le due popolazioni hanno la stessa varianzala stessa varianzaVariabili Variabili approssimativamente approssimativamente gaussianegaussiane

Test “t” per campioni Test “t” per campioni indipendentiindipendenti

Uguaglianza delle medie Uguaglianza delle medie di due popolazionidi due popolazioni

Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti     Le due popolazioni Le due popolazioni nonnon hanno la stessa varianzahanno la stessa varianza Variabili approssimativa-Variabili approssimativa-mente gaussianemente gaussiane  

Test “t” per campioni Test “t” per campioni indipendenti con correzione indipendenti con correzione dei gradi di libertàdei gradi di libertà (Attenzione: se le popolazioni non (Attenzione: se le popolazioni non hanno la stessa varianza, può non hanno la stessa varianza, può non essere sensato testare se le essere sensato testare se le medie sono uguali)medie sono uguali)

Page 47: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Ipotesi nullaIpotesi nulla  

Condizioni dei datiCondizioni dei dati Test statistico Test statistico consigliatoconsigliato

La distribuzione delle differenze fra La distribuzione delle differenze fra le osservazioni rilevate sul le osservazioni rilevate sul medesimo soggetto o su soggetti medesimo soggetto o su soggetti appartenenti alla stessa coppia, è appartenenti alla stessa coppia, è simmetrica.simmetrica.

- - I soggetti misurati due volte, o le I soggetti misurati due volte, o le coppie di osservazioni sono coppie di osservazioni sono indipendenti fra loroindipendenti fra loro- Differenza fra le due variabili - Differenza fra le due variabili molto lontana dalla distribuzione molto lontana dalla distribuzione gaussianagaussiana

Test non parametrico Test non parametrico per dati appaiati per dati appaiati (wilcox.test)(wilcox.test)

Uguaglianza delle Uguaglianza delle distribuzioni di probabilità distribuzioni di probabilità di due popolazionidi due popolazioni

Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni hanno Le due popolazioni hanno distribuzioni approssimativamente distribuzioni approssimativamente sovrapponibili salvo per la sovrapponibili salvo per la posizione.posizione. Variabili molto lontane dalla Variabili molto lontane dalla distribuzione gaussianadistribuzione gaussiana

Test non parametrico Test non parametrico per campioni per campioni indipendenti. indipendenti. (wilcox.test)(wilcox.test)

Uguaglianza di una Uguaglianza di una proporzione proporzione ad un valore prefissato ad un valore prefissato

Osservazioni Osservazioni indipendentiindipendenti

Test esatto per una Test esatto per una proporzione basato su proporzione basato su modello binomialemodello binomiale(binom.test)(binom.test)

Uguaglianza di due Uguaglianza di due proporzioni rilevate in proporzioni rilevate in campioni provenienti da campioni provenienti da due popolazioni, od due popolazioni, od indipendenza di due indipendenza di due variabili categorichevariabili categoriche  

Osservazioni Osservazioni indipendentiindipendenti

Test chi Test chi quadratoquadrato

Page 48: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

l’ipotesi nulla e l’ipotesi alternativa possono prendere

una di queste 3 forme:

“una coda a destra”, “una coda a sinistra, e “due code”.

H0: 0 contro H1: >0

 

H0: 0 contro H1: < 0

 H0: = 0 contro H1: 0

Test a una e a due codeTest a una e a due code

Page 49: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Errori di tipo I (rifiuto di una ipotesi nulla vera)Errori di tipo II (non rifiuto di una ipotesi nulla falsa) Le conseguenze dell’esecuzione di un test statistico d’ipotesi possono essere riassunte come segue: 

 

   

VERITA’    H0 vera H0 falsa

DECISIONE

Non rifiutare H0

Corretta accettazione di H0

Rifiutare H0

Errore di tipo Errore di tipo IIII

Errore di tipo IErrore di tipo I Corretto rifiuto di H0

Page 50: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

P (errore di tipo I) =

P (errore di tipo II) =

 

Pr (evitare un errore di tipo I) = 1-

Pr (evitare un errore di tipo II)= 1- “potenza”

Probabilità di errori di I e II tipoProbabilità di errori di I e II tipo

Page 51: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.
Page 52: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.
Page 53: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.
Page 54: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.
Page 55: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

p1 e p2

Page 56: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

60 70 80 90 100 110

7080

9010

011

012

013

0

pressione diastolica (mmHg)

pres

sion

e si

stol

ica

(mm

Hg)

Diagramma di pressione diastolica e sistolica in una popolazione

Pressione diastolica (mmHg)

Pre

ssio

ne s

isto

lica

(mm

Hg)

Page 57: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

60 70 80 90 100 110

7080

9010

011

012

013

0

pressione diastolica (mmHg)

pres

sion

e si

stol

ica

(mm

Hg)

Modello di regressione lineare di pressione sistolica rispetto alla pressione diastolica

Page 58: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

60 70 80 90 100 110

7080

9010

011

012

013

0

pressione diastolica (mmHg)

pres

sion

e si

stol

ica

(mm

Hg)

Stima e bande di confidenza (in blu scuro) della retta di regressione

Page 59: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

60 70 80 90 100 110

7080

9010

011

012

013

0

pressione diastolica (mmHg)

pres

sion

e si

stol

ica

(mm

Hg)

Banda di “tolleranza” stimata del modello di regressione (in fucsia)

Page 60: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Fattore studiato Variabile dipendente

confondente

Page 61: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

y = a + bx + e

• Modello di regressione lineare semplice:

• Modello di regressione lineare multipla:

y = a + b1x1+ b2x2 + e

• Il modello permette di studiare l’effetto della variabile x1 sulla y, al netto dell’azione di x2

y – b2x2= a+ b1x1 + e

Page 62: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Se desideriamo aggiungere alla previsione di y

(per esempio la glicemia delle nostre pazienti), una quantità b solo per le obese, ma non per le altre pazienti, possiamo

aggiungere alla formula della previsione un termine bx,

dove x vale 1 quando la formula si applica alle obese,

e vale 0 per le altre pazienti.

Questo equivale ad inserire la variabile x nel data-base e nel modello di previsione

Page 63: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Per rendere una variabile qualitativa in un modello lineare, possiamo usare tante variabili indicatore quante sono le classi della variabile meno una.

Per esempio per codificare il gruppo ematico di classi 0, A, B, AB, possiamo usare tre variabili xA, xB, xAB, che hanno le seguenti caratteristiche:

xA=1 per i soggetti con gruppo ematico A, e xA= 0 per tutti gli altri

xB=1 per i soggetti con gruppo ematico B, e xB= 0 per tutti gli altri

xAB=1 per i soggetti con gruppo ematico AB, e xAB= 0 per tutti gli altri

Le variabili indicatore sono quantitative: forniscono il conteggio (0 od 1) dei rispettivi gruppi ematici in ogni soggetto

Page 64: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Visti i valori delle variabili indicatore, per i soggetti appartenenti ai quattro gruppi ematici, l’equazione si riduce alle seguenti quattro espressioni:

La parte sistematica del modello è data dalla seguente equazione

E(y | gruppo ematico) = a + bA xA+ bB xB + bAB xAB

E(y | gruppo A) = a + bA

E(y | gruppo B) = a + bB

E(y | gruppo AB) = a + bAB

E(y | gruppo 0) = a

Page 65: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Dalle equazioni precedenti risulta chiaro il significato

dei parametri bA, bB e bAB :

bA = E(y | gruppo A) - E(y | gruppo 0)

bB = E(y | gruppo B) - E(y | gruppo 0)

bAB = E(y | gruppo AB) - E(y | gruppo 0)

Page 66: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

religione

sesso

got

musulmana

cristiana

altro

F

M

Modello di analisi della varianza per la “got” con variabili esplicative religione e sesso

40

65

Page 67: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Scatterplot e retta di regressione e banda di confidenza

Pulsazioni 1

Pul

sazi

oni 2

Page 68: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Rappresentazione grafica di un modello di analisi della covarianza, comprensivo delle bande di confidenza delle rette di regressioneP

ulsa

zion

i (se

cond

a ri

leva

zion

e)

Pulsazioni (prima rilevazione)

Riposo

Corsa

Page 69: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

0 1000 2000 3000 4000 5000 6000

0.0

0.2

0.4

0.6

0.8

1.0

dose

fraz

ione

di b

atte

ri uc

cisi

Diagramma della frazione di batteri uccisi in relazione alla dose usata di farmaco, osservata in numerosi esperimenti

Page 70: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Curva logistica di equazione y=exp(a+bx)/[1+exp(a+bx)] (ascissa del flesso = -1, pendenza nel flesso= 0,5)

Page 71: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

0 5 10 15

0.0

0.2

0.4

0.6

0.8

1.0

anni

sopr

avvi

venz

aStima di Kaplan-Meyer della curva di sopravvivenza