MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

45
MATEpristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011 Che cos’è la significatività statistica (amena conversazione su concetto e uso della significatività in statistica) Walter Racugno – Università di Cagliari

description

MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011 Che cos’è la significatività statistica (amena conversazione su concetto e uso della significatività in statistica) Walter Racugno – Università di Cagliari. La statistica. - PowerPoint PPT Presentation

Transcript of MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Page 1: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

MATEpristem

“Matematica in classe/4 – Probabilità e Statistica”Frascati, 14-16 ottobre 2011

Che cos’è la significatività statistica(amena conversazione su concetto e uso della significatività in statistica)

Walter Racugno – Università di Cagliari

Page 2: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

La statistica

Ma – ahimè! - non sempre il buon senso conduce a conclusioni sensate:un trattamento semplicistico dei dati può portare a risultati ingannevoli.

La statistica matematica è buon senso tradotto in una struttura logica e in un linguaggio matematico capaci di dare coerenza logica e algoritmi di calcolo alla conoscenza parziale.

Page 3: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Significatività statistica(attraverso esempi)

• i tranci di pizza sono terapeutici per la varicella?

• il dramma del professore

• l’affondamento del Titanic: naufragio di statistici

• il dimorfismo sessuale

• tassa sul lusso

Page 4: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

La pizza cura le pustole della varicella?(da:T.E. Bradstreet – The American Statistician, 1996)

Il piano di lavoro

Tesi

Ipotesi da verificare

Piano sperimentale

Variabili risposta

Risultati

Conclusione

La pizza cura le pustole

Dopo 5 giorni di trattamento con pizza i pazienti con pustolepresentano una durata delle lesioni inferiore del 40%rispetto ai non trattati (controlli)

Prove cliniche parallele, randomizzate

Durata delle lesioni

Page 5: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

La pizza cura le pustole della varicella?

I dati sperimentali

0

5

10

15

7.2

5.129%

29% < 40%la differenza non è significativa

(clinicamente)

controllo

pizza

durata media

Page 6: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

La pizza cura le pustole della varicella?

Piano di lavoro, risultati e conclusioni

Tesi La pizza cura le pustole

Ipotesi da testareDopo 5 giorni di trattamento con pizza i pazienti con pustole presentano una durata delle lesioni inferiore del 40% rispetto ai non trattati (controlli)

Piano sperimentale Prove cliniche parallele, randomizzate

Variabili risposta Durata delle lesioni

Risultati

Conclusione

Differenza clinica non significativa

Non c’è evidenza sperimentale a favore dell’ipotesiche la pizza abbia efficacia terapeutica nel trattamento delle pustole da varicella

Page 7: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Il dramma del professore (per spiegare la significatività statistica)

Dramma aperto in VI atti

e un epilogo

Protagonisti: lo studente; il professore

Page 8: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Atto I (il contesto)

• Lo studente deve sostenere un esame• Può essere preparato o non-preparato

Atto II (l’azione)

Il professore deve compiere l’azione:

Atto III (la trama si sviluppa)

• Lo studente e il professore si incontrano• Il prof non sa se lo studente è preparato o no (forse neppure lo studente lo sa!)• Non potendo esplorare “tutta” la preparazione dello studente,

il prof ha la possibilità di fare alcune domande (ad es. 5)

Atto IV (il dilemma)

Il professore pensa: quante risposte esatte dovrà darmi lo studente per convincermi d’essere preparato?

(Nota: professore “buono”=2 risposte su 5; “severo” =3 su 5; “cattivo”=4 su 5; “terribile”=5 su 5).

Atto V (il fatto)

Atto VI (il dramma del prof)

Epilogo

Lo studente risponde a 3 domande il prof lo promuove

Lo studente risponde a meno di 3 domande il prof lo boccia

Ha promosso un non-preparato? Ha bocciato un preparato?

promuovere

bocciare

Il professore si rivolge al suo statistico di fiducia!

Page 9: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

(per spiegare la significatività statistica)

• Studente

• Azioni

• Regola di decisione

preparato

non-preparato

Stati di natura

: preparato , : non-preparato

10 ,: HH

0H

promuovere

bocciare

spazio campionario

1 2 3 4 5

promuoverebocciare

rifiuto 0H accetto 0H

1H

Page 10: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

preparato non-preparato

promuovo

boccio )|( 0HbP

1H

… in sintesi

0H

)|( 1HprP

)|( 1HbP

)|( 0HprP

Page 11: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

zona di rifiuto zona di accettazione 0H0H

valore di soglia

Page 12: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

rifiuto e accetto0H 1Haccetto e rifiuto 0H 1H

Page 13: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

= P(rifiutare quando è vera) = P(rifiuto| )

Nella teoria della verifica (test) d’ipotesi di Neyman-Pearson-Wald

• livello di significatività del test : livello d’errore con cui siamo “disposti” a rifiutare l’ipotesi .

• è usualmente molto piccolo : valori standard 0.05; 0.01; anche 0.001.------------------------------------------------------------------------------

-

• Jerzy Neyman, (1894 – 1981)• Sir Ronald Aylmer Fisher, (1890 – 1962) • Egon Sharpe Pearson, (1895 – 1980)• Abraham Wald, (1902 – 1950)

0H0H

0H

Page 14: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

L’affondamento del Titanic (S.M. Iacus, G. Masarotto – 2007, 2^ Ed.) ………………………….

Nel suo rapporto ufficiale Lord Mersey il parlamentare incaricato dell’inchiesta sul naufragio del Titanic (15 aprile 1912):

“Si era sospettato prima dell’inizio dell’indagine che i passeggeri di terza classe fossero stati trattati in modo discriminatorio … e che fu data precedenza ai passeggeri di prima e seconda classe …

… l’elevata proporzione di perdite non deve essere ricercata nella discriminazione dei passeggeri di terza classe. Essi non sono stati discriminati”

Page 15: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

L’affondamento del Titanic

Classe Sesso Età Morti Salvati

1uomini

bambini

adulti

0

118

5

57

donnebambini

adulti

0

4

1

140

2uomini

bambini

adulti

0

154

11

14

donnebambini

adulti

0

13

13

80

3uomini

bambini

adulti

35

387

13

75

donnebambini

adulti

17

89

14

76

crewuomini 670 192

donne 3 20

totale 1490 711

Page 16: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

L’affondamento del Titanic

Una prima domanda: è stata rispettata la legge marinara “ prima le donne e i bambini” ?

Salvati (%) N°. imbarcati

bambini 52 % 109

donne 74 % 425

uomini 20 % 1667

32% 2201

Page 17: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

L’affondamento del Titanic

Altra domanda: vi è una relazione tra sopravvissuti e classe di imbarco ?

classe morti salvati

1 122 203 325

2 167 118 285

3 528 178 706

crew 673 212 885

1490 711 2201

Page 18: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

classe morti salvati

1122

(38%)203

(62%)325

2 167

(59%)118

(41%)285

3528

(75%)178

(25%)706

817 (62%)

499 (38%)

1316

L’affondamento del Titanic

vi è una relazione tra sopravvissuti e classe di imbarco ?

classe morti salvati

1202

(62%)123

(38%)325

2 177

(62%)108

(38%)285

3438

(62%)268

(38%)706

817 (62%)

499 (38%)

1316

Tabella reale Tabella ideale

Page 19: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

L’affondamento del Titanic

“distanza” tra tabella reale e tabella ideale (con variabili indipendenti: )

confronto tra proporzioni o percentuali

ipotesi :la differenza èdovuta al caso

Accettare o rifiutare l’ipotesi

Test“Chi-quadrato”

0H

0H

rifiuto 0Haccetto 0H

0H

distanza chi-quadro

Page 20: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

L’affondamento del Titanic

“distanza” tra tabella reale e tabella ideale (con variabili indipendenti: )

rifiuto 0Haccetto 0H

0H

distanza chi-quadro

I dati rilevati non forniscono un’evidenza sperimentale per poter rifiutarel’ipotesi : la distanza della tabella reale dalla tabella ideale non è statisticamente significativa al livello = 0.05. In altri termini:la differenza è attribuibile al caso e non a un “errore sistematico”

0H

Page 21: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

… ma …

Page 22: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

L’affondamento del Titanic (A. Farcomeni – Convegno SIS, Venezia 6-8 settembre 2007)

NOTA Le interazioni tra fattori (variabili) possono essere considerate come ulteriori fattori:

esplicativi dell’effetto di interesse.

Es. tabella:• fattore di riga• fattore di colonna• fattore di cella (interazione tra riga e colonna) tabelle a più di due dimensioni (vedi Titanic)

Page 23: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Come modellizzare l’interazione

Problema

Descrivere il numero (y) di volte in cui un gruppo di pazienti visita annualmente il proprio medico di base, in dipendenza dell’età ( ).1x

1bxay n° visite

etàparametri

etàvisiten20

12 Esempio

Modello1

Page 24: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Come modellizzare l’interazione

1bxay

età

n° visite

a

Domanda:

oltre l’età, il sesso ha qualche influenza sul n° di visite?

1x

Page 25: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Come modellizzare l’interazione

21 cxbxay

1bxay

2x

età

n° visite

a

1x

Modello 2 = 0 uomo

= 1 donna

1)( bxcay

a+c

c = influenza del sesso sul n° visite

NOTA: non c’è interazione tra gli effetti dell’età e del sessol’effetto del sesso è uguale per tutte le età!

Page 26: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Come modellizare l’interazione

Domanda: come esprimere algebricamente che le due rette (uomo-donna) non sono parallele?

Risposta: creiamo una nuova variabile

213 xxx interazione = età-sesso

Modello 3 321 dxcxbxay

uomo

donna

00 32 xx

132 1 xxx

321 dxcxbxay

1)()( xdbcay

Page 27: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Come modellizzare l’interazione

1bxay

età

n° visite

a

1x

1)()( xdbcay

a+c

d = effetto età-sesso sul n° visite

NOTA: il modello considera l’effetto di ciascuna variabile (età, sesso) e della loro interazione il n° delle visite dipende dall’etàe dal sesso ma NON con uguale intensità!

Page 28: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

L’affondamento del Titanic

Nella prima analisi che abbiamo visto sono state considerate soltanto interazioni del secondo ordine:

• tra la variabile (fattore) Classe e la variabile Sopravvivenza (morti/salvati) si è visto che l’interazione non è statisticamente significativa (mentre c’è “evidenza” nelle interazioni di Sopravvivenza con Sesso e con Età)

Con un modello più complesso che considera anche le interazioni del terzo ordine, sono risultate statisticamente significative le interazioni

- Class:Sex:Age- Class:Sex:Survived- Class:Age:Survived

Page 29: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

… morale

Page 30: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Il dimorfismo sessuale

Il problema antropologico statistico

• Consideriamo due variabili X e Y che rappresentano una stessa dimensione antropometrica relativa ai due sessi.

• In letteratura è spesso considerata soltanto la diversità tra i valori medi (dimorfismo di media)

x

yxyx

oppure

N (20, 16) N (40, 16)

Page 31: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Il dimorfismo sessuale

• La variabilità intrasesso può alterare il dimorfismo di media: a parità di distanza tra medie, una minore [maggiore] variabilità intrasesso determina un aumento [diminuzione] del dimorfismo

N (20, 4) N (30, 4)

N (20, 36) N (30, 36)

Page 32: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

• La variabilità intrasesso è dunque anch’essa una componente del dimorfismo: dimorfismo di dispersione, (Marini, Racugno et al. 2005, 2007).

Esempio (a parità di medie):

N (30,36)N (30, 4)

Il dimorfismo sessuale

Page 33: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Due problemi:

1 – di natura antropologica2 – di natura statistica

1. Dimorfismo di media; di variabilità; di asimmetria; di … altre componenti?

2. Rilevazione della presenza di dimorfismo; individuazione e stima delle differenze; misura dell’evidenza; costruzione di statistiche in presenza di modelli e non.

Il dimorfismo sessuale

Page 34: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Obiettivi:

1. Proporre una visione globale del dimorfismo sessuale nei caratteri metrici. Evidenziarne le varie forme di espressione (componenti).

Sviluppare considerazioni sintetiche sulla sua natura nelle diverse tipologie di variabili antropometriche.

2. Considerare l’intero contenuto informativo delle due (♀,♂) distribuzioni campionarie di frequenza per ciascuna variabile antropometrica.

Costruire procedure di analisi statistica per l’applicazione dei test di confronto.

Il dimorfismo sessuale

Page 35: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

“Tassa sul lusso”Art. 4 L.R. 4/2006 (imposta sulla nautica)

La politica

• L’articolo 4 della L.R. n. 4 del 2006 ha istituito un’imposta regionale sulle unità da diporto di lunghezza maggiore o uguale a 14 mt., (scali tra il 1° giugno e il 30 settembre nei porti del territorio regionale).

Domanda

• L’imposta causa effetti negativi sullo scalo di unità da diporto nei porti sardi?

Stime errate

• Stime ottenute confrontando gli scali osservati nel 2006 con quelli osservati nell’anno precedente.

Definizione di effetto

• L’effetto dell’imposta sugli scali è la differenza tra il numero di scali osservati nel 2006 e il numero che avremmo osservato nello stesso periodo del 2005, in assenza dell’imposta.

Page 36: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Tassa sul lusso

Dati disponibili• 56 gestori che possono accogliere barche oltre i 14 mt • 15000 posti barca• da 16 gestori non è stato possibile avere dati (15%)• dei 40 gestori, 33 hanno collaborato, 19 hanno fornito dati

completi

Si sono analizzati i dati relativi a 57% dei posti barca (6926)per un totale di 5065 scali (il 77% di cui si è avuta notizia).

• Tra il 2005 e il 2006 si è verificata una riduzione del numero di scali pari al 15%:

18% di barche soggette a imposta; 8% non soggette.

In particolare una riduzione del 20% delle barche tra 12 e 13 mt (NON assoggettate).

Page 37: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Tassa sul lusso

0.1

.2.3

10 15 20 25 30 10 15 20 25 30

2005 2006Scali Scali

Density

kdensity lunghezza

Den

sity

lunghezza

Graphs by stagione

Aspetti critici

Page 38: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Tassa sul lusso

05

10

15

12 13 14 15 16 12 13 14 15 16

2005 2006

Num

ero

di s

cali

LunghezzaGraphs by stagione

Aspetti critici

Page 39: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Infine

la rondine … la primavera …

… il reverendo Thomas Bayes …

… sillogismi

Page 40: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

La colpa di

• In una classe, alcuni studenti lamentano il malfunzionamento di WORD.

• Una parte degli studenti usa WINDOWS 2000, un’altra parte XP.

Domanda:

XP ha qualche colpa?

Page 41: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

La colpa di I dati

• il 60% usa XP (il 40% altro!)

• il 20% ha problemi con WORD

• il 75% di coloro che hanno problemi usa XP

male bene

TOT

0.40

0.60

TOT.

No XP

XP

0.350.05

0.20 0.80 1

0.15 0.45

)|( XPmaleP)(

),(

XPP

XPmaleP 25.0

6.0

15.0 20.0

0,15 0.60

L’informazione aggiuntiva “ sapendo che usano XP ” fa passare la probabilità da 0.20 a 0.25

)|()( maleXPPmaleP

Page 42: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Il reverendo e … la rondine

Teorema di Bayes (1702 – 1761)

Dove si vede che – ovviamente! - )|()|( maleXPPXPmaleP

)|( XPmaleP)(

)|()(

XPP

maleXPPmaleP

Page 43: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Sillogismi (1)

0)( AP

Domanda:

Qual è la probabilità che WR sia un alieno?

)|()()|()()( AWRPAPUWRPUPWRP

)(

)|()(

WRP

UWRPUP

1)( UPmldUWRP 6/1)|(

0

)|( WRUP 1

Page 44: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Sillogismi (2)

999.0)( NBP

Domanda:

Qual è la probabilità che WR sia un bandito?

)|()()|()()( NBSPNBPBSPBPSP

)(

)|()(

SP

BSPBP

001.0)( BP10.0)|( BanditoSardoP

)|( SBP

028.053000000

1500000)( SP

0036.0028.0

10.0001.0

Page 45: MATE pristem “Matematica in classe/4 – Probabilità e Statistica” Frascati, 14-16 ottobre 2011

Risposta:

Alieno no, ma bandito un po’ sì (ma poco!!)