Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

63
Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22

Transcript of Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

Page 1: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

Qualche appunto di statistica

Marco ChiostriCroce Rossa Italiana

Echo 22

Page 2: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

E’ facile mentire con la Statistica. E’ difficile dire la verità senza la Statistica.

(Andrejs Dunkels)

Page 3: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Un pochino di storia…

Il termine statistica (da status) fu introdotto nel XVIII secolo per designare quella branca della scienza politica che si occupava della descri-zione delle cose dello Stato. La parte di tale de-scrizione consistente nella costruzione e nell'a-nalisi delle tavole numeriche (originariamente sui dati economici e demografici) andò via via e-stendendosi anche ad altri campi di indagine e la necessità di far fronte a problemi nuovi e più complessi portò ad ampliare i procedimenti fino ad ottenere l'insieme dei metodi di analisi che costituiscono la statistica moderna.

Page 4: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Un pochino di storia…

John Graunt

1620-1674

King Charles II

1630-1685

Page 5: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Una piccola premessa…

Per conoscere la statistica nei suoi aspetti più complessi è richiesta una discreta padronanza della matematica. Ma prima ancora di gettarsi a capofitto su elaborazioni nume-riche è importante stabilire a priori l'insieme (in termini di tipo e numerosità) dei valori scelti per rappresentare un certo fenomeno, cioè il campione. Ad esempio, per foto-grafare il consenso degli Italiani verso uno schieramento politico, ci si deve interrogare sul numero di persone da intervistare (100, 1000, 10000...) e su come scegliere i soggetti (casuale da elenco telefonico, intervista per la strada, ...) oltre che sulle domande da fare (a risposta li-bera, a scala di valori, ...) prima di eseguire l'analisi dei dati raccolti, poiché la prima parte può influenzare anche notevolmente, falsandolo, il risultato finale. Ciò per sottoli-neare che nella statistica non c’è solo tanta matematica.

Page 6: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Risposte sincere a domande imbarazzantiIndagine USA su soldati nel Vietnam (dati fittizi) Il soldato estrae una delle tre carte dopo che

sono state mescolate, la guarda di nascosto e dà la rispo-sta (sì – no)

900 soldati 360 sì Circa 300 volte per carta, quindi circa 60

soldati su 300 (20%) fanno uso di droghe.

Page 7: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

Statistica e mass media: quando si comunica con i numeri

Bruno BRACALENTEDipartimento di Scienze Statistiche

Università degli Studi di Perugia

© CIRDIS 2004 La riproduzione e l'uso dei materiali sono permessi solo per scopi didattici

e non commerciali citando la fonte, gli autori ed i collaboratori.

Page 8: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Dopo queste premesse…

A partire da casi reali (tratti da […] quotidiani):

come i mass media trasmettono l’informazione statistica

Page 9: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Alla ricerca del “numero eclatante”?

Un esempio: “Infarto, con il campionato i rischi crescono del 60%” (Corriere della Sera del 21/09/2003)

studio svizzero sui morti per infarto durante i campionati mondiali (di calcio, ndr) del 2002 presentato al congresso europeo di cardiologia

Qualche volta il ‘dato curioso’ prende il sopravvento, soprattutto nei titoli.

Il resto passa in secondo piano, compreso il dato più rilevante: la diminuzione dei morti per infarto.

Page 10: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Alla ricerca del “numero eclatante”?

Altro esempio: dati statistici “piegati” in una direzione che si pensa faccia più colpo sul lettore.

“Gli automobilisti corretti? Solo l’8%”.(Corriere della Sera del 25/08/2003)

Dal titolo siamo portati a pensare che quasi tutti gli automobilisti sono scorretti.

Page 11: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Alla ricerca del “numero eclatante”?

%

guidatori corretti 8

guidatori non completamente corretti 86

guidatori scorretti 6

TOTALE 100 Un titolo altrettanto parziale, ma un po’ più

vero di quello scelto: “Gli automobilisti scorretti? Solo il 6%”.

E avrebbe trasmesso un’informazione opposta…

Invece, i dati sono i seguenti:(Inchiesta Altroconsumo)

Page 12: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Con cosa abbiamo a che fare?

Conteggi:

Campionato di calcio ’91-’92: vittorie esterne 67 su 305 partite

Campionato di calcio ’01-’02: vittorie esterne 79 su 306 partite

La differenza è statisticamente rilevante?

Grandezze e loro medie:

La P.A. dei 50 pz. trattati con il farmaco A è significativamente diversa da quella dei 60 pazienti trattati col farmaco B?

Relazioni tra grandezze:

Come varia il pH del sangue in rapporto alla PaCO2

plasma-tica? È possibile individuare un andamento riassumibile in una formula che mi permetta di calcolare il pH

data la PaCO2?

Page 13: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Con cosa abbiamo a che fare?

Variabili quantitative

Dati espressi in valori continui (altezza, pressione…)

Variabili qualitative o categoriali

Si tratta di conteggi (quanti maschi e quante fem-mine, ecc); nel caso particolare in cui sia possibile gradua-re i dati (rischio alto, medio e basso per es.) prendono più propriamente il nome di ordinali.

Page 14: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Confronti fra numerosità

Probabilmente è il caso più semplice

Tabella 2 x 2 (inglese: fourfold table)

 

 Persone con

malattiePersone senza

malattie

Totale

Zona ad alto inquinamento 32 48 80

Zona a basso inquinamento 13 57 70

Totale 45 105 150

 

Page 15: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Cosa cerco di vedere?

Quale sia vera delle due ipotesi possibili, cioè:

vivere in una zona ad alto o a basso grado di inquinamento non influisce sulla probabilità di contrarre un disturbo respiratorio (ipotesi nulla, H0): in questo caso la frequenza relativa di perso-ne con malattie polmonari nei 2 gruppi a confronto sarebbe uguale e le differenze riscontrate sarebbero da interpretare co-me variazioni casuali

esiste invece un tasso diverso di incidenza nelle due zone (ipotesi alternativa)

 

 

Page 16: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Quale test statistico applico?

Il test chi quadrato

 

 

  Persone con malattie

Pers. senza malattie

Totale

Zona ad alto inquinamento

32 a 48 b 80 n1

Zona a basso inquinamento

13 c 57 d 70 n2

Totale 45 n3 105 n4 150 N

χ2 = [(32 * 57 – 48 * 13)2 * 150]

(80 * 70 * 45 * 105)

χ2 = (1.824 – 624)2 * 150

26.460.000

χ2 = 1.440.000 * 150

26.460.000

χ2 = 8,163

probabilità p = 0,0074

Page 17: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Cos’è la probabilità p ?

Questo numero esprime la probabilità che sia vera l’ipotesi nulla, cioè che le differenze osservate siano dovute al ca-so. 0,0074 corrisponde a 0,74%: vuol dire allora che la dif-ferenza di frequenza riportata nella tabella ha solo lo 0,74% di probabilità di essere dovuta al caso, e quindi, all’inverso, c’è oltre il 99% di probabilità che vivere in una zona ad alto tasso di inquinamento conduca ad una maggiore incidenza di patologie respiratorie.

Comunemente, in statistica si ritiene significativo un test con p < 0,05; molto significativo quando p < 0,01.

 

Page 18: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

E per i dati quantitativi ?

Per questo tipo di dati si pone il problema di sintesi che possano essere elaborate matematicamente, in modo da poterli obiettivamente analizzare cosic-ché tutti i ricercatori, con gli stessi dati, possano, anzi debbano giungere alle medesime conclusioni.

 

 

Page 19: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Come faccio a descrivere i dati quantitativi ?

 

 

Una serie di dati numerici è compiutamente descritta da tre proprietà principali:

1. Tendenza centrale o posizione

2. Dispersione o variabilità

3. Forma

Page 20: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

1) – Misure di tendenza centrale

 

 

Servono per individuare il valore intorno al quale i dati sono raggruppati; la tendenza centrale è la misura più appropriata per sintetizzare l’insieme delle osservazioni, se una distribuzione di dati dovesse essere descritta con un solo valore; è la prima indicazione della dimen-sione del fenomeno.

Sono essenzialmente tre:

Media

Moda

Mediana

Page 21: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

1) – Misure di tendenza centrale

 

 

MEDIA

Media aritmetica (somma del valore di tutte le osservazioni, di-viso il numero di unità; è la media per antonomasia)

Media geometrica (si usa per superfici, volumi, tassi di accre-scimento o sopravvivenza)

Media armonica (quando si lavora sugli inversi)

Media quadratica (è la radice quadrata della media

aritmetica dei quadrati e si usa quando si analizza-

no misure di superficie)

Page 22: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

1) – Misure di tendenza centrale

 

 

MODA

È il valore più rappresentato all’interno del campione.

MEDIANA

È il valore che divide esattamente in due metà il campio-ne: mettendo trentuno scolari in ordine di altezza, la me-diana sarà quella del 16° bambino; su trenta, la mediana è la media aritmetica dell’altezza del 15° e del 16°.

Page 23: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

1) – Misure di tendenza centrale

 

 

Per esempio, prendiamo una serie di sei dati:

10,1 10,8 13,1 13,9 14,2 14,5

in cui la media è 12,85 e la mediana 13,5.

La rappresentazione grafica evidenzia come la media sia il baricentro della distribuzione e la mediana sia collocata tra i valori più addensati.

Page 24: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

1) – Misure di tendenza centrale

 

 

Riassumendo

Page 25: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

2) – Indici di dispersione

 

 

La media è però un dato troppo riassuntivo perché non dice nulla su come i dati sono distribuiti all’interno di un campione. Ho bisogno allora di un qualcosa che mi sug-gerisca quanto un valore varia dagli altri, cioè, come si di-ce, di un indice di dispersione.

A questo scopo, possiamo considerare:

Valori estremi

Scarti dalla media

Varianza

Deviazione standard

Errore standard della media

Page 26: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

2) – Indici di dispersione

 

 

Valori estremi Il valore più basso, quello più alto e l’intervallo fra essi. È chiaramente troppo sensibile ai valori marginali del campione, tanto da essere spesso fuorviante.

Scarti dalla mediaSono la misura più appropriata della variabilità di un insieme di dati. Ma poiché la loro somma è sempre nulla per definizione, in quanto la media è il baricentro della distribuzione, è necessaria una trasformazione: di solito si eleva al quadrato.

VarianzaÈ il quadrato della somma delle differenze di ciascuna osservazione dalla loro media, diviso il numero delle osservazioni meno 1 (cioè diviso i gradi di libertà); in sintesi

Page 27: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

2) – Indici di dispersione

 

 

Deviazione standard (D.S.; Standard Deviation, S.D.)La più usata, non è altro che la radice quadrata della varianza.

La formula che la calcola dà la distanza media dei dati dalla loro media. Se la sommo o la sottraggo alla media (media ± S.D.) ottengo un intervallo nel quale vengono a trovarsi circa i 2/3 delle osservazioni. Se invece sommo algebricamente alla media non una, ma due deviazioni standard (media ± 2S.D.) allora in questa forbice si troverà circa il 95% della popolazione. Per esempio la serie numerica 9 6 7 9 8 8 ha una media di 7,833 ed una S.D. di 1,169. E’ chiaro che più alta sarà la S.D., più dispersi e quindi più differenti l’uno dall’altro saranno i valori del campione.

Page 28: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

2) – Indici di dispersione

 

 

Errore standard della mediaE’ la S.D. diviso la radice quadrata del numero delle osservazioni meno uno (gradi di libertà). Nell’intervallo media ± E.S. posso aspettarmi di ritrovare, di nuovo, circa i 2/3 della popolazione da cui il campione è estratto, e circa il 95% nell’intervallo media ± 2 E.S.

Page 29: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

2) – Indici di dispersione

 

 

PercentiliSi tratta del livello di misura al di sotto del quale cade una determinata percentuale della distribuzione.

Page 30: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

2) – Indici di dispersione

 

 

Riassumendo i più comunemente usati

Page 31: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

3) – Forma

 

 

Quasi sempre in biologia i valori sono raggruppati intorno al valore medio, mentre molto pochi valori si trovano agli estremi: si trovano molte più persone di altezza intorno al metro e 75 che non ai due metri o al metro e mezzo. Andamenti di questo genere possono essere rappresentati con un diagramma a barre dove in ascisse poniamo il valore ed in ordinate il numero delle osserva-zioni, come in questo grafico che è, fra l’altro, perfettamente sim-metrico.

N= 58

Media = 6,0

S.D. = 2,11

Page 32: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

3) – Forma

 

 

Page 33: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Per navigare un po’ sul web…

 

 

… e risolvere (!) un pallosissimo turno di servizio…http://www.istat.it Sito dell’Istituto Nazionale di Statistica

http://www.dsa.unipr.it/soliani/soliani.html Testo approfondito in formato .pdf (circa 2000 pagine!)

http://www2.unipr.it/~bottarel/epi/ Sito di epidemiologia veterinaria, con una chiarissima introduzione, link piacevoli e dei piccoli test di autovalutazione

http://www.accmed.net/stat/libro/indice.htm Piccolo ma completo manualetto, da un reparto di nefrologia

http://www.univ.trieste.it/~biologia/software/software.htm#statistica Raccolta di programmi per eseguire test statistici on-line (ed anche scaricabili)

Page 34: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Ricordate le partite fuori casa?

 

 

Per concludere questo nostro primo incontro, torniamo

all’esem-pio iniziale delle partite vinte fuori casa in due campionati di calcio: 67 su 305 nel 91-92 e 79 su 306 10 anni dopo. A parte la conside-razione che quattordici anni fa i motivi commerciali non erano così forti da esigere la ripetizione di una partita sospesa (si è giocato u-na partita di meno), la differenza fra 67 e 79 porta ad un χ2 di 0,77 con p = 0,38: l’innovazione di premiare con 3 punti la squadra vit-toriosa non ha influito sulle vittorie in trasferta. D’altra parte non sono significativamente diverse né le partite vinte in casa (129 rispetto a 140), né i pareggi (109 e 87) e neppure i gol segnati (686 e 803). Però i pareggi sono diminuiti, le vittorie aumentate e i gol fatti anche: a tutto vantaggio dello spettacolo e con buona pace della significatività…

Page 35: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

Grazie per l’attenzione

Ma non finisce qui!

Marco ChiostriCroce Rossa Italiana

Echo 22

Page 36: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Riassumiamo

 

 

Finora ci siamo occupati di

Numerosità di un campione e metodi per confrontare

numeri assoluti e percentuali ( χ2 ); ad esempio:

pazienti respiratori che abitano in città rispetto a quelli che abitano in zone rurali

Indici di tendenza centrale (media, mediana e moda), indici di dispersione (deviazione standard, errore standard, intervalli di confidenza) e distribuzione dei valori (curva gaussiana o normale)

Page 37: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Riprendiamo

 

 

2

2

2

/ 2

( ) / 2

12

12

( )

( ; , )

x

x

f x e

f x e

K . F . G a u s s ( 1 7 7 7 - 1 8 5 5 ) e l a c u r v a ac a m p a n a n e l l a b a n c o n o t a d a 1 0 D M d e l 1 9 9 1 .

This is the mean

La curva a campana di Gauss

Page 38: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Perché questa insistenza?

 

 

Perché quando i dati da analizzare sono distribuiti secondo questo andamento, allora la statistica “dà il meglio di sé”: si possono infatti applicare i test più potenti e più conosciuti, cioè il test T di Student (usato per confrontare due serie di dati) e l’ analisi della varianza (ANOVA), che non è altro che un T-test in cui le serie di dati da confrontare sono più di due.

Page 39: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Quando si possono applicare questi test?

 

 

Quando i dati sono parametrici, cioè ha senso parlare di medie e deviazioni standard e la loro rappresenta-zione grafica non si discosta molto dalla forma “a campana” della figura (che, come abbiamo visto, prende il nome di gaussiana od anche normale, ed esistono delle formule che permettono di valutare la normalità della distribuzione).

Da questo consegue che il test 2, visto la volta scorsa, è un test non parametrico.

Page 40: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Il test t di Student

 

 

Abbiamo detto che presuppone una distribuzione normale dei dati, ma bisogna subito aggiungere che si tratta di un test robusto, cioè si possono accettarne i risultati anche quando l’assunzione di normalità non sia soddisfatta in modo rigoroso. Si utilizza in quattro casi: per il confronto tra

1. La media di un campione e la media dell’universo o una generica media attesa

2. Un singolo dato e la media di un campione per verificare se possano appartenere alla stessa popolazione

3. La media delle differenze di due campioni dipendenti con una differenza attesa

4. Le medie di due campioni indipendenti.

Quest’ultima è la situazione più frequente.

Page 41: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Come si esegue un test t con MS Excel?

 

 

Una volta aperto il nostro foglio elettronico, dal menù selezioniamo inserisci formula T-test. Fin qui è semplice: le complicazioni iniziano adesso, e forse è meglio andare direttamente su Excel per parlarne.

Page 42: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Significatività del test t

 

 

In questo esempio p = 0,408: c’è il 41% di probabilità che la differenza di portata cardiaca prima e dopo 6 mesi dall’impianto di un pace-maker biventricolare sia dovuta al caso, molto superiore quindi al 5% richiesto per la significatività. Si può concludere che la resincronizzazione dei ventricoli in pazienti affetti da scompenso cardiaco non influisce sulla portata cardiaca.

La significatività aumenta quando il test è appaiato, quando aumen-ta il numero delle osservazioni, quando le S.D. dei campioni sono piccole e non si sovrappongono, come in questo grafico:

Page 43: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

E quando ho più di 2 serie di dati?

 

 

Per esempio, voglio confrontare l’effetto di due trattamenti antiipertensivi, rispetto alle condizioni di base, l’uno rispetto all’altro e la loro associazione rispetto al singolo trattamento. In questo caso ho una serie di valori di base, una dopo il trattamento col farmaco A, un’altra dopo il solo, poniamo allenamento fisico B, ed una quarta serie dopo la combinazione farmaco + allenamento, C. I confronti da fare sono numerosi:

1) Base vs. A 4) A vs. B

2) Base vs. B 5) A vs. C

3) Base vs. C 6) B vs. C

Page 44: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

E quando ho più di 2 serie di dati?

 

 

In questo caso, o faccio una serie di test T, o applico l’analisi della varianza (ANOVA). Questa non è altro che una sequenza di test T, ed un primo risultato che mi dà è di vedere se ci sono differenze statisticamente significative (p < 0,05) fra i confronti (nel nostro esempio 6) globalmente considerati. Per vedere però fra quali di questi confronti a coppie di dati esistono differenze devo chiedere al software statistico di eseguire anche quelli che si chiamano post-tests o tests post-hoc, che non fanno altro ap-punto che testare ogni singola serie contro un’altra (spesso anche in modo ridondante, perché oltre che fare il controllo A vs. B lo fanno anche B vs. A).

Page 45: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Siamo giunti all’ultimo argomento…

 

 

Con il test t di Student e con l'ANOVA si sono confrontate le differenze tra le medie di due o più campioni. Ma la verifica dell’ipotesi è sempre stata limitata alla medesima ed unica variabile rilevata.

Consideriamo ora il caso in cui vogliamo indagare se esiste una relazione tra due grandezze.

Ma aspettate a sospirare di sollievo, perché l’argomento che ci aspetta è piuttosto lungo!

Page 46: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Che relazioni esistono fra 2 (o più) variabili?

 

 

Per esempio, quando per ogni individuo si misurano contemporanea-mente il peso e l'altezza, è possibile verificare se queste due variabili si diversificano simultaneamente, valutando direzione ed intensità della lo-ro relazione. E’ possibile chiedersi:

1. quale relazione matematica (con segno ed intensità) esista tra peso ed altezza nel campione analizzato;

2. se la tendenza calcolata sia significativa, presente anche nella popolazio-ne, oppure debba essere ritenuta solo apparente, effetto probabile di va-riazioni casuali del campione.

L’analisi congiunta di due variabili rende inoltre possibile

3. predire il valore di una variabile quando l’altra è nota (ad esempio, come determinare in un gruppo d’individui il peso di ognuno sulla base della sua altezza).

Page 47: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Con cosa cerco queste relazioni?

 

 

Con l’analisi della regressione e con l’analisi della correlazione.

Si ricorre all'analisi della regressione quando dai dati campionari si vuole ricavare un modello statistico che predica i valori di una variabile detta dipendente, individuata come effetto, a partire dai valori dell'altra variabile, detta indipendente, individuata come causa.

Si ricorre all'analisi della correlazione quando si vuole misurare l'intensità dell'associazione tra due variabili quantitative che variano congiuntamente, senza che tra esse esista una relazione diretta di causa-effetto, come può avvenire quando entrambe sono legate ad una terza variabile.

Page 48: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

La matematica strettamente necessaria…

 

 

La funzione matematica che può esprimere in modo oggettivo la relazione di causa-effetto tra due variabili è chiamata equazione di regressione o funzione di regressione della variabile Y sulla variabile X.

La forma più generale di una equazione di regressione è

Y = a + bX + cX2 + dX3 +eX4 +...

dove il secondo membro è un polinomio intero di X.

Ma il biologo e l’ambientalista non possono limitarsi alla ricerca della funzione matematica che meglio descrive i dati raccolti con un solo campione: devono soprattutto fornirne una interpretazione logica del fenomeno, con argomenti tratti dalla propria disciplina.

Page 49: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Cosa ci consola?

 

 

Il fatto che quasi sempre l'interpretazione dell’equazione di regressione è tanto più attendibile e generale quanto più la curva è semplice, come quelle di primo o di secondo grado. Regressioni di ordine superiore sono quasi sempre legate alle variazioni casuali; sono effetti delle situazioni specifiche del campione raccolto e solo molto raramente esprimono relazioni reali e permanenti, non accidentali, tra le due variabili. Di conseguenza, tutti coloro che ricorrono alla statistica applicata nell’ambito della loro disciplina utilizzano quasi esclusivamente regressioni lineari (di primo ordine) o le regressioni curvilinee (di secondo ordine).

Page 50: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Alcuni esempi

 

 

Page 51: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Regressione lineare

 

 

La regressione può essere positiva (al crescere della variabile X cresce anche la Y) oppure negativa (la X aumenta, la Y diminuisce).

La relazione matematica più semplice è la regressione lineare semplice, rappresentata dalla retta

Y = a + bX

Page 52: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Esempio

 

 

Per sette giovani donne, indicate con un numero pro-gressivo, è stato misurato il peso in Kg e l'altezza in cm.

Calcolare la retta di regressione che evidenzi la relazione tra peso ed altezza.

Page 53: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Esempio

 

 

Con una formula troppo complicata per riportarla ma che il software statistico risolve in un attimo, si ricava il coefficiente angolare (b) che risulta 0,796 e l’intercetta (a) che è uguale a –73,354: quindi l’equazione della nostra retta di regressione viene

Y = -73,354 + 0,796 · X

con la quale è possibile stimare i punti sulla retta, corrispondenti a quelli sperimentalmente rilevati.Nella sua interpretazione

biolo-gica, il valore calcolato di b indi-ca che in media gli individui che formano il campione aumenta-no di 0,796 Kg. al crescere di 1 cm. in altezza.

Page 54: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Esempio

 

 

La retta di regressione è spesso usata a scopi predittivi, per stimare una variabile conoscendo il valore dell’altra. Ma è ne-cessario procedere con cautela: in questa operazione spesso viene dimenticato che sotto l’aspetto statistico, qualsiasi pre-visione o stima di Y è valida solamente entro il campo di varia-zione sperimentale della variabile indipendente X.

Questo campo di variazione comprende solo i valori osservati della X, usati per la stima della regressione. Per valori minori o maggiori, non è dimostrato che la relazione trovata tra le due variabili persista e sia dello stesso tipo. Nel nostro esempio, infatti, una bambina neonata alta, o per meglio dire, lunga 50 cm avrebbe un peso di –33,554 Kg, cioè negativo!

Page 55: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Esempio

 

 

Tuttavia, per lo statistico il semplice calcolo della retta non è sufficiente. Esso infatti potrebbe indicare

- una relazione reale tra le due variabili, se la dispersione dei punti intorno alla retta è ridotta,

- una relazione casuale o non significativa, quando la dispersione dei punti intorno alla retta è più pronunciata.

Page 56: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Esempio

 

 

Page 57: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Esempio

 

 

Occorre valutare la significatività della retta, cioè se il coefficiente angolare b si discosta da zero in modo significativo.

Il test applicato è detto anche test di linearità. Infatti, rifiutare l'ipotesi nulla non significa affermare che tra X e Y non esista alcuna relazione, ma solamente che non esiste una relazione di tipo lineare tra le due variabili. Potrebbe esistere una relazione di tipo differente, come quella curvilinea, di secondo grado o di grado superiore.

Per il nostro esempio di peso e altezza, i calcoli portano ad una probabilità p < 0,01, il che significa che nella popolazione dalla quale è stato estratto il campione, esiste in effetti una relazione lineare tra le variazioni in altezza e quelle in peso.

Page 58: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Come si valuta la bontà di una regressione?

 

 

Il software statistico (anche Excel) fornisce anche un numero, detto coefficiente di regressione, indicato con r o R e compreso tra -1 e +1, che esprime la bontà del-l’accordo (in termine “tecnico”, fitting), fra le due variabili, indipendente (o stimatore), e dipendente (o stimata): migliore è l’accordo (cioè sul grafico i punti saranno tanto più vicini alla retta “media” che li riassume), tanto più R sarà vicino all’unità (1 è quando tutti i punti giacciono esattamente sulla retta di regressione). R, ma anche (di nuovo!) p sono i due valori su cui focalizzarci per giudi-care dell’accordo dei nostri dati.

Page 59: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Come si valuta la bontà di una regressione?

 

 

Ma “quanto” devono essere questi valori?

Per il p non ci sono dubbi: come al solito, deve essere sempre < 0,05 per essere significativo. Più complesso è quantificare l’R, perché varia a seconda delle circostanze e dei fenomeni studiati: vale comunque la regola del “più vicino a 1 è, meglio è”. È da notare che, mentre è piuttosto difficile avere valori di R così alti (diciamo oltre 0,8 in valore assoluto) si ottengono p significative abbastanza facilmente.

Page 60: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

R2 o coefficiente di determinazione

 

 

Spesso nei lavori scientifici viene usato, invece di R, il suo quadrato (R2 o r2), che viene detto coefficiente di determinazione. È compreso tra 0 ed 1 (se R = 0,8 R2 = 0,64 ma è 0,64 anche se R = -0,8) ed ha il significato “tangibile” di esprimere quanta variabilità del campione viene spiegata dal modello sperimentale (cioè dall’equazione di regressione). Per tornare al nostro esem-pio di peso rispetto all’altezza, abbiamo R = 0,895 ed R2 = 0,801 (con p = 0,007). Questo significa che l’equazione di regressione

peso = -73,354 + 0,796 · altezza

spiega circa l’80% della variabilità del campione (il restante 20% è dovuto ad altri fattori).

Page 61: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Ma, alla fine, a cosa serve?

 

 

Oltre che a farci sbadigliare per più di due ore, conoscere la statistica (molto meglio di queste poche note introduttive che sono stato in grado di passare) serve:

Per riassumere in poche serie di numeri un dato

Per vedere con quale affidabilità possiamo estendere alla popolazione generale un fenomeno che siamo costretti a studiare solo su pochi individui

Per capire che prima di fare un esperimento esso va disegnato

Per capire che non basta far fare al computer un test, ma bisogna fargli fare quello appropriato ai dati in studio

Per leggere con occhio critico il paragrafo “metodi” delle pubblicazioni, e per scriverlo con cognizione di causa.

Page 62: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

Alcuni siti per consultazione

 

 

http://bama.ua.edu/~jleeper/627/choosestat.html Per scegliere quale test statistico applicare (in inglese)

http://www.dif.unige.it/epi/hp/pal/0-EMS-Stat.pdf Un documento .pdf sugli indici di tendenza centrale

http://www.sky.mi.it/sir2matematicaweb/sir2statistica1web/ Introduttivo, veramente per principianti, quasi per bambini

http://www.snabi.it/ecm/distanza/corso%20di%20statistica/Corso.PDF Libretto (100 pagg.) che mi sembra un semplice compendio

http://www.dsa.unipr.it/soliani/soliani.html Testo approfondito in formato .pdf (circa 2000 pagine!)

http://www2.unipr.it/~bottarel/epi/ Sito di epidemiologia veterinaria, con una chiara introduzione, link piacevoli e test di autovalutazione

Page 63: Qualche appunto di statistica Marco Chiostri Croce Rossa Italiana Echo 22.

CRI - Comitato Prov. FI

E adesso…

 

 

… Abbiamo finito davvero!

GRAZIE A TUTTI!