1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

28
1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012

Transcript of 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

Page 1: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

1

Introduzione alla statistica per la ricerca

Lezione I

Dr. Stefano Guidi

Siena, 3 Ottobre 2012

Page 2: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

Perché statistica?

La conoscenza della statistica è importante per valutare la variabilità del mondo, e per aiutarci a vedere schemi all’interno di un mondo dominato dalla casualità, ed a distinguere tra relazioni causali tra diversi fenomeni e relazioni solo apparenti.

2

Page 3: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

3

Introduzione

Statistica “Scienza di derivazione matematica che si

occupa di studiare e descrivere la realtà fenomenica nei suoi aspetti di rilevazione numerica“

Insieme di tecniche e procedure per: Visualizzare dati Analizzare Interpretare Prendere decisioni a partire da essi

Fondamentali nella ricerca scientifica

Page 4: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

4

Ricerca Scientifica

• Metodo Scientifico Basato sull’osservazione Formulazione di ipotesi Verifica sperimentale

• Dati (risultato dell’osservazione) Incerti

Parzialmente dovuti al caso Limitati

Io voglio giungere a conclusioni generali

• Necessarie tecniche per ovviare ai problemi

Page 5: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

5

Statistica

• Descrittiva Descrivere, riassumere e visualizzare insiemi di

dati

• Matematica Fornisce la base teorica dei concetti di

variabilità e probabilità

• Inferenziale Fare inferenze su una popolazione in base ad

un campione estratto dalla popolazione

Page 6: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

6

Statistica Descrittiva

Insieme di metodi per riassumere in maniera chiara, comprensibile e possibilmente concisa un insieme di dati•2 Approcci:

Grafico Numerico

•Variabile: una proprietà, o una caratteristica di eventi,

oggetti o persone che può assumere diversi valori (se misurata)

Page 7: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

7

Classificazione delle Variabili

Diversi modi per classificare una variabile:

•In base ai valori che possono assumere (livelli)

•In base alla scala su cui le misuro

•In base al loro status in uno studio sperimentale

Page 8: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

8

In base ai valori

• Qualitative Sesso, colore dei capelli, ecc…

• Quantitative Età, altezza, QI, ecc…

• Discrete Possono assumere un numero finito di livelli

• Continue Possono assumere un numero infinito di

livelli

Page 9: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

9

In base alla scala

• Scale Nominali Permettono di dire quali elementi sono diversi e quali

uguali (categorie)

• Scale Ordinali I valori sono ordinati, e permettono quindi di

distinguere due valori in base al loro posto nella scala (classifica di una gara)

• Scale ad intervalli Permettono di definire la distanza tra due elementi

(no zero assoluto): temperatura in C

• Scale a rapporti Permettono di definire dei rapporti: temperatura in K

Page 10: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

10

Istogrammi

Un istogramma è grafico che rappresenta la distribuzione di frequenza di un insieme di dati

•sull'asse delle ascisse (x) Le categorie a cui può appartenere il dato nominale Intervalli in cui può cadere un dato numerico

•sull'asse delle ordinate (y) il numero di volte che ho osservato un evento di una

data categoria (frequenza assoluta) Il rapporto tra frequenza assoluta dell’evento ed numero

totale di dati osservati (frequenza relativa)

Page 11: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

11

Frequenza (relativa) dell’altezza (in pollici) di un campione di individui

Fre

qu

en

za r

ela

tiva (

pro

porz

ion

e)

Altezza (pollici)

Page 12: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

Frequenze degli esiti del lancio di una moneta e di un dado dopo 100

lanci

12

Fre

qu

en

za a

ssolu

ta (

con

teg

gio

)

Esito (moneta) Esito (dado)

Fre

qu

en

za a

ssolu

ta (

con

teg

gio

)

Page 13: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

Occhio alla scala!

La scelta degli estremi della scala usata per l’asse Y ha conseguenze drammatiche per evidenziare visivamente (o nascondere!) differenze nei dati di frequenza.

13

Stessi Dati

Maggiore differenza Minore differenza

Page 14: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

Considerazioni

Istogrammi (e altri grafici) permettono di visualizzare la variabilità dei dati e di identificare tendenze.Informazioni soltanto indicative.Occhio alla scala:

•Unità di misura (y): Frequenza assoluta vs relativa (tra 0 e 1) Si può sempre passare dalla prima alla seconda, e viceversa

(sapendo il numero totale di dati)

•Estremi (intervallo rappresentato su y): Più l’intervallo (range) rappresentato è piccolo, più grandi

appariranno le differenze Le statistiche possono essere usate per mentire…

14

Page 15: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

15

Indici Numerici

Indicatori di tendenze centrali: •Indicano dove tendono a concentrarsi i valori osservati della nostra variabile

Indicatori di dispersione:•Indicano il grado di variabilità dei valori della variabile nei dati

Indicatori di forma: •Indicano proprietà generali della distribuzione delle frequenze dei valori che può assumere la variabile

Page 16: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

16

Media

Somma dei valori osservati divisa per il numero dei dati

•Per scale numeriche•Facilmente calcolabilee trattabile•Molto sensibile a valori “anomali”

reddito3500580080008300845084508680

1575017500

media 9381,11

3500580080008300845084508680

1575017500

200000

28443

Page 17: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

Mediana

Il valore sotto cui si collocano il 50% delle osservazioni nei miei dati

•Per scale ordinali•Meno sensibile ai dati “anomali”, più adatta per distribuzioni asimmetriche

17

reddito3500 35005800 58008000 80008300 83008450 84508450 84508680 8680

15750 1575017500 17500

200000

media 9381,11 28443mediana 8450 8450

Page 18: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

Moda

Il valore più frequente nei miei dati

•Poco usato•Può esserci più di una moda in una distribuzione

18

Page 19: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

19

Indicatori di dispersione

Misurano la variabilità delle osservazioni rispetto ad un valore centrale

•Devianza (SS) •Varianza (s2)•Deviazione standard (s)

Possono essere usati per stimare la variabilità nella popolazione generale

Page 20: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

20

Devianza (SS)

La somma degli scarti quadratici dei valori dalla media

Più sono i valori “distanti” dalla media nei miei dati, più sarà grande

Cresce con il numero delle osservazioni

Page 21: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

21

Varianza (s2)

La devianza (SS) divisa per il numero delle osservazioni

Più è grande più c’è variabilità Non dipende dal numero di

osservazioni Buona stima della variabilità di

una popolazione Difficile da interpretare

Page 22: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

22

Deviazione standard

Radice quadrata della varianza

•Riporta la variabilità delle osservazioni in unità di misure significative (la stessa unità di misura della variabile misurata)•Solo per distribuzioni normali

Page 23: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

23

Indicatori di Forma

• Kurtosi Misura la concentrazioni dei dati attorno alla media

• Simmetria (Skew) La direzione in cui punta

Page 24: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

Esercizi

Calcolate media, mediana, moda, devianza, varianza e deviazione standard dei seguenti set di dati (osservazioni):

•Numero di canestri su 10 lanci liberi per ogni persona (10 persone):

1, 2, 4, 5, 5, 6, 6, 6, 8, 9

•Numero di birre bevute da un pacco da 12 in una notte da ogni persona ad una festa (10 persone):

12, 4, 8, 6, 11, 12, 7, 9, 6, 10

24

Page 25: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

25

Statistica Matematica

• Probabilità vs Frequenza

• Variabili Aleatorie Astrazioni che denotano l’incertezza che

precede ad ogni evento

• Distribuzione di probabilità Discrete Continue

Page 26: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

26

Distribuzioni

Page 27: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

27

Distribuzione Normale

• Famiglia di distribuzioni di probabilità

• Forma “a campana”• Media=mediana=moda• Completamente specificate

da 2 parametri indipendenti μ (media) σ (deviazione standard)

• Moltissimi fenomeni naturali sono distribuiti in modo normale

• Assunta dai test statistici

Page 28: 1 Introduzione alla statistica per la ricerca Lezione I Dr. Stefano Guidi Siena, 3 Ottobre 2012.

28

Distribuzione Normale II

μ (media) (ex: punteggio QI di 100)

σ (deviazione standard) (ex: 10 punti QI)

Area della parte colorata è la

probabilità di osservare per caso un valore di QI compreso tra 90 e 110 (68.27%

di probabilità).