Post on 01-May-2015
1
Introduzione alla statistica per la ricerca
Lezione I
Dr. Stefano Guidi
Siena, 3 Ottobre 2012
Perché statistica?
La conoscenza della statistica è importante per valutare la variabilità del mondo, e per aiutarci a vedere schemi all’interno di un mondo dominato dalla casualità, ed a distinguere tra relazioni causali tra diversi fenomeni e relazioni solo apparenti.
2
3
Introduzione
Statistica “Scienza di derivazione matematica che si
occupa di studiare e descrivere la realtà fenomenica nei suoi aspetti di rilevazione numerica“
Insieme di tecniche e procedure per: Visualizzare dati Analizzare Interpretare Prendere decisioni a partire da essi
Fondamentali nella ricerca scientifica
4
Ricerca Scientifica
• Metodo Scientifico Basato sull’osservazione Formulazione di ipotesi Verifica sperimentale
• Dati (risultato dell’osservazione) Incerti
Parzialmente dovuti al caso Limitati
Io voglio giungere a conclusioni generali
• Necessarie tecniche per ovviare ai problemi
5
Statistica
• Descrittiva Descrivere, riassumere e visualizzare insiemi di
dati
• Matematica Fornisce la base teorica dei concetti di
variabilità e probabilità
• Inferenziale Fare inferenze su una popolazione in base ad
un campione estratto dalla popolazione
6
Statistica Descrittiva
Insieme di metodi per riassumere in maniera chiara, comprensibile e possibilmente concisa un insieme di dati•2 Approcci:
Grafico Numerico
•Variabile: una proprietà, o una caratteristica di eventi,
oggetti o persone che può assumere diversi valori (se misurata)
7
Classificazione delle Variabili
Diversi modi per classificare una variabile:
•In base ai valori che possono assumere (livelli)
•In base alla scala su cui le misuro
•In base al loro status in uno studio sperimentale
8
In base ai valori
• Qualitative Sesso, colore dei capelli, ecc…
• Quantitative Età, altezza, QI, ecc…
• Discrete Possono assumere un numero finito di livelli
• Continue Possono assumere un numero infinito di
livelli
9
In base alla scala
• Scale Nominali Permettono di dire quali elementi sono diversi e quali
uguali (categorie)
• Scale Ordinali I valori sono ordinati, e permettono quindi di
distinguere due valori in base al loro posto nella scala (classifica di una gara)
• Scale ad intervalli Permettono di definire la distanza tra due elementi
(no zero assoluto): temperatura in C
• Scale a rapporti Permettono di definire dei rapporti: temperatura in K
10
Istogrammi
Un istogramma è grafico che rappresenta la distribuzione di frequenza di un insieme di dati
•sull'asse delle ascisse (x) Le categorie a cui può appartenere il dato nominale Intervalli in cui può cadere un dato numerico
•sull'asse delle ordinate (y) il numero di volte che ho osservato un evento di una
data categoria (frequenza assoluta) Il rapporto tra frequenza assoluta dell’evento ed numero
totale di dati osservati (frequenza relativa)
11
Frequenza (relativa) dell’altezza (in pollici) di un campione di individui
Fre
qu
en
za r
ela
tiva (
pro
porz
ion
e)
Altezza (pollici)
Frequenze degli esiti del lancio di una moneta e di un dado dopo 100
lanci
12
Fre
qu
en
za a
ssolu
ta (
con
teg
gio
)
Esito (moneta) Esito (dado)
Fre
qu
en
za a
ssolu
ta (
con
teg
gio
)
Occhio alla scala!
La scelta degli estremi della scala usata per l’asse Y ha conseguenze drammatiche per evidenziare visivamente (o nascondere!) differenze nei dati di frequenza.
13
Stessi Dati
Maggiore differenza Minore differenza
Considerazioni
Istogrammi (e altri grafici) permettono di visualizzare la variabilità dei dati e di identificare tendenze.Informazioni soltanto indicative.Occhio alla scala:
•Unità di misura (y): Frequenza assoluta vs relativa (tra 0 e 1) Si può sempre passare dalla prima alla seconda, e viceversa
(sapendo il numero totale di dati)
•Estremi (intervallo rappresentato su y): Più l’intervallo (range) rappresentato è piccolo, più grandi
appariranno le differenze Le statistiche possono essere usate per mentire…
14
15
Indici Numerici
Indicatori di tendenze centrali: •Indicano dove tendono a concentrarsi i valori osservati della nostra variabile
Indicatori di dispersione:•Indicano il grado di variabilità dei valori della variabile nei dati
Indicatori di forma: •Indicano proprietà generali della distribuzione delle frequenze dei valori che può assumere la variabile
16
Media
Somma dei valori osservati divisa per il numero dei dati
•Per scale numeriche•Facilmente calcolabilee trattabile•Molto sensibile a valori “anomali”
reddito3500580080008300845084508680
1575017500
media 9381,11
3500580080008300845084508680
1575017500
200000
28443
Mediana
Il valore sotto cui si collocano il 50% delle osservazioni nei miei dati
•Per scale ordinali•Meno sensibile ai dati “anomali”, più adatta per distribuzioni asimmetriche
17
reddito3500 35005800 58008000 80008300 83008450 84508450 84508680 8680
15750 1575017500 17500
200000
media 9381,11 28443mediana 8450 8450
Moda
Il valore più frequente nei miei dati
•Poco usato•Può esserci più di una moda in una distribuzione
18
19
Indicatori di dispersione
Misurano la variabilità delle osservazioni rispetto ad un valore centrale
•Devianza (SS) •Varianza (s2)•Deviazione standard (s)
Possono essere usati per stimare la variabilità nella popolazione generale
20
Devianza (SS)
La somma degli scarti quadratici dei valori dalla media
Più sono i valori “distanti” dalla media nei miei dati, più sarà grande
Cresce con il numero delle osservazioni
21
Varianza (s2)
La devianza (SS) divisa per il numero delle osservazioni
Più è grande più c’è variabilità Non dipende dal numero di
osservazioni Buona stima della variabilità di
una popolazione Difficile da interpretare
22
Deviazione standard
Radice quadrata della varianza
•Riporta la variabilità delle osservazioni in unità di misure significative (la stessa unità di misura della variabile misurata)•Solo per distribuzioni normali
23
Indicatori di Forma
• Kurtosi Misura la concentrazioni dei dati attorno alla media
• Simmetria (Skew) La direzione in cui punta
Esercizi
Calcolate media, mediana, moda, devianza, varianza e deviazione standard dei seguenti set di dati (osservazioni):
•Numero di canestri su 10 lanci liberi per ogni persona (10 persone):
1, 2, 4, 5, 5, 6, 6, 6, 8, 9
•Numero di birre bevute da un pacco da 12 in una notte da ogni persona ad una festa (10 persone):
12, 4, 8, 6, 11, 12, 7, 9, 6, 10
24
25
Statistica Matematica
• Probabilità vs Frequenza
• Variabili Aleatorie Astrazioni che denotano l’incertezza che
precede ad ogni evento
• Distribuzione di probabilità Discrete Continue
26
Distribuzioni
27
Distribuzione Normale
• Famiglia di distribuzioni di probabilità
• Forma “a campana”• Media=mediana=moda• Completamente specificate
da 2 parametri indipendenti μ (media) σ (deviazione standard)
• Moltissimi fenomeni naturali sono distribuiti in modo normale
• Assunta dai test statistici
28
Distribuzione Normale II
μ (media) (ex: punteggio QI di 100)
σ (deviazione standard) (ex: 10 punti QI)
Area della parte colorata è la
probabilità di osservare per caso un valore di QI compreso tra 90 e 110 (68.27%
di probabilità).