Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci...

32
Progetto di diffusione della cultura Statistica Dipartimento di Statistica Regione Toscana Comune di Firenze Introduzione alla statistica descrittiva Carla Rampichini Dipartimento di Statistica “G. Parenti” Università di Firenze Materiale: http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/

Transcript of Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci...

Page 1: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Progetto di diffusione della cultura StatisticaDipartimento di Statistica Regione Toscana Comune di Firenze

Introduzione allastatistica descrittiva

Carla RampichiniDipartimento di Statistica “G. Parenti”Università di Firenze

Materiale: http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/

Page 2: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Tipi di variabiliRiprendiamo in esame le domande contenute nelquestionario e osserviamo che raccolgonoinformazioni di vario tipo: quantitative e qualitativeLe variabili QUANTITATIVE misuranocaratteristiche numeriche: p.e. il peso e l’altezza diuna personaLe variabili QUALITATIVE misurano delle qualità: p.e. il colore degli occhi e dei capelliLe variabili dicotomiche sono variabili qualitative con due sole modalità: p.e. la variabile genereassume le modalità maschio e femmina

Page 3: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Codici

Osserviamo che accanto alle modalitàdelle variabili qualitative compaiono dei numeriQuesti numeri NON sono quantità ma sono dei CODICI che facilitano il lavoro di registrazione dei dati

Page 4: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Classi di modalitàConfrontiamo la dom. 8 e la dom. 9 del questionario: entrambe chiedono di indicare un orario in termini di ore e minuti

Nella Dom. 8 l’orario va indicato per esteso (ore, minuti)? |__|__|:__|__|

Mentre nella Dom. 9 vi è stato chiesto di CLASSIFICARVI in una delle possibili modalità di risposta

1 Prima delle 6.00 4 Dalle 7.00 alle 7.292 Dalle 6.00 alle 6.29 5 Dalle 7.30 in poi3 Dalle 6.30 alle 6.59

Osservate che le modalità di risposta sono ESAUSTIVE e MUTUALMENTE esclusive

quali sono secondo voi vantaggi e svantaggi di questi due modi di presentare la risposta?

Page 5: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Pro e contro domande a risposta aperta e chiusaDom.8 A che ora vai a dormire la sera ora Frequenza ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 21:00:00 1 21:30:00 1 22:00:00 2 22:15:00 2 22:30:00 6 22:45:00 1 22:49:00 1 23:00:00 6 23:15:00 3 23:30:00 12 23:45:00 4 23:47:00 1 0:00:00 11 0:50:00 1 1:00:00 3 1:30:00 1

Dom. 9 A che ora ti svegli al mattino ora Frequenza ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 prima delle 6.00 1 2 6.00-6.29 3 3 6.30-6.59 12 4 7.00-7.29 29 5 7.30 e oltre 11

Domande a risposta aperta chiusa

risposte non note note a prioriinformazione più menodispersione più menoerrori misura più meno

Page 6: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Domande ambigueCome avreste posto la domanda 13

Tu fumi?

Questa domanda è posta in maniera AMBIGUA

Un modo migliore per porre la domanda è

Quante sigarette hai fumato nelle ultime 24 ore?

Confrontare anche le dom. 14 e 15in cosa differiscono?

Page 7: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Consideriamo gli studenti presenti come unità diosservazione, e classifichiamo le seguenti variabili

Quante ore hai dormito stanotte?Quantitativa: 1,2, …, 12

Hai dormito almeno 7 ore stanotte?Qualitativa, dicotomica: sì, no

Quanti stati esteri hai visitato?Quantitativa: 0,1, …

Sei mancino?Qualitativa, dicotomica: sì, no

In quale giorno della settimana sei nato?Qualitativa: lun, mar, mer,gio,ven,sab,dom

Hai studiato ieri pomeriggio ?Qualitativa, dicotomica: sì, no

Per quanto tempo hai studiato ieri pomeriggio?Quantitativa: ore, minuti

Page 8: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Ricordate…La distinzione tra variabili qualitative e quantitative è importante per scegliere ilmetodo da utilizzareMolto spesso la classificazione di unavariabile dipende da come viene misurataUna variabile che assume valori numericicorrispondenti a codici (p.e. CAP) èqualitativa

Page 9: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Validità e affidabilità di una misura (1)alla domanda 8

A che ora vai a dormire abitualmente la sera?avete probabilmente risposto con sincerità, e quindi questa domanda fornisce risposte affidabili

Secondo voi, in base ai risultati della rilevazione, si possono fare affermazioni del tipo “Qualche studente studia poco perché dorme troppo poco?”

In altri termini, secondo voi la dom. 8 dàindicazioni valide per analizzare il rendimento nello studio?

Page 10: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Validità e affidabilità di una misura (2)

Il modo in cui abbiamo misurato il numero di battiti cardiaci è molto approssimato e quindi probabilmente i dati che abbiamo rilevato non sono molto affidabili

Potete fare una verifica misurando per 2 volte i vostri battiti e osservare se avete ottenete la stessa misura

Secondo voi, l’informazione sul numero di battiti cardiaci ci dà indicazioni valide per lo studio del vostro stato di salute?

Page 11: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Osservazioni sulla variabilitàLa variabilità nei dati si riscontra:

in due misurazioni dello stesso oggetto (errore dimisura: p.e. due misurazioni del battito cardiaco)misurazione di due oggetti diversi (p.e. variabilità ‘biologica’: il battito cardiaco a riposoper un adulto dovrebbe variare tra 60 e 100, come nei i vostri dati)nei processi casuali (p.e. due estrazioni con reintroduzione da un’urna contenente pallinenumerate da 1 a 20)

Page 12: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Statistica descrittivascopo principale

sintetizzare e descrivere i dati attraverso

grafici (diagrammi a barre, a torta, boxplot, ecc.)tabelleindici sugli aspetti più importanti

posizione, come la mediavariabilità, come la varianzaconcentrazionerelazione tra variabili

Page 13: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Distribuzione e sintesi dei datiI dati sono un lungo elenco di valori ed è difficiletrovare una regolarità: ecco i dati raccolti in classeSe volete confrontare la vostra altezza con quelladei compagni come fate? La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri!Leggiamo invece una sintesi dei valori raccolti:

il 50% centrale dei valori è compreso tra 168 e 180 cm la metà delle altezze è superiore a 175 cm e l’altra metàè inferiore a questo valore

Page 14: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Se siete alti p.e. 178 cm, in base a questasintesi sapete subito che la vostra altezza sitrova nella parte centrale della distribuzione, non lontana dal valore centraleNotate che questa sintesi vi fornisce due informazioni: il valore centrale è 175 cm e le altezze si distribuiscono intorno a questovalore, variando tra 170 e 180 cm nella partecentrale (50% delle altezze) della distribuzioneSpesso questo tipo di sintesi fornisce tutte le informazioni necessarie per capire l’andamentodel fenomeno, soprattutto quando la forma delladistribuzione è una di quelle tipiche

Distribuzione e sintesi dei dati

Page 15: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Matrice dei datiI dati sono di solito raccolti in forma RETTANGOLARE: matrice righe ×colonne

ogni riga della matrice corrisponde ad una unitàdi osservazioneogni colonna della matrice corrisponde ad una variabile

Esempio dati raccolti in classe: 56 oss × 16 varEsempio dati mammiferi: 39 osserv × 6 variabili

Page 16: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

DistribuzioniL’insieme dei valori assunti da una variabile e la frequenza con cui ogni valore si presenta tra le unità di osservazione produce la DISTRIBUZIONEdei dati selvaggio

1 290 10

TOT 391 1 22 0 53 0 0 0 2 5 94 0 0 0 2 5 85 067 0

Steam-and-leaf-plot

Tabella modalità e frequenze

distribuzione dei mammiferi in base alla variabile SELVAGGIO

distribuzione dei mammiferi in base alla velocità

Page 17: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Distribuzione degli studentiMezzo di trasporto utilizzatoaltezza

Stem Leaf192 0 190 188 00 186 184 00 182 000 180 00000000 178 0000000 176 0000 174 000 172 0000 170 00000 168 00000000 166 0 164 00 162 000 160 000

----+----+----+----+

mezzo cod freq %a piedi 1 4 7.14bici 2 1 1.79motorino 3 23 41.07auto 4 16 28.57bus 5 6 10.71bus+altro 6 6 10.71Totale 56 100.00

Page 18: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Come si esplorano i dati?Ogni analisi esplorativa dovrebbe seguire questi passi

grafico → forma → centro → dispersione

1. Tracciare il grafico più appropriato2. Descrivere la forma della distribuzione in base al grafico e

indici di forma3. Calcolare una misura del centro della distribuzione,

appropriata in base alla forma della distribuzione4. Calcolare un indice di dispersione appropriato in base

alla forma della distribuzione e coerente con la misura dicentro utilizzata

UTILIZZARE GRAFICI E INDICI APPROPRIATI IN BASE AL TIPO DI VARIABILE

Page 19: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Aspetti notevoli delle distribuzioni

centro

Coda sinistra Coda destra

Page 20: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Aspetti caratterizzanti le distribuzioni: posizione e variabilità

Più a sinistra Più a destra

Posizione

Meno variabile

più variabile

Variabilità

Page 21: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Aspetti caratterizzanti le distribuzioni: forma

asimmetrica simmetrica

Page 22: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Grafici per variabili quantitativePer capire come sintetizzare una distribuzione è utile conoscere la sua forma

La forma di una distribuzione può essere vista attraverso un grafico

Grafici più utilizzati● Dotplot ● Steam and leaf plot● Istogramma ● Plot frequenze cumulate● Boxplot

Page 23: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Esempio mammiferii gatti domestici vivono circa 12 anni,ma possono vivere anche fino a 28 anni. Questa durata è tipica di altri carnivori domestici?

Cosa si può dire per i mammiferi domestici che non sono predatori, come le mucche e i maiali?E per i mammiferi che vivono allo stato selvaggio? I rinoceronti, mammiferi non predatori, vivono in media 15 anni, con una durata massima di 45 anni. Mentre l’orso grizzly, che è un predatore, vive in media 25 anni, con una durata di vita massima di circa 50 anni. Possiamo affermare che tra i mammiferi selvaggi i carnivori vivono più a lungo dei vegetariani?

Possiamo rispondere ad alcune di queste domande osservando i grafici dei dati raccolti

Page 24: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

DOTPLOT

5 15 25 35 45 55 65 75velocità (mph)

mostra i singoli casi osservati come puntidal dotplot possiamo vedere la forma, il centro e la dispersione dei dati

Il dot plot è utile quando:•si hanno pochi casi•si vogliono vedere i singoli valori•si vuole vedere qual è la forma della distribuzione•si vogliono confrontare pochi gruppi

Quando leggete un dot plot, tenete presente che software diversi fanno dot plot diversi: a volte 1 punto rappresenta 1 singolo caso, a volte 2 o più casi, a volte i valori vengono arrotondati

Page 25: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

dotplot studenti per genere e altezza (cm)

0

5

10

15

157 162 167 172 177 182 187 192 197

femmine, maschiAltezza in classi di 5cm

( valori centrali di classe p.e. 162 [160,164])

Page 26: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Alcuni approfondimenti …Classifichiamo ogni variabile che compare nella matrice dei dati dei mammiferi come quantitativa o qualitativa ►Consideriamo la variabile velocità dei mammiferi

Contiamo il numero di mammiferi la cui velocità finisce con 0 o 5

sono 12 su 18, cioè i 2/3Quanti valori pensate sarebbero finiti per 0 o 5 per il solo effetto del caso?

2/10 di 18 cioè 3.6Quali sono le spiegazioni possibili del fatto che le risposte ai due quesiti precedenti sono così diverse?

Vedi risposta R1

Page 27: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Dotplot per durata della gestazione

lavoroCostruiamo il dotplot (vedi foglio di )Osservando il dotplot proviamo a descrivere la forma, il centro e la dispersione

Quali mammiferi presentano la gestazione piùlunga?

Quelli più grandi!

Page 28: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

risposte

Page 29: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

R1La spiegazione più plausibile è che le velocità sono stime per gli animali selvaggiChi andrebbe a misurare la velocità di un grizzly in natura?

Le velocità che non finiscono per 0 o 5 sono quelle relative ad animali domestici: cane, volpe, giraffa, cavallo, maiale e scoiattolo.Per questi mammiferi, ad eccezione della giraffa, la velocità può essere misurata in maniera accurata: sicuramente nel caso di gare di corsa per cavalli e cani!

Page 30: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

R2La distribuzione è centrata verso i valori più bassi, senza gruppi o buchi particolariC’è una sorta di ‘muro’ a 0 giorni, perché nessun mammifero può avere un periodo di gestazione piùpiccolo!

0 100 200 300 400 500 600 700durata gestazione (giorni)

elefante

L’elefante è l’unico mammifero fuori norma (outlier)Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 160 giorni e la metà hanno un periodo più breveLa metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni.

160160

Page 31: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Tipo variabili mammiferi

MammiferoPeriodo di gestazioneDurata vita mediaDurata vita maxVelocitàSelvaggioPredatore

È un’etichettaQuantitativa ggQuantitativa anniQuantitativa anniQuantitativa mphQualitativa sì/noQualitativa sì/no

Page 32: Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi

Istogramma altezza