Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci...
Transcript of Introduzione alla statistica descrittiva - UniFI · 2009-03-25 · La lista di valori è lunga e ci...
Progetto di diffusione della cultura StatisticaDipartimento di Statistica Regione Toscana Comune di Firenze
Introduzione allastatistica descrittiva
Carla RampichiniDipartimento di Statistica “G. Parenti”Università di Firenze
Materiale: http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/
Tipi di variabiliRiprendiamo in esame le domande contenute nelquestionario e osserviamo che raccolgonoinformazioni di vario tipo: quantitative e qualitativeLe variabili QUANTITATIVE misuranocaratteristiche numeriche: p.e. il peso e l’altezza diuna personaLe variabili QUALITATIVE misurano delle qualità: p.e. il colore degli occhi e dei capelliLe variabili dicotomiche sono variabili qualitative con due sole modalità: p.e. la variabile genereassume le modalità maschio e femmina
Codici
Osserviamo che accanto alle modalitàdelle variabili qualitative compaiono dei numeriQuesti numeri NON sono quantità ma sono dei CODICI che facilitano il lavoro di registrazione dei dati
Classi di modalitàConfrontiamo la dom. 8 e la dom. 9 del questionario: entrambe chiedono di indicare un orario in termini di ore e minuti
Nella Dom. 8 l’orario va indicato per esteso (ore, minuti)? |__|__|:__|__|
Mentre nella Dom. 9 vi è stato chiesto di CLASSIFICARVI in una delle possibili modalità di risposta
1 Prima delle 6.00 4 Dalle 7.00 alle 7.292 Dalle 6.00 alle 6.29 5 Dalle 7.30 in poi3 Dalle 6.30 alle 6.59
Osservate che le modalità di risposta sono ESAUSTIVE e MUTUALMENTE esclusive
quali sono secondo voi vantaggi e svantaggi di questi due modi di presentare la risposta?
Pro e contro domande a risposta aperta e chiusaDom.8 A che ora vai a dormire la sera ora Frequenza ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 21:00:00 1 21:30:00 1 22:00:00 2 22:15:00 2 22:30:00 6 22:45:00 1 22:49:00 1 23:00:00 6 23:15:00 3 23:30:00 12 23:45:00 4 23:47:00 1 0:00:00 11 0:50:00 1 1:00:00 3 1:30:00 1
Dom. 9 A che ora ti svegli al mattino ora Frequenza ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 prima delle 6.00 1 2 6.00-6.29 3 3 6.30-6.59 12 4 7.00-7.29 29 5 7.30 e oltre 11
Domande a risposta aperta chiusa
risposte non note note a prioriinformazione più menodispersione più menoerrori misura più meno
Domande ambigueCome avreste posto la domanda 13
Tu fumi?
Questa domanda è posta in maniera AMBIGUA
Un modo migliore per porre la domanda è
Quante sigarette hai fumato nelle ultime 24 ore?
Confrontare anche le dom. 14 e 15in cosa differiscono?
Consideriamo gli studenti presenti come unità diosservazione, e classifichiamo le seguenti variabili
Quante ore hai dormito stanotte?Quantitativa: 1,2, …, 12
Hai dormito almeno 7 ore stanotte?Qualitativa, dicotomica: sì, no
Quanti stati esteri hai visitato?Quantitativa: 0,1, …
Sei mancino?Qualitativa, dicotomica: sì, no
In quale giorno della settimana sei nato?Qualitativa: lun, mar, mer,gio,ven,sab,dom
Hai studiato ieri pomeriggio ?Qualitativa, dicotomica: sì, no
Per quanto tempo hai studiato ieri pomeriggio?Quantitativa: ore, minuti
Ricordate…La distinzione tra variabili qualitative e quantitative è importante per scegliere ilmetodo da utilizzareMolto spesso la classificazione di unavariabile dipende da come viene misurataUna variabile che assume valori numericicorrispondenti a codici (p.e. CAP) èqualitativa
Validità e affidabilità di una misura (1)alla domanda 8
A che ora vai a dormire abitualmente la sera?avete probabilmente risposto con sincerità, e quindi questa domanda fornisce risposte affidabili
Secondo voi, in base ai risultati della rilevazione, si possono fare affermazioni del tipo “Qualche studente studia poco perché dorme troppo poco?”
In altri termini, secondo voi la dom. 8 dàindicazioni valide per analizzare il rendimento nello studio?
Validità e affidabilità di una misura (2)
Il modo in cui abbiamo misurato il numero di battiti cardiaci è molto approssimato e quindi probabilmente i dati che abbiamo rilevato non sono molto affidabili
Potete fare una verifica misurando per 2 volte i vostri battiti e osservare se avete ottenete la stessa misura
Secondo voi, l’informazione sul numero di battiti cardiaci ci dà indicazioni valide per lo studio del vostro stato di salute?
Osservazioni sulla variabilitàLa variabilità nei dati si riscontra:
in due misurazioni dello stesso oggetto (errore dimisura: p.e. due misurazioni del battito cardiaco)misurazione di due oggetti diversi (p.e. variabilità ‘biologica’: il battito cardiaco a riposoper un adulto dovrebbe variare tra 60 e 100, come nei i vostri dati)nei processi casuali (p.e. due estrazioni con reintroduzione da un’urna contenente pallinenumerate da 1 a 20)
Statistica descrittivascopo principale
sintetizzare e descrivere i dati attraverso
grafici (diagrammi a barre, a torta, boxplot, ecc.)tabelleindici sugli aspetti più importanti
posizione, come la mediavariabilità, come la varianzaconcentrazionerelazione tra variabili
Distribuzione e sintesi dei datiI dati sono un lungo elenco di valori ed è difficiletrovare una regolarità: ecco i dati raccolti in classeSe volete confrontare la vostra altezza con quelladei compagni come fate? La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri!Leggiamo invece una sintesi dei valori raccolti:
il 50% centrale dei valori è compreso tra 168 e 180 cm la metà delle altezze è superiore a 175 cm e l’altra metàè inferiore a questo valore
Se siete alti p.e. 178 cm, in base a questasintesi sapete subito che la vostra altezza sitrova nella parte centrale della distribuzione, non lontana dal valore centraleNotate che questa sintesi vi fornisce due informazioni: il valore centrale è 175 cm e le altezze si distribuiscono intorno a questovalore, variando tra 170 e 180 cm nella partecentrale (50% delle altezze) della distribuzioneSpesso questo tipo di sintesi fornisce tutte le informazioni necessarie per capire l’andamentodel fenomeno, soprattutto quando la forma delladistribuzione è una di quelle tipiche
Distribuzione e sintesi dei dati
Matrice dei datiI dati sono di solito raccolti in forma RETTANGOLARE: matrice righe ×colonne
ogni riga della matrice corrisponde ad una unitàdi osservazioneogni colonna della matrice corrisponde ad una variabile
Esempio dati raccolti in classe: 56 oss × 16 varEsempio dati mammiferi: 39 osserv × 6 variabili
DistribuzioniL’insieme dei valori assunti da una variabile e la frequenza con cui ogni valore si presenta tra le unità di osservazione produce la DISTRIBUZIONEdei dati selvaggio
1 290 10
TOT 391 1 22 0 53 0 0 0 2 5 94 0 0 0 2 5 85 067 0
Steam-and-leaf-plot
Tabella modalità e frequenze
distribuzione dei mammiferi in base alla variabile SELVAGGIO
distribuzione dei mammiferi in base alla velocità
Distribuzione degli studentiMezzo di trasporto utilizzatoaltezza
Stem Leaf192 0 190 188 00 186 184 00 182 000 180 00000000 178 0000000 176 0000 174 000 172 0000 170 00000 168 00000000 166 0 164 00 162 000 160 000
----+----+----+----+
mezzo cod freq %a piedi 1 4 7.14bici 2 1 1.79motorino 3 23 41.07auto 4 16 28.57bus 5 6 10.71bus+altro 6 6 10.71Totale 56 100.00
Come si esplorano i dati?Ogni analisi esplorativa dovrebbe seguire questi passi
grafico → forma → centro → dispersione
1. Tracciare il grafico più appropriato2. Descrivere la forma della distribuzione in base al grafico e
indici di forma3. Calcolare una misura del centro della distribuzione,
appropriata in base alla forma della distribuzione4. Calcolare un indice di dispersione appropriato in base
alla forma della distribuzione e coerente con la misura dicentro utilizzata
UTILIZZARE GRAFICI E INDICI APPROPRIATI IN BASE AL TIPO DI VARIABILE
Aspetti notevoli delle distribuzioni
centro
Coda sinistra Coda destra
Aspetti caratterizzanti le distribuzioni: posizione e variabilità
Più a sinistra Più a destra
Posizione
Meno variabile
più variabile
Variabilità
Aspetti caratterizzanti le distribuzioni: forma
asimmetrica simmetrica
Grafici per variabili quantitativePer capire come sintetizzare una distribuzione è utile conoscere la sua forma
La forma di una distribuzione può essere vista attraverso un grafico
Grafici più utilizzati● Dotplot ● Steam and leaf plot● Istogramma ● Plot frequenze cumulate● Boxplot
Esempio mammiferii gatti domestici vivono circa 12 anni,ma possono vivere anche fino a 28 anni. Questa durata è tipica di altri carnivori domestici?
Cosa si può dire per i mammiferi domestici che non sono predatori, come le mucche e i maiali?E per i mammiferi che vivono allo stato selvaggio? I rinoceronti, mammiferi non predatori, vivono in media 15 anni, con una durata massima di 45 anni. Mentre l’orso grizzly, che è un predatore, vive in media 25 anni, con una durata di vita massima di circa 50 anni. Possiamo affermare che tra i mammiferi selvaggi i carnivori vivono più a lungo dei vegetariani?
Possiamo rispondere ad alcune di queste domande osservando i grafici dei dati raccolti
DOTPLOT
5 15 25 35 45 55 65 75velocità (mph)
mostra i singoli casi osservati come puntidal dotplot possiamo vedere la forma, il centro e la dispersione dei dati
Il dot plot è utile quando:•si hanno pochi casi•si vogliono vedere i singoli valori•si vuole vedere qual è la forma della distribuzione•si vogliono confrontare pochi gruppi
Quando leggete un dot plot, tenete presente che software diversi fanno dot plot diversi: a volte 1 punto rappresenta 1 singolo caso, a volte 2 o più casi, a volte i valori vengono arrotondati
dotplot studenti per genere e altezza (cm)
0
5
10
15
157 162 167 172 177 182 187 192 197
femmine, maschiAltezza in classi di 5cm
( valori centrali di classe p.e. 162 [160,164])
Alcuni approfondimenti …Classifichiamo ogni variabile che compare nella matrice dei dati dei mammiferi come quantitativa o qualitativa ►Consideriamo la variabile velocità dei mammiferi
Contiamo il numero di mammiferi la cui velocità finisce con 0 o 5
sono 12 su 18, cioè i 2/3Quanti valori pensate sarebbero finiti per 0 o 5 per il solo effetto del caso?
2/10 di 18 cioè 3.6Quali sono le spiegazioni possibili del fatto che le risposte ai due quesiti precedenti sono così diverse?
Vedi risposta R1
Dotplot per durata della gestazione
lavoroCostruiamo il dotplot (vedi foglio di )Osservando il dotplot proviamo a descrivere la forma, il centro e la dispersione
Quali mammiferi presentano la gestazione piùlunga?
Quelli più grandi!
risposte
R1La spiegazione più plausibile è che le velocità sono stime per gli animali selvaggiChi andrebbe a misurare la velocità di un grizzly in natura?
Le velocità che non finiscono per 0 o 5 sono quelle relative ad animali domestici: cane, volpe, giraffa, cavallo, maiale e scoiattolo.Per questi mammiferi, ad eccezione della giraffa, la velocità può essere misurata in maniera accurata: sicuramente nel caso di gare di corsa per cavalli e cani!
R2La distribuzione è centrata verso i valori più bassi, senza gruppi o buchi particolariC’è una sorta di ‘muro’ a 0 giorni, perché nessun mammifero può avere un periodo di gestazione piùpiccolo!
0 100 200 300 400 500 600 700durata gestazione (giorni)
elefante
L’elefante è l’unico mammifero fuori norma (outlier)Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 160 giorni e la metà hanno un periodo più breveLa metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni.
160160
Tipo variabili mammiferi
MammiferoPeriodo di gestazioneDurata vita mediaDurata vita maxVelocitàSelvaggioPredatore
È un’etichettaQuantitativa ggQuantitativa anniQuantitativa anniQuantitativa mphQualitativa sì/noQualitativa sì/no
Istogramma altezza