Esercitazione di riepilogo 23 Aprile 2013 - INTRANET · Altri diagrammi (diagramma logaritmico, di...
-
Upload
hoanghuong -
Category
Documents
-
view
223 -
download
0
Transcript of Esercitazione di riepilogo 23 Aprile 2013 - INTRANET · Altri diagrammi (diagramma logaritmico, di...
Grafici Grafico a barre
◦ Servono principalmente per rappresentare variabili (caratteri) qualitative, quantitative e discrete.
Grafico a settori circolari (torta)
◦ Si usano quando si vuole evidenziare come il fenomeno viene suddiviso tra le varie modalità che lo compongono.
Istogramma
◦ Vengono utilizzati per rappresentare distribuzioni di variabili quantitative continue, rappresentate in classi
Diagramma cartesiano
◦ Si usa quando si vuole rappresentare l’andamento di un fenomeno (serie statistica), che varia in funzione di un parametro.
Diagramma di dispersione
◦ Si usano nel caso di una statistica doppia, in cui entrambi i caratteri sono delle variabili
◦ Serve per osservare la “dispersione” ossia la vicinanza o distanza tra le unità statistiche
Altri diagrammi (diagramma logaritmico, di Pareto, scatola e baffi)
Istogramma
Vengono utilizzati per rappresentare distribuzioni di
variabili quantitative continue, rappresentate in classi
Classi di uguale ampiezza
Rettangoli con
- stessa base
-altezza proporzionale alla frequenza
area dei rettangoli = frequenza totale
moltiplicato l’ampiezza della classe
Classi di ampiezza diversa
Rettangoli con
-Base proporzionali all’ampiezza
della classe
-Altezza proporzionale alla densità
di frequenza (freq. diviso ampiezza
della classe)
Area dei rettangoli = frequenza della
classe
Automaticamente
Usando “Analisi dei dati”: Istogramma
dà automaticamente classi, frequenze e
relativo istogramma.
Eventualmente raffinare le classi.
Manualmente…
Calcola l’ampiezza delle classi
Calcola la densità di frequenza
(frequenza/ampiezza)
Sulle ascisse rappresenta le classi
Si “innalzano” i rettangoli di base due
valori successivi delle ascisse, e per
altezze le densità
Frequenza
Come estrarre queste frequenze con Excel?
1. Considerare solo la colonna dei tempi
2. Individuare il valore minimo e il valore massimo
(funzioni)
3. Preparare la colonna delle classi di singolo valore, a
partire dal minimo fino al massimo. Usare il
Riempimento (Home) e incremento di 1.
Abbiamo creato quindi le classi di ampiezza 1.
Vogliamo ora calcolare le frequenze di ogni singolo valore
(queste sono le nostre classi).
Frequenza
Come estrarre queste frequenze con Excel?
La funzione FREQUENZA ha bisogno di una matrice dati (quindi
selezionare la colonna dei tempi) e di una matrice delle classi (quindi
selezionare quella appena creata).
Attenzione: affinché sia riportata la frequenza per ogni valore della classe,
occorre che la formula sia in “forma di matrice”. Occorre quindi, PRIMA
di richiamare la funzione evidenziare la colonna in cui andrà il risultato
(tante celle quante sono le classi +1)
Quando poi, dalla finestra di dialogo della funzione FREQUENZA, si
immette la matrice delle classi, non premere INVIO ma premere
CTRL+MAIUSC+INVIO. Se non si fa così, si visualizza un solo valore.
Esercizio Esercizio 1 (Istogramma delle frequenze)
La tabella disponibile nel file EsameIstogrammaGeyser.xlsx fornisce un
campione di 24 misurazioni dei tempi di attesa per l’eruzione successiva (in
minuti).
a) Fornire un istogramma delle frequenze dei tempi di eruzione del geyser
scegliendo opportunamente le classi in modo che rappresentino in maniera
significativa il fenomeno, utilizzando lo strumento Analisi dei dati.
b) Ripetere l’esercizio (di cui al punto a)) senza far uso dello strumento
Analisi dei dati, ma calcolando i valori necessari (frequenze, etc.) con le
opportune funzioni di Excel, in modo che l’istogramma risultante sia identico
a quello fornito al punto a).
Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio
nominato Svolgimento a), e il punto b) in un foglio nominato
Svolgimento b).
Altri grafici 2.7
Diagramma logaritmico: variante del diagramma cartesiano; si
usa se ci sono valori delle y molto piccoli e molto grandi (nessuna
scala sarebbe adeguata), oppure se si vogliono evidenziare le
variazioni in percentuale, piuttosto che quelle assolute
Diagramma di Pareto: serve per rappresentare la perdita
economica (difettosità e loro costi).
Diagramma a scatola e baffi (box-plot): consente di
visualizzare alcune caratteristiche della distribuzione statistica
(campo di variazione, percentili, media aritmetica, mediana, massimo,
minimo)
Diagramma logaritmico – Esempio 2.11 Diagramma logaritmico: variante del diagramma cartesiano; si
usa se ci sono valori delle y molto piccoli e molto grandi (nessuna
scala sarebbe adeguata), oppure se si vogliono evidenziare le
variazioni in percentuale, piuttosto che quelle assolute.
Si usa la scala logaritmica per rappresentare le ordinate
Anni Passeggeri
(migliaia)
1948 212
1953 324
1958 922
1963 2855
1968 5612
1973 10171
1978 12842
1983 14864
Esempio 2.11. La tabella mostra il
traffico dei passeggeri negli
aeroporti italiani nel periodo
1948-1983.
Diagramma logaritmico
Anni Passeggeri
(migliaia)
1948 212
1953 324
1958 922
1963 2855
1968 5612
1973 10171
1978 12842
1983 14864
1
10
100
1000
10000
100000
19481953195819631968197319781983
Passeggeri (migliaia)
Passeggeri…
0
2000
4000
6000
8000
10000
12000
14000
16000
1948 1953 1958 1963 1968 1973 1978 1983
Passeggeri (migliaia)
Passeggeri
(migliaia)
Diagramma cartesiano Diagramma logaritmico
Esempio 2.11
Usiamo la scala logaritmica (valori molto distanti tra loro…)
Creiamo il foglio con i dati
Scegliamo il grafico Logaritmico
Nella casella Serie e Etichette X indicare le celle relative agli anni
Nella etichetta Serie e Valori indicare le celle con i valori del traffico
PROVIAMO
Se non c’è questa opzione, fare clic sul grafico.
Formato Selezione corrente : fare clic sulla freccia
accanto alla casella Area del grafico e quindi su Asse
verticale (valori).
Doppi click su Formato Selezione : Opzioni assi: per
modificare l'asse dei valori in logaritmico, selezionare la casella di
controllo Scala logaritmica.
Diagramma di Pareto
Diagrammi di Pareto: servono per rappresentare la
perdita economica (difettosità e loro costi).
Ordinate: frequenza di ciascun tipo di difetto
riscontrato
Ascisse: tipologie di difetto in ordine di frequenza
decrescente
Curva cumulativa: rappresenta i valori cumulativi per
ciascun tipo di difetto è possibile valutare quanto
siano “pesanti” i primi difetti rispetto alla globalità dei
difetti
Esempio 2.12
La tabella seguente riporta la distribuzione, per tipologia di difetto,
di 200 pezzi meccanici. Graficare l’andamento della difettosità.
Tipo di difetto Numero di
difetti
deformazione 104
foro 42
graffio 20
giuoco 14
rottura 10
macchia 7
altri 3
Riportare i dati nel foglio excel. Ordinare i dati in senso decrescente (dati, ordina),
in un nuovo foglio. Aggiungere C1 “totale cumulato”; in C3 inserire =B3 e poi in
C4 inserire =B4+C3 e poi trascinare.
Per le percentuali cumulate, nella cella D3 digitare =C3/$C$9 e poi trascinamento
(formattare celle come “percentuali”)
Tipo di difetto Numero di Totale Percentuale
difetti cumulato cumulata
deformazione 104 104 52,00%
foro 42 146 73,00%
graffio 20 166 83,00%
giuoco 14 180 90,00%
rottura 10 190 95,00%
macchia 7 197 98,50%
altri 3 200 100,00%
Ora dobbiamo inserire il grafico.
Selezioniamo le celle B1:B9 e D1:D9;
selezioniamo Grafico Istogramma
Serie, Etichette asse X: selezionare A3:A10
Valori: B3:B9
Selezionare la parte di istogramma che riguarda la percentuale cumulata e
cambiare il grafico (a linee). Poi, selezionare la serie “percentuale
cumulata” (formato, elementi grafico – menu sinistra) e “formato
selezione.” Opzioni serie “traccia la serie lungo asse secondario”.
Diagramma
di Pareto
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
120,00%
0
20
40
60
80
100
120
Numero di difettiPercentuale…
Tipo di difetto Numero di Totale Percentuale
difetti cumulato cumulata
deformazione 104 104 52,00%
foro 42 146 73,00%
graffio 20 166 83,00%
giuoco 14 180 90,00%
rottura 10 190 95,00%
macchia 7 197 98,50%
altri 3 200 100,00%
Diagramma a scatola e baffi (box-plot)
Diagramma a scatola e baffi (box-plot): consente di visualizzare
alcune caratteristiche della distribuzione statistica (campo di
variazione, percentili, media aritmetica, mediana, massimo, minimo)
Internamente alla scatola sono rappresentati: mediana e media
aritmetica
Le linee esterne rappresentano il I e il III quartile (la distanza
misura la dispersione della distribuzione)
La distanza tra ciascun quartile e la mediana rappresenta la forma
della distribuzione
◦ Se è diversa, la distribuzione è asimmetrica
◦ Se la distribuzione è normale, media e mediana coincidono; le distanze
tra I quartile e mediana e tra mediana e III quartile coincidono, così
come minimo e I quartile, III quartile e massimo. In generale, queste
distanze danno informazioni sulla forma della coda della distribuzione
Esempio 2.14
Sia data una tabella che riporta il diametro (cm) di 25 tubi
prodotti da 3 macchinari diversi.
PROVIAMO
Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base
(inserire la formula relativa alla macchina A, poi fare il trascinamento).
Esempio 2.14
Sia data una tabella che riporta il diametro (cm) di 25 tubi
prodotti da 3 macchinari diversi.
PROVIAMO
Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base
(inserire la formula relativa alla macchina A, poi fare il trascinamento).
Dobbiamo inserire il grafico.
Selezioniamo le celle F2:I8 e inseriamo il grafico a linee (con indicatori).
Cambiare l’opzione di Selezionata dati “Scambia colonne/righe”
PROVIAMO
Esempio 2.14
Le 3 osservazioni sono unite da linee che non ci interessano.
Per rimuoverle, nel menù Formato selezionare nel menù a tendina a sinistra la
serie dei dati selezionati, per es. Serie I quartile, doppio click su Formato
selezione, selezionare la linea, Colore Linea “nessuna”;
Nel menù Layout, selezionare Analisi; poi indicare “LineeLinee di Min-
Max” e poi “Barre Barre Crescenti-decrescenti”
PROVIAMO
Diagramma boxplot
73,93
73,94
73,95
73,96
73,97
73,98
73,99
74
74,01
74,02
74,03
74,04
Macchina A Macchina B Macchina C
I° quartile
valore minimo
media
mediana
valore massimo
III° quartile
Sintesi dei dati in una tabella
Spesso si vuole effettuare una sintesi dei
dati per ottenere indici che misurino gli
aspetti più rilevanti.
◦ Indici di posizione / misure di tendenza
centrale: medie, mediana, quartili, percentili e
moda (cap. 3)
◦ Indici di variabilità: range, varianza, scarto
quadratico medio (cap. 4)
◦ Indici di forma: asimmetria e curtosi (cap.5)
Indici: Schema riassuntivo
•media:
•moda: punto di max della distribuzione
•mediana: valore sotto al quale cadono la metà dei valori campionari. Si
dispongono i dati in ordine crescente e si prende quello che occupa la posizione
centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)
N
xx i i
•varianza
•deviazione standard
•range
•skewness (coeff. di asimmetria)
•curtosi: misura quanto la distribuzione è appuntita
2
2
1
iix x
sN
sminmax xxR
di
posi
zione
di
dis
per
sione
di
di
form
a
>0 coda a ds
<0 coda a sin
=0 simmetrica
> 0 più appuntita < 0 meno appuntita
Principali indici statistici
I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Siano n osservazioni numeriche 1 2, ,..., nx x x
di posizione
di forma
di dispersione
MODA
MEDIANA
MEDIA
QUARTILI E PERCENTILI
SCARTO QUADRATICO MEDIO
VARIANZA
RANGE
ERRORE STANDARD
ASIMMETRIA (SKEWNESS)
CURTOSI ( KURTOSIS)
INDICI
Errore standard
Sebbene lo strumento di statistica descrittiva negli strumenti di analisi è in grado di generare un report che include l'errore standard della media, non esiste alcuna funzione in Microsoft Excel per calcolare automaticamente il valore di per sé.
Per calcolare l'errore standard della media, si può utilizzare = DEV.ST(matrice)/SQRT(Conteggio)
Più piccolo/grande(k)
Per calcolare il minimo, il secondo minimo,
e in genere il k-esimo elemento più piccolo,
si usa:
PICCOLO(matrice; k)
Analogamente per il k-esimo elemento più
grande
GRANDE(matrice; k)
Statistica descrittiva (cap.6)
Molti indici trattati finora sono generati
automaticamente da Excel, usando Statistica
descrittiva del menù Analisi dei dati.
Proviamo
◦ Etichette nella prima riga/Etichette nella prima
colonna: deselezionarle se l’intervallo non contiene
etichette (altrimenti selezionare quella appropriata,
come nell’esempio 6.3)
Esempio 6.1 La tabella seguente riporta il peso in grammi di un campione
di 100 tavolette di cioccolato.
Proviamo a richiamare la funzione Riepilogo statistiche
Media 99,79652336
Errore standard 0,010062453
Mediana 99,79312502
Moda #N/D
Deviazione standard 0,100624532
Varianza campionaria 0,010125296
Curtosi 0,083114239
Asimmetria 0,069723767
Intervallo 0,484818884
Minimo 99,55261744
Massimo 100,0374363
Somma 9979,652336
Conteggio 100
Più grande(1) 100,0374363
Più piccolo(1) 99,55261744
Non
esistono
duplicati
Funzioni del Riepilogo statistiche
Riepilogo statistiche
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Più grande(2)
Più piccolo(3)
=MEDIA(A2:A101)
=DEV.ST(A2:A101)/RADQ(G14)
=MEDIANA(A2:A101)
=MODA(A2:A101)
=DEV.ST(A2:A101)
=VAR(A2:A101)
=CURTOSI(A2:A101)
=ASIMMETRIA(A2:A101)
=MAX(A2:A101)-MIN(A2:A101)
=MIN(A2:A101)
=MAX(A2:A101)
=SOMMA(A2:A101)
=CONTA.NUMERI(A2:A101)
=GRANDE(A2:A101;2)
=PICCOLO(A2:A101;3)
Non hanno
funzione
esplicita
Manualmente:
Esercizio Esercizio 2 (Riepilogo statistiche)
La tabella nel file Esempio 6.1 alla pagina
http://www.di.unisa.it/professori/anselmo/LabPIXBio.htm, riporta il peso in
grammi di un campione di 100 tavolette di cioccolato.
a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella
tabella, che contenga, oltre alle statistiche standard (media, mediana, …)
anche il Secondo più grande e il Terzo più piccolo, utilizzando la
funzione Riepilogo statistiche.
b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione
Riepilogo statistiche, ma calcolando i valori necessari (media, mediana,
etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia
identica a quello fornita al punto a).
Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio
nominato Svolgimento a), e il punto b) in un foglio nominato
Svolgimento b).