Esercitazione di riepilogo 23 Aprile 2013 - INTRANET · Altri diagrammi (diagramma logaritmico, di...

30
Esercitazione di riepilogo 23 Aprile 2013

Transcript of Esercitazione di riepilogo 23 Aprile 2013 - INTRANET · Altri diagrammi (diagramma logaritmico, di...

Esercitazione di riepilogo

23 Aprile 2013

Grafici Grafico a barre

◦ Servono principalmente per rappresentare variabili (caratteri) qualitative, quantitative e discrete.

Grafico a settori circolari (torta)

◦ Si usano quando si vuole evidenziare come il fenomeno viene suddiviso tra le varie modalità che lo compongono.

Istogramma

◦ Vengono utilizzati per rappresentare distribuzioni di variabili quantitative continue, rappresentate in classi

Diagramma cartesiano

◦ Si usa quando si vuole rappresentare l’andamento di un fenomeno (serie statistica), che varia in funzione di un parametro.

Diagramma di dispersione

◦ Si usano nel caso di una statistica doppia, in cui entrambi i caratteri sono delle variabili

◦ Serve per osservare la “dispersione” ossia la vicinanza o distanza tra le unità statistiche

Altri diagrammi (diagramma logaritmico, di Pareto, scatola e baffi)

Istogramma

Vengono utilizzati per rappresentare distribuzioni di

variabili quantitative continue, rappresentate in classi

Classi di uguale ampiezza

Rettangoli con

- stessa base

-altezza proporzionale alla frequenza

area dei rettangoli = frequenza totale

moltiplicato l’ampiezza della classe

Classi di ampiezza diversa

Rettangoli con

-Base proporzionali all’ampiezza

della classe

-Altezza proporzionale alla densità

di frequenza (freq. diviso ampiezza

della classe)

Area dei rettangoli = frequenza della

classe

Automaticamente

Usando “Analisi dei dati”: Istogramma

dà automaticamente classi, frequenze e

relativo istogramma.

Eventualmente raffinare le classi.

Manualmente…

Calcola l’ampiezza delle classi

Calcola la densità di frequenza

(frequenza/ampiezza)

Sulle ascisse rappresenta le classi

Si “innalzano” i rettangoli di base due

valori successivi delle ascisse, e per

altezze le densità

Frequenza

Come estrarre queste frequenze con Excel?

1. Considerare solo la colonna dei tempi

2. Individuare il valore minimo e il valore massimo

(funzioni)

3. Preparare la colonna delle classi di singolo valore, a

partire dal minimo fino al massimo. Usare il

Riempimento (Home) e incremento di 1.

Abbiamo creato quindi le classi di ampiezza 1.

Vogliamo ora calcolare le frequenze di ogni singolo valore

(queste sono le nostre classi).

Frequenza

Come estrarre queste frequenze con Excel?

La funzione FREQUENZA ha bisogno di una matrice dati (quindi

selezionare la colonna dei tempi) e di una matrice delle classi (quindi

selezionare quella appena creata).

Attenzione: affinché sia riportata la frequenza per ogni valore della classe,

occorre che la formula sia in “forma di matrice”. Occorre quindi, PRIMA

di richiamare la funzione evidenziare la colonna in cui andrà il risultato

(tante celle quante sono le classi +1)

Quando poi, dalla finestra di dialogo della funzione FREQUENZA, si

immette la matrice delle classi, non premere INVIO ma premere

CTRL+MAIUSC+INVIO. Se non si fa così, si visualizza un solo valore.

Esercizio Esercizio 1 (Istogramma delle frequenze)

La tabella disponibile nel file EsameIstogrammaGeyser.xlsx fornisce un

campione di 24 misurazioni dei tempi di attesa per l’eruzione successiva (in

minuti).

a) Fornire un istogramma delle frequenze dei tempi di eruzione del geyser

scegliendo opportunamente le classi in modo che rappresentino in maniera

significativa il fenomeno, utilizzando lo strumento Analisi dei dati.

b) Ripetere l’esercizio (di cui al punto a)) senza far uso dello strumento

Analisi dei dati, ma calcolando i valori necessari (frequenze, etc.) con le

opportune funzioni di Excel, in modo che l’istogramma risultante sia identico

a quello fornito al punto a).

Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio

nominato Svolgimento a), e il punto b) in un foglio nominato

Svolgimento b).

Altri grafici 2.7

Diagramma logaritmico: variante del diagramma cartesiano; si

usa se ci sono valori delle y molto piccoli e molto grandi (nessuna

scala sarebbe adeguata), oppure se si vogliono evidenziare le

variazioni in percentuale, piuttosto che quelle assolute

Diagramma di Pareto: serve per rappresentare la perdita

economica (difettosità e loro costi).

Diagramma a scatola e baffi (box-plot): consente di

visualizzare alcune caratteristiche della distribuzione statistica

(campo di variazione, percentili, media aritmetica, mediana, massimo,

minimo)

Diagramma logaritmico – Esempio 2.11 Diagramma logaritmico: variante del diagramma cartesiano; si

usa se ci sono valori delle y molto piccoli e molto grandi (nessuna

scala sarebbe adeguata), oppure se si vogliono evidenziare le

variazioni in percentuale, piuttosto che quelle assolute.

Si usa la scala logaritmica per rappresentare le ordinate

Anni Passeggeri

(migliaia)

1948 212

1953 324

1958 922

1963 2855

1968 5612

1973 10171

1978 12842

1983 14864

Esempio 2.11. La tabella mostra il

traffico dei passeggeri negli

aeroporti italiani nel periodo

1948-1983.

Diagramma logaritmico

Anni Passeggeri

(migliaia)

1948 212

1953 324

1958 922

1963 2855

1968 5612

1973 10171

1978 12842

1983 14864

1

10

100

1000

10000

100000

19481953195819631968197319781983

Passeggeri (migliaia)

Passeggeri…

0

2000

4000

6000

8000

10000

12000

14000

16000

1948 1953 1958 1963 1968 1973 1978 1983

Passeggeri (migliaia)

Passeggeri

(migliaia)

Diagramma cartesiano Diagramma logaritmico

Esempio 2.11

Usiamo la scala logaritmica (valori molto distanti tra loro…)

Creiamo il foglio con i dati

Scegliamo il grafico Logaritmico

Nella casella Serie e Etichette X indicare le celle relative agli anni

Nella etichetta Serie e Valori indicare le celle con i valori del traffico

PROVIAMO

Se non c’è questa opzione, fare clic sul grafico.

Formato Selezione corrente : fare clic sulla freccia

accanto alla casella Area del grafico e quindi su Asse

verticale (valori).

Doppi click su Formato Selezione : Opzioni assi: per

modificare l'asse dei valori in logaritmico, selezionare la casella di

controllo Scala logaritmica.

Diagramma di Pareto

Diagrammi di Pareto: servono per rappresentare la

perdita economica (difettosità e loro costi).

Ordinate: frequenza di ciascun tipo di difetto

riscontrato

Ascisse: tipologie di difetto in ordine di frequenza

decrescente

Curva cumulativa: rappresenta i valori cumulativi per

ciascun tipo di difetto è possibile valutare quanto

siano “pesanti” i primi difetti rispetto alla globalità dei

difetti

Esempio 2.12

La tabella seguente riporta la distribuzione, per tipologia di difetto,

di 200 pezzi meccanici. Graficare l’andamento della difettosità.

Tipo di difetto Numero di

difetti

deformazione 104

foro 42

graffio 20

giuoco 14

rottura 10

macchia 7

altri 3

Riportare i dati nel foglio excel. Ordinare i dati in senso decrescente (dati, ordina),

in un nuovo foglio. Aggiungere C1 “totale cumulato”; in C3 inserire =B3 e poi in

C4 inserire =B4+C3 e poi trascinare.

Per le percentuali cumulate, nella cella D3 digitare =C3/$C$9 e poi trascinamento

(formattare celle come “percentuali”)

Tipo di difetto Numero di Totale Percentuale

difetti cumulato cumulata

deformazione 104 104 52,00%

foro 42 146 73,00%

graffio 20 166 83,00%

giuoco 14 180 90,00%

rottura 10 190 95,00%

macchia 7 197 98,50%

altri 3 200 100,00%

Ora dobbiamo inserire il grafico.

Selezioniamo le celle B1:B9 e D1:D9;

selezioniamo Grafico Istogramma

Serie, Etichette asse X: selezionare A3:A10

Valori: B3:B9

Selezionare la parte di istogramma che riguarda la percentuale cumulata e

cambiare il grafico (a linee). Poi, selezionare la serie “percentuale

cumulata” (formato, elementi grafico – menu sinistra) e “formato

selezione.” Opzioni serie “traccia la serie lungo asse secondario”.

Diagramma

di Pareto

0,00%

20,00%

40,00%

60,00%

80,00%

100,00%

120,00%

0

20

40

60

80

100

120

Numero di difettiPercentuale…

Tipo di difetto Numero di Totale Percentuale

difetti cumulato cumulata

deformazione 104 104 52,00%

foro 42 146 73,00%

graffio 20 166 83,00%

giuoco 14 180 90,00%

rottura 10 190 95,00%

macchia 7 197 98,50%

altri 3 200 100,00%

Diagramma a scatola e baffi (box-plot)

Diagramma a scatola e baffi (box-plot): consente di visualizzare

alcune caratteristiche della distribuzione statistica (campo di

variazione, percentili, media aritmetica, mediana, massimo, minimo)

Internamente alla scatola sono rappresentati: mediana e media

aritmetica

Le linee esterne rappresentano il I e il III quartile (la distanza

misura la dispersione della distribuzione)

La distanza tra ciascun quartile e la mediana rappresenta la forma

della distribuzione

◦ Se è diversa, la distribuzione è asimmetrica

◦ Se la distribuzione è normale, media e mediana coincidono; le distanze

tra I quartile e mediana e tra mediana e III quartile coincidono, così

come minimo e I quartile, III quartile e massimo. In generale, queste

distanze danno informazioni sulla forma della coda della distribuzione

Esempio 2.14

Sia data una tabella che riporta il diametro (cm) di 25 tubi

prodotti da 3 macchinari diversi.

PROVIAMO

Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base

(inserire la formula relativa alla macchina A, poi fare il trascinamento).

Esempio 2.14

Sia data una tabella che riporta il diametro (cm) di 25 tubi

prodotti da 3 macchinari diversi.

PROVIAMO

Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base

(inserire la formula relativa alla macchina A, poi fare il trascinamento).

Dobbiamo inserire il grafico.

Selezioniamo le celle F2:I8 e inseriamo il grafico a linee (con indicatori).

Cambiare l’opzione di Selezionata dati “Scambia colonne/righe”

PROVIAMO

Esempio 2.14

Le 3 osservazioni sono unite da linee che non ci interessano.

Per rimuoverle, nel menù Formato selezionare nel menù a tendina a sinistra la

serie dei dati selezionati, per es. Serie I quartile, doppio click su Formato

selezione, selezionare la linea, Colore Linea “nessuna”;

Nel menù Layout, selezionare Analisi; poi indicare “LineeLinee di Min-

Max” e poi “Barre Barre Crescenti-decrescenti”

PROVIAMO

Diagramma boxplot

73,93

73,94

73,95

73,96

73,97

73,98

73,99

74

74,01

74,02

74,03

74,04

Macchina A Macchina B Macchina C

I° quartile

valore minimo

media

mediana

valore massimo

III° quartile

Sintesi dei dati in una tabella

Spesso si vuole effettuare una sintesi dei

dati per ottenere indici che misurino gli

aspetti più rilevanti.

◦ Indici di posizione / misure di tendenza

centrale: medie, mediana, quartili, percentili e

moda (cap. 3)

◦ Indici di variabilità: range, varianza, scarto

quadratico medio (cap. 4)

◦ Indici di forma: asimmetria e curtosi (cap.5)

Indici: Schema riassuntivo

•media:

•moda: punto di max della distribuzione

•mediana: valore sotto al quale cadono la metà dei valori campionari. Si

dispongono i dati in ordine crescente e si prende quello che occupa la posizione

centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)

N

xx i i

•varianza

•deviazione standard

•range

•skewness (coeff. di asimmetria)

•curtosi: misura quanto la distribuzione è appuntita

2

2

1

iix x

sN

sminmax xxR

di

posi

zione

di

dis

per

sione

di

di

form

a

>0 coda a ds

<0 coda a sin

=0 simmetrica

> 0 più appuntita < 0 meno appuntita

Principali indici statistici

I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Siano n osservazioni numeriche 1 2, ,..., nx x x

di posizione

di forma

di dispersione

MODA

MEDIANA

MEDIA

QUARTILI E PERCENTILI

SCARTO QUADRATICO MEDIO

VARIANZA

RANGE

ERRORE STANDARD

ASIMMETRIA (SKEWNESS)

CURTOSI ( KURTOSIS)

INDICI

Errore standard

Sebbene lo strumento di statistica descrittiva negli strumenti di analisi è in grado di generare un report che include l'errore standard della media, non esiste alcuna funzione in Microsoft Excel per calcolare automaticamente il valore di per sé.

Per calcolare l'errore standard della media, si può utilizzare = DEV.ST(matrice)/SQRT(Conteggio)

Più piccolo/grande(k)

Per calcolare il minimo, il secondo minimo,

e in genere il k-esimo elemento più piccolo,

si usa:

PICCOLO(matrice; k)

Analogamente per il k-esimo elemento più

grande

GRANDE(matrice; k)

Statistica descrittiva (cap.6)

Molti indici trattati finora sono generati

automaticamente da Excel, usando Statistica

descrittiva del menù Analisi dei dati.

Proviamo

◦ Etichette nella prima riga/Etichette nella prima

colonna: deselezionarle se l’intervallo non contiene

etichette (altrimenti selezionare quella appropriata,

come nell’esempio 6.3)

Esempio 6.1 La tabella seguente riporta il peso in grammi di un campione

di 100 tavolette di cioccolato.

Proviamo a richiamare la funzione Riepilogo statistiche

Media 99,79652336

Errore standard 0,010062453

Mediana 99,79312502

Moda #N/D

Deviazione standard 0,100624532

Varianza campionaria 0,010125296

Curtosi 0,083114239

Asimmetria 0,069723767

Intervallo 0,484818884

Minimo 99,55261744

Massimo 100,0374363

Somma 9979,652336

Conteggio 100

Più grande(1) 100,0374363

Più piccolo(1) 99,55261744

Non

esistono

duplicati

Funzioni del Riepilogo statistiche

Riepilogo statistiche

Media

Errore standard

Mediana

Moda

Deviazione standard

Varianza campionaria

Curtosi

Asimmetria

Intervallo

Minimo

Massimo

Somma

Conteggio

Più grande(2)

Più piccolo(3)

=MEDIA(A2:A101)

=DEV.ST(A2:A101)/RADQ(G14)

=MEDIANA(A2:A101)

=MODA(A2:A101)

=DEV.ST(A2:A101)

=VAR(A2:A101)

=CURTOSI(A2:A101)

=ASIMMETRIA(A2:A101)

=MAX(A2:A101)-MIN(A2:A101)

=MIN(A2:A101)

=MAX(A2:A101)

=SOMMA(A2:A101)

=CONTA.NUMERI(A2:A101)

=GRANDE(A2:A101;2)

=PICCOLO(A2:A101;3)

Non hanno

funzione

esplicita

Manualmente:

Esercizio Esercizio 2 (Riepilogo statistiche)

La tabella nel file Esempio 6.1 alla pagina

http://www.di.unisa.it/professori/anselmo/LabPIXBio.htm, riporta il peso in

grammi di un campione di 100 tavolette di cioccolato.

a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella

tabella, che contenga, oltre alle statistiche standard (media, mediana, …)

anche il Secondo più grande e il Terzo più piccolo, utilizzando la

funzione Riepilogo statistiche.

b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione

Riepilogo statistiche, ma calcolando i valori necessari (media, mediana,

etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia

identica a quello fornita al punto a).

Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio

nominato Svolgimento a), e il punto b) in un foglio nominato

Svolgimento b).