Completiamo i grafici

35
Completiamo i grafici Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute Diagramma di Pareto: serve per rappresentare la perdita economica (difettosità e loro costi). Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo)

description

Completiamo i grafici. Diagramma logaritmico : variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute - PowerPoint PPT Presentation

Transcript of Completiamo i grafici

Page 1: Completiamo i grafici

Completiamo i grafici Diagramma logaritmico: variante del diagramma

cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute

Diagramma di Pareto: serve per rappresentare la perdita economica (difettosità e loro costi).

Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo)

Page 2: Completiamo i grafici

Diagramma a scatola e baffi (box-plot)Diagramma a scatola e baffi (box-plot): consente di

visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo)

Internamente alla scatola sono rappresentati: mediana e media aritmetica

Le linee esterne rappresentano il I e il III quartile (la distanza misura la dispersione della distribuzione)

La distanza tra ciascun quartile e la mediana rappresenta la forma della distribuzione◦ Se è diversa, la distribuzione è asimmetrica◦ Se la distribuzione è normale, media e mediana coincidono; le distanze tra I

quartile e mediana e tra mediana e III quartile coincidono, cosi’ come minimo e I quartile, III quartile e massimo. In generale, queste distanze danno informazioni sulla forma della coda della distribuzione

Page 3: Completiamo i grafici

Esempio 2.14Sia data una tabella che riporta il diametro (cm)

di 25 tubi prodotti da 3 macchinari diversi.Macchina A

Macchina B Macchina C

74,030 74,002 74,01973,995 73,992 74,00173,988 74,024 74,02174,002 73,996 73,99373,992 74,007 74,01574,009 73,994 73,99773,995 74,006 73,99473,985 74,003 73,99374,008 73,995 74,00973,998 74,000 73,99073,994 73,998 73,99474,004 74,000 74,00773,983 74,002 73,99874,006 73,967 73,99474,012 74,014 73,99874,000 73,984 74,00573,994 74,012 73,98674,006 74,010 74,01873,984 74,002 74,00374,000 74,010 74,01373,988 74,001 74,00974,004 73,999 73,99074,010 73,989 73,99074,015 74,008 73,99373,982 73,984 73,995

Page 4: Completiamo i grafici

Esempio 2.14Sia data una tabella che riporta il diametro (cm)

di 25 tubi prodotti da 3 macchinari diversi.

Per ottenere il diagramma, occorre innanzitutto determinare esplicitamente le statistiche di base

Macchina A Macchina B Macchina C

I° quartile 73,992 73,995 73,993

valore minimo 73,982 73,967 73,986

media 73,999 74,000 74,001

mediana 74,000 74,001 73,998

valore massimo 74,030 74,024 74,021

III° quartile 74,006 74,007 74,009

Page 5: Completiamo i grafici

Esempio 2.14Sia data una tabella che riporta il diametro (cm)

di 25 tubi prodotti da 3 macchinari diversi.

Ora dobbiamo inserire il grafico.

Selezioniamo le celle e inseriamo il grafico a linee (con indicatori).

Cambiare l’opzione di Selezionata dati “Scambia colonne/righe”

Page 6: Completiamo i grafici

Esempio 2.14Le 3 osservazioni sono unite da linee che non ci interessano.

Per rimuoverle, nel menù Formato selezionare Serie dei dati selezionati , selezionare la linea, Colore Linea “nessuna”;

Nel menù Layout, selezionare Analisi; poi indicare “LineeLinee di Min-Max” e poi “Barre Barre Crescenti-decrescenti”

Page 7: Completiamo i grafici

Macchina A Macchina B Macchina C73.96

73.97

73.98

73.99

74.00

74.01

74.02

74.03

74.04 Box-Plot per il diametro di tubi prodotti da tre macchinari

I° quartilevalore minimomediamedianavalore massimoIII° quartile

Page 8: Completiamo i grafici

Sintesi dei dati in una tabellaSpesso si vuole effettuare una

sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti.◦Indici di posizione / misure di

tendenza centrale◦Indici di variabilità (cap. 4)◦Indici di forma (cap.5)

Page 9: Completiamo i grafici

Principali indici statisticiI grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici.Siano n osservazioni numeriche1 2, ,..., nx x x

di posizione

di forma

di dispersione

MODAMEDIANAMEDIAQUARTILI E PERCENTILI

SCARTO QUADRATICO MEDIOVARIANZARANGEERRORE STANDARDASIMMETRIA (SKEWNESS)CURTOSI ( KURTOSIS)

INDICI

Page 10: Completiamo i grafici

Indici: Schema riassuntivo•media: •moda: punto di max della distribuzione•mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)

Nx

x i i

•varianza •deviazione standard•range

•skewness (coeff. di asimmetria)

•curtosi: misura quanto la distribuzione è appuntita

2

21

iix x

sN

sminmax xxR

di p

osiz

ione

di d

ispe

rsio

ne d

i for

ma

>0 coda a ds

<0 coda a sin

=0 simmetrica

> 0 più appuntita < 0 meno appuntita

Page 11: Completiamo i grafici

Le misure (indici) di variabilità I valori medi (nelle varie forme) condensano i dati in un

solo valore (spesso indicato come centro della distribuzione).

Purtroppo non è sufficiente per rappresentare le osservazioni effettuate. Quindi si affiancano indici che forniscono informazioni sulla dispersione, cioè sulla distanza delle osservazioni dal valore medio.

Minore è la distanza delle osservazioni dal centro

• maggiore è la rappresentatività del valore medio

• minore è la variabilità

Page 12: Completiamo i grafici

Se l’indice di variabilità è nullo allora tutti i valori sono uguali tra loro.

Per analizzare la distribuzione, occorre:◦Calcolare valore medio◦Valutare la dispersione:

Calcolare quanto distano le osservazioni dal valore medio

Calcolare quanto distano i valori tra loroVedremo: Campo di variazione, varianza, scarto quadratico medio

Page 13: Completiamo i grafici

Campo di variazione (range)

E’ la differenza tra l’osservazione più piccola e quella più grande

In Excel usiamo max e min

Nella cella scriviamo (se A1:E2 è la matrice dati)

=MAX(A1:E2)-MIN(A1:E2)

PROVATE VOI SU UNA TABELLA PRECEDENTE

Page 14: Completiamo i grafici

Varianza E’ la media dei quadrati degli scarti dalla media aritmetica

In Excel usiamo la funzione VAR(num1;num2;…) se gli argomenti sono un campione della popolazione. Se si tratta di tutta la popolazione, si usa la funzione VAR.POP

Come sempre, i valori testo e logici sono ignorati. Se si vuole considerarli, usare la funzione MEDIA.VALORI

PROVATE VOI SU UNA TABELLA PRECEDENTE

2

1

1 ( - )1

nix x

n

Page 15: Completiamo i grafici

Scarto quadratico medio o deviazione standard

La varianza esprime un indice in funzione del quadrato dell’unità di misura delle osservazioni.

E’ preferibile calcolare la radice quadrata della varianza, detta deviazione standard (per mantenere la stessa unità di misura).

In Excel si usa la funzione DEV.ST(num1;num2;…) se gli argomenti sono un campione della popolazione. Se si tratta di tutta la popolazione, si usa la funzione DEV.ST.POP

Come sempre, i valori testo e logici sono ignorati. Se si vuole considerarli, usare la funzione DEV.ST.VALORI

PROVATE VOI SU UNA TABELLA PRECEDENTE

2

1

1 ( - )1

nix x

n =

Page 16: Completiamo i grafici

Errore standardSebbene lo strumento di statistica descrittiva negli strumenti di analisi è in grado di generare un report che include l'errore standard della media, non esiste alcuna funzione in Microsoft Excel per calcolare automaticamente il valore di per sé.

Per calcolare l'errore standard della media, si può utilizzare= DEV.ST(matrice)/SQRT(Conteggio del campione)

Fonte: http://support.microsoft.com/kb/214076/it

Page 17: Completiamo i grafici

Più piccolo/grande(k)

PICCOLO(matrice; k)GRANDE(matrice; k)

Page 18: Completiamo i grafici

Misure di tendenza centraleSpesso si vuole effettuare una

sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti.◦Indici di posizione (scorsa lezione;

medie)◦Indici di variabilità (cap. 4)◦Indici di forma (cap.5)

Page 19: Completiamo i grafici

Misure di formaSi tratta di misure che

evidenziano se una distribuzione è simmetrica rispetto ad un valore e se risulta più o meno appiattita

VedremoAsimmetria e curtosi (appiattimento) rispetto ad alcune distribuzione note

Page 20: Completiamo i grafici
Page 21: Completiamo i grafici

Asimmetria (skewness)Indica l’assenza di specularità rispetto all’asse

di simmetria della distribuzioneEsistono diversi indici di asimmetria

Si possono usare media aritmetica, moda e mediana (x, Mo, Me) per verificare se una distribuzione è asimmetrica o meno◦ Se coincidono, è simmetrica◦ Se Mo<Me< x, è asimmetrica positiva (coda verso

destra)◦ Se x < Me<Mo, è asimmetrica negativa (coda verso

sinistra)

Page 22: Completiamo i grafici

Asimmetria in Excel Usa l’indice di simmetria aF (proposto da Fisher), in cui al

denominatore compare la deviazione standard

Si tratta della funzione

ASIMMETRIA(num1;num2;…)

di almeno 3 argomenti e tale che la deviazione standard sia diversa da zero; se così non è, viene restituito un errore ◦ aF = 0 simmetrica rispetto la media aritmetica◦ aF > 0 asimmetrica a destra◦ aF < 0 asimmetrica a sinistra

Page 23: Completiamo i grafici

Esempio asimmetria positivaData la seguente tabella di voti riportati da 18 studenti

N. casi voti1 32 43 44 45 46 47 48 49 5

10 511 512 6,513 6,514 715 716 817 818 9

Page 24: Completiamo i grafici

Analisi datiPer convenzione, se la coda più lunga è a destra della media (cioè esistono molti valori con forti scarti positivi e pochi valori con deboli scarti negativi) si parla di asimmetria positiva e si vuole che il valore dell'indice di asimmetria assuma segno positivo.

Media = 5,4Asimmetria = 0,61Il valore di asimmetria è maggiore di zero, quindi la curva si presenta così:

Page 25: Completiamo i grafici

Curtosi Fa riferimento alla maggiore o minore gibbosità di una

distribuzione, in prossimità del suo massimo (e quindi alla lunghezza delle code)

Per valutare l’aspetto della curva, si paragona ad una curva «normale» (teorica nota) avente stesse frequenza complessiva, media e deviazione standard

Si usa un altro indice di Fisher, che coinvolge la deviazione standard al denominatore: vale 0 se la curva è normale; positivo o negativo se è più appuntita o meno di una normale

In Excel è la funzione CURTOSI(num1;num2;…) di almeno 4 argomenti e tale che la deviazione standard sia diversa da zero; se così non è, viene restituito un errore

Page 26: Completiamo i grafici

CURTOSI: leptocurtica

In nero la curva «normale» mesocurtica

Page 27: Completiamo i grafici

CURTOSI: platicurticadistribuzione platicurtica

In nero la curva «normale» mesocurtica

Page 28: Completiamo i grafici

Statistica descrittiva (cap.6)Molti indici trattati finora sono

generati automaticamente da Excel, usando Statistica descrittiva del menù Analisi dei dati.

Proviamo◦ Etichette nella prima riga/Etichette nella

prima colonna: deselezionarle se l’intervallo non contiene etichette (altrimenti selezionare quella appropriata, come nell’esempio 6.3)

Page 29: Completiamo i grafici

Esempio 6.1La tabella seguente riporta il peso in grammi di

un campione di 100 tavolette di cioccolato. Proviamo a richiamare la funzione Riepilogo statistiche99,9

99,999,799,799,799,699,799,899,999,799,899,799,999,799,799,899,999,799,899,799,899,799,899,899,8

99,899,999,999,899,999,799,899,899,799,8

100,099,799,899,899,899,899,8

100,0100,099,999,699,999,999,899,8

99,699,899,899,899,799,699,9

100,099,899,899,8

100,099,899,699,899,699,899,899,799,699,799,899,899,899,8

99,899,999,699,7100,099,899,899,899,999,999,8100,099,999,8100,099,799,9100,099,899,899,899,899,999,799,999,7

Page 30: Completiamo i grafici

Esempio 6.1La tabella seguente riporta il peso in grammi di

un campione di 100 tavolette di cioccolato.Proviamo a richiamare la funzione Riepilogo

statisticheMedia 99,79652336Errore standard 0,010062453Mediana 99,79312502Moda #N/DDeviazione standard 0,100624532Varianza campionaria 0,010125296Curtosi 0,083114239Asimmetria 0,069723767Intervallo 0,484818884Minimo 99,55261744Massimo 100,0374363Somma 9979,652336Conteggio 100Più grande(1) 100,0374363Più piccolo(1) 99,55261744

Non esistono duplicati

Page 31: Completiamo i grafici

Media 99,79652336Errore standard 0,010062453Mediana 99,79312502Moda #N/DDeviazione standard 0,100624532Varianza campionaria 0,010125296Curtosi 0,083114239Asimmetria 0,069723767Intervallo 0,484818884Minimo 99,55261744Massimo 100,0374363Somma 9979,652336Conteggio 100Più grande(1) 100,0374363Più piccolo(1) 99,55261744

Non esistono duplicati

Page 32: Completiamo i grafici

Esempio 6.3La tabella seguente riporta la quantità (in quintali) di

semilavorati stoccati in un magazzino negli ultimi 9 anni.

Proviamo a richiamare la funzione Riepilogo statistiche

• selezionare le celle escludendo la prima colonna

Page 33: Completiamo i grafici

Esempio 6.3La tabella seguente riporta la quantità (in

quintali) di semilavorati stoccati in un magazzino negli ultimi 9 anni.

1995 1996 1997 1998 1999 2000 2001 2002 2003

Gen 22 20 19 19 19 20 19 20 20

Feb 25 22 13 16 7 25 27 22 15

Mar 25 19 22 21 26 17 20 19 27

Apr 24 19 15 19 19 11 16 16 25

Mag 21 16 22 15 24 18 18 22 17

Giu 22 22 20 14 22 23 25 19 19

Lug 28 31 20 32 26 25 26 25 28

Ago 23 22 22 23 23 24 24 22 24

Set 19 17 21 20 14 17 17 18 20

Ott 25 25 19 24 18 21 25 20 19

Nov 23 14 21 21 19 16 15 16 20

Dic 15 21 16 15 18 17 17 17 20

Page 34: Completiamo i grafici

Funzioni del Riepilogo statistiche

Riepilogo statisticheMediaErrore standardMedianaModaDeviazione standardVarianza campionariaCurtosiAsimmetriaIntervalloMinimoMassimoSommaConteggioPiù grande(2)Più piccolo(3)

=MEDIA(A2:A101)=G6/RADQ(G14)=MEDIANA(A2:A101)=MODA(A2:A101)=DEV.ST(A2:A101)=VAR(A2:A101)=CURTOSI(A2:A101)=ASIMMETRIA(A2:A101)=MAX(A2:A101)-MIN(A2:A101)=MIN(A2:A101)=MAX(A2:A101)=SOMMA(A2:A101)=CONTA.NUMERI(A2:A101)=GRANDE(A2:A101;2)=PICCOLO(A2:A101;3)

Non hanno funzione esplicita

Manualmente:

Page 35: Completiamo i grafici

Esercizio Esercizio 2 (Riepilogo statistiche)La tabella nel file EsameRiepilogoStatisticheTavolette.xlsx riporta il peso in grammi di un campione di 100 tavolette di cioccolato.

a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella tabella, che contenga, oltre alle statistiche standard (media, mediana, …. Curtosi…) anche il Secondo più grande e il Terzo più piccolo, utilizzando la funzione Riepilogo statistiche.

b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione Riepilogo statistiche, ma calcolando i valori necessari (media, mediana, etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia identica a quello fornita al punto a).

Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento b).