Appunti statistica descrittiva 1

30
Note di Statistica e Calcolo della probabilità Bologna, 7 Febbraio 2013 1 DATI e PREVISIONI Note di base sulla Statistica e Calcolo della probabilità 1° Incontro: Statistica descrittiva e Indici statistici Enrico Smargiassi

Transcript of Appunti statistica descrittiva 1

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 1

DATI e PREVISIONI

Note di base sulla Statistica e Calcolo della probabilità

1° Incontro: Statistica descrittiva e Indici statistici

Enrico Smargiassi

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 2

STATISTICA

Inizialmente (storicamente) la statistica si occupava della raccolta di dati demografici ed

economici per uso dello Stato.

Quindi si è sviluppata in un metodo scientifico di analisi: elabora ed interpreta dati

sperimentali.

Ora è applicato a molte scienze, sociali, naturali, mediche, ingegneristiche, fisiche ed è

uno dei rami più importanti della matematica.

Parole chiavi: dati, previsioni.

Come esempio di indagine statistica si consideri il classico problema:

Come vota una popolazione ?

Qual è la percentuale della popolazione che voterà una lista?

1° metodo

Chiedere a ciascun votante di esprimere il voto e quindi elaborare tutti i dati (simile al

censimento ISTAT) Statistica descrittiva

2° metodo

Effettuare un sondaggio (exit poll), cioè selezionare un campione di votanti (solitamente

qualche migliaio), chiedere una intenzione di voto, interpretare i dati e stimare quanto

essi siano realistici, cioè corrispondano alla realtà dell’intera popolazione Statistica

inferenziale.

Campioni diversi conducono spesso a risultati diversi. Ciò significa che ogni risultato

dell’indagine statistica di tipo inferenziale possiede un grado di incertezza e un grado di

fiducia sulla bontà del risultato stesso (corrispondenza con la realtà della popolazione).

In termini tecnici: il risultato di una statistica inferenziale è una variabile casuale la cui

trattazione scientifica (matematica) deve avvenire tramite la Teoria del Calcolo delle

Probabilità.

Questo esempio ci fa capire che la statistica si occupa

▪ dello studio (di alcune caratteristiche) delle popolazioni, intese come oggetti a se,

▪ dello studio della variazione fra gli individui della popolazione rispetto alle

caratteristiche sotto analisi,

▪ dello studio dei metodi di riduzione dei dati (solitamente numerosi).

Una popolazione è un qualunque insieme di elementi che possano esprimere, in una

forma qualsiasi, la/e caratteristica/e oggetto dello studio.

Abbiamo visto che si distingue tra statistica descrittiva e statistica inferenziale.

DATI

PREVI

SIONI

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 3

La statistica descrittiva si occupa dell'analisi dei dati osservati, prescindendo sia da

qualsiasi modello probabilistico o teorico che descriva il fenomeno in esame e sia dal

fatto che l'insieme dei dati sia un campione estratto da una popolazione più vasta o sia

invece l'intera popolazione.

Lo scopo principale è quello di ridurre il volume dei dati osservati, esprimendo

l'informazione rilevante per mezzo di grafici e di indicatori numerici che li descrivono.

La statistica descrittiva include anche mezzi per fare indagini di tipo comparativo e

verificare l’adattamento di dati sperimentali ad un certo modello teorico.

La statistica inferenziale ci permette invece di fare proposizioni sulla popolazione

complessiva, a partire dall'indagine su un campione estratto.

Queste proposizioni non sono asserzioni perentorie, ma sono dotate di un certo grado di

fiducia nella loro certezza e per questo sono formulate con i metodi, precisi e quantitativi,

del calcolo delle probabilità.

Il contatto tra statistica e probabilità appare quindi doppio: da un lato c’è l’aleatorietà

con cui ogni individuo esprime la caratteristica (o carattere) sotto osservazione e dall’altro

c’è l’incertezza nel selezionare un campione rappresentativo dell’intera popolazione.

LA STATISTICA DESCRITTIVA

Termini e definizioni

Dati di un campione o di una popolazione (non distinguiamo più)

risultati di un carattere (o grandezza o variabile ) osservabile ed osservato

(non necessariamente misurabile in senso stretto)

Raccolta dati

Paradigmi: misurazioni e misure, esperimenti ed esiti, osservazioni e risultati, …

Dati grezzi

Dati disordinati

Tipi di dati

▪ Qualitativi (es. gruppo sanguigno: 0, A, B, AB)

▪ Quantitativi (es, peso) carattere numerico

In realtà la distinzione tra carattere quantitativo e qualitativo sta nel fatto che su dati

qualitativi non si può “operare aritmeticamente” (A+B = ?), e non perché gli uni sono

numerici e gli altri non (si può sempre assegnare un codice numerico al gruppo

sanguigno: 0, 1, 2, 3).

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 4

Un carattere quantitativo può essere discreto (es. numero di figli) o continuo (es. altezze

individui), dove discreto significa che i valori che quel carattere può assumere a priori è in

numero finito o numerabile (corrispondenza biunivoca con N), mentre continuo indica

che l’insieme dei valori assumibili costituiscono un intervallo di R.

Si sottolinea che per decidere la natura di un carattere è necessario considerare l’insieme

di tutti i valori possibili con cui si può esprime quel carattere in una osservazione e non

quelli effettivamente assunti che sono sempre in numero finito.

Un carattere qualitativo è sempre discreto.

Si dice modalità di un carattere ogni valore che può assumere una variabile discreta in

una osservazione (o esperimento).

Campione di dati

L’insieme dei valori ottenuti in un insieme di osservazioni o esperimenti di un carattere

(non si usa la parola serie o sequenza perché non deve esserci un ordine stabilito)

n è la cardinalità del campione.

Aggregare i dati

Se il carattere osservato è discreto e ha k modalità di presentarsi con k << n è efficace

aggregare i dati partendo appunto dalle modalità e determinandone le frequenze (di

presentazione o di uscita):

frequenza assoluta

Distribuzione delle frequenze assolute

frequenza relativa

Distribuzione delle frequenze relative

frequenza percentuale

Distribuzione delle frequenze percentuali

Ovviamente

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 5

Se il carattere è quantitativo e continuo non si può parlare di frequenza di una specifica

modalità del carattere, poiché di modalità c’è ne sono infinite.

Si introduce quindi il concetto di classe che sostituisce quello di modalità e rispetto al

quale si aggregano i dati.

Se consideriamo un intervallo I che include il nostro campione di dati:

con I che può essere limitato o illimitato, chiuso o (semi)aperto

(da valutare caso per caso)

Possiamo dividerlo in classi, cioè una famiglia di sottoinsiemi che costituisca una

partizione di I, cioè:

Le classi spesso hanno la stessa ampiezza, nel caso di intervallo limitato, ma non è la

regola.

Le classi svolgono in questo caso lo stesso ruolo delle modalità del caso discreto rispetto

alle quali si può costruire le distribuzioni di frequenze:

frequenza assoluta della classe

Distribuzione delle frequenze assolute

frequenza relativa della classe

Distribuzione delle frequenze relative

frequenza percentuale della classe

Distribuzione delle frequenze percentuali

Vediamo ora alcuni esempi esplicativi in cui costruiremo la tabella di distribuzione di

frequenza e rappresenteremo tali distribuzione con metodi grafici.

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 6

Primi esempi di aggregazione. Rappresentazione dei dati

ESEMPIO 1

Carattere osservato tempo di attesa (in mesi) per eseguire un esame clinico

Campione di dati

Cardinalità n = 40

Tipo di dato quantitativo discreto

Insieme delle modalità k = 7

Costruiamo la tabella delle distribuzioni di frequenze

Modalità

carattere

(mesi)

Frequenza

assoluta

Ni

Frequenza

relativa

fi

Frequenza

percentuale

f% i

1 1

2.5 %

2 5

12.5 %

3 10

25.0 %

4 12

30.0 %

5 7

17.5 %

6 4

10.0 %

7 1

2.5 %

Totale 40 1 100 %

1

5

10

12

7

4

1

Tempo attesa (mesi)

1 2 3 4 5 6 7

Frequenza assoluta

0

2

4

6

8

10

12

14

1 2 3 4 5 6 7

tempo attesa (mesi)

Frequenza assoluta (Ni)

Metodo grafico DIAGRAMMA A BARRE

ISTOGRAMMA

(disegnato o costruito con fogli elettronici )

non

necessariamente in

scala Modalità del

carattere

DIAGRAMMA CIRCOLARE Metodo grafico

Curva (o

poligono) di frequenza

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 7

Sullo stesso diagramma si può accostare (con colore diverso) i dati dello stesso carattere

presi su una diversa popolazione o un diverso campione della stessa popolazione.

(nell’esempio dati provenienti da Comuni diversi)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

1 2 3 4 5 6

tempo attesa (mesi)

frequenza relativa fi

0,0

5,0

10,0

15,0

20,0

25,0

30,0

35,0

1 2 3 4 5 6 7

tempo atteso (mesi)

frequenza percentuale f% i

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

1 2 3 4 5 6 7

tempo attesa (mesi)

frequenza relativa

Comune A

Comune B

Comune C

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 8

ESEMPIO 2

Carattere osservato tipo di guasto (malfunzionamento) di una macchina utensile. I dati si

riferiscono ad un periodo di un mese

Campione di dati Fluttuazioni di tensione 6

Instabilità del sistema di controllo 22

Errore operatore 13

Strumento usurato e non sostituito 2

Altre cause 5

Totale 48

Cardinalità n = 48

Tipo di dato qualitativo (discreto)

Insieme delle modalità

k = 5

Costruiamo la tabella delle distribuzioni di frequenze

Modalità

carattere

(guasto)

Frequenza

assoluta

Ni

Frequenza

relativa

fi

Frequenza

percentuale

f% i

Fluttuazioni 6

12.5 %

Instabilità 20

41.6 %

Operatore 13

27.1 %

Strumento 4

8.4 %

Altro 5

10.4 %

Totale 48 1 100 %

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

fluttuazioni instabilità operatore strumento altro

Tipo di guasto nel mese ...

frequenza relativa fi

L’ordine è

arbitrario,

ma si

centra

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 9

La scelta del numero delle classi è importante per mettere in evidenza le modalità del

carattere osservato.

Il numero delle classi deve essere adeguato, ne piccolo ne grande rispetto alla

numerosità del campione. Se le classi sono troppe, in ogni classe ci

sarebbero pochissimi elementi (o addirittura nessuno); se sono poche, essendovi

concentrati molti elementi, potrebbe sfuggirci la globalità della distribuzione. In

genere il numero delle classi `e compreso fra 5 e 20.

Vi sono delle regole, più o meno empiriche,quali:

(regola di Sturges)

Ogni classe (intervallo) avrà una ampiezza. Sebbene non necessariamente, ma è

solitamente conveniente che ogni classe abbia la stessa ampiezza.

ESEMPIO 3

Carattere osservato quantità giornaliera (in g) di gas inquinante prodotto da un

impianto industriale (quantità di gas emesso/giorno)

Campione di dati

Cardinalità n = 80

Tipo di dato quantitativo continuo

Non lavoriamo con le modalità ma con le classi.

Ma quanti classi?

15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2 22.7 9.8

6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7 26.8 22.7 18.0 20.5

11.0 20.9 15.5 19.4 16.7 10.7 19.1 15.2 22.9 26.6 20.4 21.4

19.2 21.6 16.9 19.0 18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5

23.5 14.5 14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1

8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8 25.9 10.5

15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5

Nell’esempio 3, il numero di dati è n = 80.

Il range di variabilità del campione è:

Scegliamo l’intervallo che include il campione di dati:

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 10

Scegliamo il numero di classi:

▪ ▪

Definiamo che k = 8

Ogni classe avrà una ampiezza:

Possiamo costruire la tabelle delle distribuzioni delle frequenze:

Classe

Ik

Frequenza

assoluta

Nk

Frequenza

relativa

fk

Frequenza

percentuale

f% k

6.2 x < 9.125 4

5.000 %

9.125 x < 12.050 7

8.625 %

12.050 x < 14.975 9

11.250 %

14.975 x < 17.900 11

13.750 %

17.900 x < 20.825 20

25.000 %

20.825 x < 23.750 12

15.000 %

23.750 x < 26.675 11

13.750 %

x 26.675 6

7.500 %

Totale 80 1 100 %

0,00

5,00

10,00

15,00

20,00

25,00

30,00

[6.2 ; 9.125[

[9.125 ; 12.050[

[12.050 ; 14.975[

[14.975 , 17.900[

[17.900 ; 20.825[

[20.825 ; 23.750[

[23.750 ; 26.675[

[26.675; +oo[

gas emesso/giorno (g)

frequenza percentuale f% i

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 11

Distribuzione della frequenza cumulativa (relativa). Altro modo di aggregare

Oltre alle distribuzione delle frequenze già viste si può aggregare i dati di un campione

costruendo la distribuzione della frequenza cumulativa.

La frequenza cumulativa si costruisce a partire dalla distribuzione di frequenza (assoluta, o

relativa o percentuale) e si può applicare alle sole grandezze quantitative sia discrete

che continue.

Per frequenza cumulativa di una modalità (o classi) si intende la somma delle frequenze

associate a tutte le modalità (o classi) di valore inferiore o uguale alla modalità

d’interesse.

Se si ordina in senso crescente le modalità di un campione

Allo stesso modo si può usare la frequenza assoluta o percentuale.

OSSERVAZIONE

La tecnica di aggregare i dati in classi è talvolta utile ed efficace anche nel caso di

un campione di dati relativi ad un carattere quantitativo discreto.

ESEMPIO 4

Carattere osservato peso di studentesse di una scuola (in kg)

Campione di dati

48 50 51 52 52 53 53 54 54 55

55 55 56 56 56 56 57 57 57 57

58 58 58 58 58 59 59 59 59 59

59 60 60 60 60 60 61 61 61 61

62 62 62 63 63 64 66 66 67 68

(i dati sono stati ordinati in senso crescente)

Cardinalità n = 50

Tipo di dato quantitativo continuo

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 12

Costruiamo la tabelle delle distribuzioni di frequenze, ma prima aggreghiamo i dati

per classi.

Il campo di variazione dei dati è l’intervallo [48; 68] di ampiezza 20 kg

La regola di Sturges:

ci suggerisce il numero di classi che

fissiamo a 7. Ogni classe potrebbe avere un’ampiezza di

Considerando che i dati sono tutti interi scegliamo 3 come ampiezza di una classe.

Classe

Ik

Frequenza

assoluta

Nk

Frequenza

relativa

fk

Frequenza

percentuale

f% k

Frequenza

relativa

cumulativa

48 x < 51 2

4 % 0.04

51 x < 54 5

100 % 0.14

54 x < 57 9

18 % 0.32

57 x < 60 15

30 % 0.62

60 x < 63 12

24 % 0.86

63 x < 66 3

6 % 0.92

x 66 4

8 % 1.00

Totale 50 1 100 %

Passiamo a rappresentare graficamente le distribuzioni di frequenza

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

49 52 55 58 61 64 67

Frequenza relativa fi

0

0,2

0,4

0,6

0,8

1

1,2

49 52 55 58 61 64 67

Frequenza relativa cumulativa

0,7

Sono stati indicati i

valori centrali delle

classi

60

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 13

Indici Statistici (o statistiche)

Gli indici statistici sono numeri che hanno lo scopo di descrivere un campione di dati

rilevati e le loro distribuzioni di frequenze. Essi si applicano ad una variabile quantitativa,

discreta o continua.

In realtà il termine indice fa pensare ad un numero adimensionale, ma nel caso della

statistica in generale non è così.

Consideriamo di avere un campione di dati

Indici di posizione. Indici di posizione centrale o di centralità

Moda

La moda di un insieme di dati è quel valore, , a cui corrisponde la massima frequenza

(assoluta o relativa). Cioè

Se esistono più valori modali, ovvero più valori con il massimo della frequenza, allora tale

indice non è appropriato per descrivere sinteticamente il campione di dati.

Allo stesso modo, se esistono più valori le cui frequenze sono elevate e non molto diverse

tra loro allora non è appropriato usare il concetto di moda.

Nel caso di carattere continuo, o, comunque, quando si utilizzano le classi invece delle

modalità, è ancora possibile utilizzare il concetto di moda, individuando prima la classe

modale, cioè quella di massima frequenza e quindi calcolare il valore modale come:

x

0

0,1

0,2

0,3

45 48 51 54 57

freq

uen

za r

ela

tiva

cm

classe modale

d+

d-

h

a

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 14

Media aritmetica o campionaria

(1) LA FAMOSA FORMULA!

La media si può esprimere anche utilizzando la frequenza relativa, passando dai singoli

dati osservati alle modalità del carattere:

(2)

La stessa formula vale anche nel caso si utilizzino le classi, dove rappresenta il valore

centrale di ogni classe.

La formula (2) è detta anche media ponderata, assegnando al coefficiente il significato

di peso di ogni modalità del carattere.

Il concetto di media ponderata può essere soggetto ad una operazione di astrazione,

cioè vengono assegnati (soggettivamente) dei valori come pesi a ciascuna modalità del

carattere osservato quindi si calcola la media, fermo restando il vincolo di coerenza della

normalizzazione, cioè .

Supponiamo, ad esempio, di voler calcolare il rendimento scolastico di un alunno, da

come si deduce dal voto ottenuto in un certo numero di prove. (ns classico problema)

Normalmente le prove non avranno tutte la stessa valenza rispetto al calcolo del

rendimento, essendo diverse per grado di difficoltà, per argomenti trattati, per tipologia,

Pertanto si assegnano dei pesi a ciascuna prova che sintetizzi l’importanza della prova

rispetto al calcolo del rendimento e si può operare la media ponderata dei voti.

Qual è il significato della media aritmetica?

Essa indica il “centro”, il “baricentro”, del campione di dati. Infatti:

Questa formula avvalora l’idea di media come centro introno al quale sono distribuiti i

dati. La formula del calcolo del baricentro (unidimensionale) di un insieme di masse

coincide con quella della media aritmetica, assegnando come peso il rapporto della

massa per la massa totale,

Si darà poi la definizione formale di media aritmetica.

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 15

Prime proprietà della media aritmetica.

1. Se si applica una trasformazione lineare ai dati di un campione la stessa

trasformazione è applicabile alla media aritmetica.

Supponiamo di avere un campione di dati , sul quale applichiamo una

trasformazione lineare:

Ciò avviene tipicamente quando si cambia scala di misurazione della grandezza

osservata ( offset b ; fattore di conversione a)

Di conseguenza il campione di dati trasformato sarà .

Le medie dei due campioni seguiranno la stessa relazione del singolo dato, cioè

Infatti:

2. L’operazione di media non è associativa

Supponiamo di avere un campione di dati con cardinalità n e di

suddividerlo in due campioni (il modo è indifferente) di cardinalità n1

e di cardinalità n2

Allora e vero che

cioè fare la media aritmetica delle singole medie dei

sotto campioni non fornisce la media dell’intero campione di dati.

Infatti

che per appunto risulta diverso dall’effettuare la media delle medie.

ESEMPIO 5

Se un campione di misure di temperature espresse in gradi fahrenheit

fornisce un valore medio di 50° F, qual è la media delle temperature

espresse in gradi Celsius?

Poichè

Allora

Nel caso specifico:

E’ una media

ponderata con i

pesi dati dal

rapporto tra le numerosità dei

campioni

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 16

La stessa situazione si ha nel caso in cui due campioni di dati che si riferiscono allo

stesso carattere sono uniti per formare un unico campione. La nuova media non

sarà la medie delle medie dei singoli campioni.

Solo nel caso di uguale numerosità dei sotto campioni (o solo dividendo l’insieme

di dati in sottoinsiemi con lo stesso numero di elementi) è possibile effettuare le

medie parziali e poi fare la media delle medie.

Ovviamente questa stessa considerazione può essere generalizzato al caso di più

sotto campioni.

Mediana

Consideriamo di ordinare in senso crescente (in senso debole) i dati del campione:

Si effettua cioè una trasformazione degli indici di numerazione dei dati del campione.

Si definisce mediana, , il più piccolo dei valori (reali) per cui il numero di elementi del

campione ordinato che sono è almeno la metà della cardinalità del campione.

Cioè

La definizione sopra non è formalmente rigorosa, nel termine “più piccolo”, ma è

abbastanza comprensibile.

Il mancato rigore, nasce dal dovere distinguere il caso in cui il campione ha un numero

pari di dati da quello in cui il numero è dispari:

▪ Se n dispari, , allora esiste l’elemento centrale del campione e la

mediana è con il numero di elementi che sono pari k+1

Osserviamo che anche l’elemento e successivi possono avere lo stesso valore

di e quindi della mediana, ma ciò non inficia il significato di valore

centrale rispetto alla distribuzione dei campioni alla sinistra e alla destra di

▪ Se n pari, allora non esiste un dato centrale, ma il più piccolo valore che

soddisfa la definizione sopra è con il numero di elementi che sono

pari k

In realtà è pratica diffusa prendere la mediana come il valore medio tra

e :

.

x1 x2 x3 x4 xk xk+1

xm

xk+2 xn

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 17

Allo stesso modo si potrebbe prendere un qualunque valore intermedio tra e

In questi casi l’affermazione “più piccolo” nella definizione perderebbe di senso.

Quando si usa la media aritmetica e quando la mediana ?

Consideriamo questo esempio: una azienda è formata da

- 12 operai che percepiscono ciascuno un compenso lordo annuo di 20 k euro

- 4 impiegati che percepiscono ciascuno un compenso lordo annuo di 30 k euro

- 2 dirigenti che percepiscono un ciascuno compenso lordo annuo di 140 k euro

Qual è il compenso medio di questa azienda?

Uso la media aritmetica

Uso la mediana

Decidete voi qual è l’indice più rappresentativo della realtà !

Una indicazione metodologica suggerisce che la mediana è un indice “più

robusto”, rispetto a degli errori di misurazione e/o di campionamento, nel senso

che dei valori anomali (molto alti o molto bassi) dovuti ad errore hanno una minore

influenza sulla mediana rispetto alla media aritmetica.

Inoltre se un campione di dati è distribuito (distribuzione delle frequenze) in modo

asimmetrico è preferibile usare la mediana.

Oltre agli indici che abbiamo visto vi sono altri indici di posizione, ma non di

centralità, che vedremo in seguito.

x1 x2 x3 x4 xk xk+1

xm

xk+2 xn

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 18

Approfondimenti sul concetto di media

Partiamo da un problema, che riassume a pieno la necessità di un approfondimento del

concetto di media.

Problema (paradosso) delle due buste1

A Mario vengono presentate due buste chiuse, dicendo che una contiene una somma di

denaro pari al doppio della cifra contenuta nell’altra.

Mario ha la facoltà di aprire una busta a suo piacimento e di prendersi la cifra oppure di

scegliere l’altra busta con il suo contenuto.

Valorizziamo !

Se Mario apre la prima busta che contiene 1000 euro allora cosa gli conviene fare?

Proviamo a rispondere !

Se Mario scegliesse la seconda busta avrebbe due possibilità: trovare 2000 euro oppure

500 euro, cioè in media

Allora è chiaro che la risposta è: conviene la seconda busta !

E se non fosse 1000 la cifra della prima busta?

Sarebbe uguale, infatti se s è la somma della prima busta, la seconda conterrebbe 2s

oppure s/2 e quindi in media

Ma allora vuol dire che non importa aprire la prima busta, ma è sempre conveniente

scegliere l’altra !!!!!!!!

Ma ciò è in contraddizione con il fatto ovvio che le due buste sono per Mario

equiprobabili, cioè non c’è alcuna preferenza a priori di sceglierne una rispetto all’altra. Il

problema è simmetrico rispetto al ruolo delle due buste.

Contraddizione paradosso !

Come se ne esce ?

Dobbiamo convincerci che fare la media aritmetica non va bene

Cioè dobbiamo pensare ad un altro tipo di media. Quale?

1 Introdotto da R.M. Smullyam - 1988

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 19

Altri tipi di medie

Media geometrica

dove la parola “geometrica” assume il chiaro significato legato al prodotto dei dati a

differenza di “aritmetica” che indica la somma.

PROBLEMA 1

In una popolazione di batteri si osserva che la popolazione ha un aumento

percentuale di il primo giorno, il secondo giorno,…, l’n-esimo giorno.

Qual è l’incremento medio della popolazione in questo periodo di osservazione?

Consideriamo il problema: contestualizziamo e formalizziamo

Sia N il numero iniziale (prima dell’osservazione) di batteri, allora si ha:

▪ il numero di batteri dopo il 1° giorno

▪ il numero di batteri dopo

il 2° giorno

▪ …

il numero di batteri dopo l’ultimo giorno

L’incremento medio sarà quel valore per cui applicato tutti i giorni fa ottenere lo stesso

numero finale di batteri.

Pertanto se indichiamo con b tale valore dovremmo avere:

Uguagliando le due espressioni finali per :

Chiamando si ottiene l’espressione di un valore medio,

noto come media geometrica.

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 20

Media armonica

dove la parola “armonica ” assume il significato legato all’operazione del reciproco.

PROBLEMA 2

n macchine utensili producono un stesso pezzo impiegando tempi diversi:

(supponiamo i tempi espressi in s)

Qual è il tempo medio di produzione di quel pezzo?

Consideriamo il problema: contestualizziamo e formalizziamo

Il tempo medio sarà quel tempo che se tutte le macchine adottassero si otterrebbe la

stessa produttività

Ma cosa significa produttività? (Numero di pz prodotti/unità di tempo)

Se la macchina i-esima esegue un pezzo in secondi allora nell’unità di tempo

esegue

Pertanto la produttività è calcolabile come:

Se tutte le macchine lavorassero con il tempo medio T avremmo una produttività di

La produttività coincide nei due casi se:

Abbiamo ottenuto un nuovo valore medio, noto come media armonica

▪ il numero di batteri dopo il 1° giorno

▪ il numero di batteri dopo

il 2° giorno

▪ …

il numero di batteri dopo il 2° giorno

L’incremento medio sarà quel valore per cui applicato tutti i giorni fa ottenere lo stesso

numero finale di batteri.

Pertanto se indichiamo con b tale valore dovremmo avere:

Uguagliando le due espressioni finali per :

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 21

PROBLEMA 3 (tipico nelle prove di selezione SISS, giochi matematici, …)

L’ultima volta che sono andato al mare ho viaggiato bene all’andato a circa 100

km/h mentre al ritorno, facendo lo stesso percorso, molto più lentamente a causa del

rientro comune, ad una velocità di circa 40 km/h

Qual è stata la mia velocità media?

Fino ad alcuni anni fa la proposizione di questo quesito ad alunni di scuole superiori ed

anche universitari produceva la quasi totalità di risposta pari a

= 70 km/h cioè si

applicava la media aritmetica.

Ora le cose vanno meglio ma ancora si ha la stessa risposta in numero ben al di sopra

della metà delle risposte.

Il ragionamento corretto prevede che non si usi la media aritmetica, poiché il contesto

del problema ci dice che dobbiamo riferirci al tempo di percorrenza e non alla

velocità di percorrenza.

Sottolineiamo anche che non si conosce la lunghezza del percorso, ma anzi la risposta

deve essere logicamente indipendente dalla quantità di strada effettuata.

Possiamo procedere in due modi:

1. Ricordando la relazione cinematica velocità = spazio/tempo tempo =

spazio/velocità, allora si ha:

Pertanto il tempo totale del viaggio è e di conseguenza la velocità

media è calcolabile come spazio totale/tempo totale, ovvero

MEDIA ARMONICA !

Numericamente:

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 22

2. Poiché al ritorno la velocità tenuta è stata i 2/5 di quella dell’andata, vuol dire

che la velocità del ritorno è stata tenuta per un tempo 5/2 = 2.5 volte il tempo

per il quale si è mantenuta la velocità alta.

Quindi è giusto che la velocità del ritorno abbia un peso, nella valutazione della

media, 2.5 volte il peso di quella dell’andata.

Immaginiamo che un dispositivo registri periodicamente (es. ogni secondo) la

velocità della macchina, si avrà così un numero di valori uguali a 40 km/h che è

2.5 volte il numero di valori uguali a 100 km/h.

Se volessimo fare la media aritmetica del campione di dati registrati dal

dispositivo si avrebbe dati tutti uguali a 100 km/h e

dati tutti uguali a 40

km/h.

Costruiremo così la media aritmetica delle due modalità del carattere

osservato (100 e 40) come media ponderata:

Pertanto

Conclusioni

▪ Si sono usate medie diverse che hanno portato allo stesso risultato

▪ La deduzione della giusta operazione di media da applicare è passata

attraverso considerazioni relative ad un'altra grandezza, quale il tempo,

collegata con quella in esame, facendo riferimento a ciò che rimane

invariante per i dati che costituiscono il campione, anche sostituendone

il valore medio

Variante

Se il problema fosse impostato così: in un viaggio ho percorso 120 km ad una

velocità di 60 km/h e poi i successivi 100 km ad una velocità di 80 km/h. Qual è

la velocità media del viaggio.

Se applichiamo la media ponderata, ragioniamo così: il primo tratto è percorso

in 2 h, mentre il secondo in 1,25 h e quindi le velocità andranno pesate con pesi

proporzionali a 2 e 1.25, cioè:

Se ragioniamo sui tempi di percorrenza:

otteniamo la media armonica ponderata con i pesi forniti dagli spazi percorsi

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 23

Media quadratica

Tutti gli esempi mostrati portano alla conclusione che esistono tante tipi di medie

In particolare ci sono infiniti tipi di medie !!!

Ma se invece volessimo calcolare la velocità media in relazione al calcolo del

consumo di carburante ? Andrebbe bene la media appena fatta ?

Probabilmente no!!!

PROBLEMA 4

Si osserva una colonia di batteri di forma pressoché circolare, di diametri diversi:

(supponiamo i una qualunque unità di misura)

Qual è il diametro medio?

Consideriamo il problema: contestualizziamo e formalizziamo

Se tutti i batteri avessero lo stesso diametro allora si avrebbe la stessa “consistenza”.

Per stessa consistenza cosa si intende ? Stessa superficie Stessa densità superficiale

Poiché una superficie circolare si calcola come

allora, se indichiamo con il

diametro medio che cerchiamo, si ha la stessa consistenza se:

Abbiamo ottenuto il valore medio, di tipo nuovo, nota come media quadratica

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 24

Definizione generale di media di un campione di dati

Si parlerà di media come quel valore che se fosse assegnato a ciascun esito delle

osservazioni oggetto di studio, produrrebbe lo stesso risultato del campione rispetto ad un

determinato aspetto.

Ciò significa che per ogni problema si dovrà individuare l’aspetto d’interesse generato

dall’insieme dei dati del campione, il quale aspetto dovrà mantenersi invariato se ai dati si

sostituisce il valore medio.

Quindi per ogni problema c’è una media, così come lo stesso campione può essere

affrontato con due problemi distinti (e quindi dare due medie distinte).

Questo concetto è in accordo con il pensiero di Chisini e di De Finetti, padri della statistica

moderna italiana e mondiale, di cui riportiamo il seguente pensiero sulla media

Pensando alla “media” non si deve pensare ad una convenzione

Matematica, a una formuletta, al risultato di certe operazioni scelte

chissà perché. Si deve invece pensare ad un problema ben determinato,

in cui interessa considerare un aspetto ben determinato, e conviene sapere

quale valore comune si potrebbe dare a certe grandezze(più o meno differenti

fra loro) volendo che, “per riguardo all’aspetto che interessa, il risultato rimanesse

invariato”. E’ questa, concettualmente, la definizione di media data da Chisini.

… esprimendo tale concetto in forma matematica, tutta la trattazione sulle

medie diventa significativa ed elegante.

Come Bruno De Finetti indica il tutto si può formalizzare matematicamente

Dato un campione di dati e una funzione di tali valori a valore reale

(funzionale):

Si chiama media di , di un certo tipo (definito dalla forma di f), quel valore tale che:

(3)

Poiché le forme funzionali di f sono infinite si possono calcolare infinite medie !!!

Verifichiamo con le medie che conosciamo:

▪ Media aritmetica

▪ Media geometrica

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 25

▪ Media armonica

▪ Media quadratica

Delle suddette medie esistono le seguenti disuguaglianze:

Ora torniamo al problema delle buste !!

Ci dobbiamo domandare qual è la proprietà che deriva dalle informazioni a

disposizione che deve rimanere invariata.

E’ forse che nella busta da aprire c’è una somma che differisce dalla cifra s

che si scopre nella prima busta ? In questo caso sarebbe giustificato usare la media

aritmetica che lascia invariata la somma dei dati. NO !

Non è piuttosto che nella seconda busta la cifra può essere la metà oppure il

doppio della cifra contenuta nella prima busta ? SI

Ma ciò è equivalente a dire che il prodotto dei due dati possibili è costante rispetto

al valore medio da trovare. Questo significa che il funzionale f( ) più adatto per

trovare la media è il prodotto e non la somma, ovvero la media geometrica

Pertanto la media sarà calcolabile come

Cioè il valore medio corretto è uguale alla cifra scoperta dopo l’apertura della

prima busta e non c’è più il paradosso.

Rispetto all’esempio numerico fatto:

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 26

Il ragionamento funziona anche se il problema è posto dicendo che nella seconda

busta c’è l’ennesima parte della cifra nella prima busta oppure la ennupla parte

della stessa, ovvero se le due possibilità fossero

.

Si avrebbe in ogni caso il paradosso che la media aritmetica è superiore ad s:

E in ogni caso la media geometrica risolve il paradosso:

Perché l’intuito ci fa sbagliare in questo problema ? Forse perché la mente tende a

preferire schemi additivi piuttosto che moltiplicativi ? ……

PROBLEMA 5

Un altro esempio collegato al problema delle buste e che in molti contesti è

importante è quello della stima, cioè del valore più adeguato (medio) da dare

avendo a disposizione stime diverse della stessa grandezza.

La grandezza potrebbe essere il preventivo per una spesa, il tempo di produzione di

un pezzo materiale, l’altezza di una collina, …

Se nel caso più semplice abbiamo due stime cosa si applica ? La media

aritmetica?

Ma se siamo nella situazione di avere, ad esempio, due preventivi di 500 e di 2000

euro per un lavoro, qual è il prezzo che riteniamo più idoneo da dover pagare?

Poiché i valori differiscono in relativo di molto (1:4), non sembra convincente

applicare lo schema che essi siano prezzi dovuti allo scostamento, , rispetto ad

un valore centrale, il che giustificherebbe l’uso della media aritmetica.

Ma piuttosto, lo schema di pensiero che consideri i due prezzi, uno come una

frazione del prezzo ragionevole e l’altro come proporzionale al prezzo ragionevole,

ovvero come parte e multiplo piuttosto che eccesso e difetto, appare più

adeguato.

Si potrebbe, con ciò, pensare ad un prezzo di mercato non stabilizzato per la

presenza di speculatori o di situazioni anomale di monopolio o di altro, invece di un

mercato in cui una sana concorrenza porti a fornire prezzi che si discostano in più o

meno rispetto ad un valore centrale.

Pertanto forse è più ragionevole applicare la media geometrica.

Le stesse considerazioni si possono fare anche se si hanno più dati che però

differiscono di molto tra loro.

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 27

Ulteriori considerazioni sul concetto della media

PROBLEMA 6

Ecco un altro problema in cui non si usa la media aritmetica.

Se in diverse aziende sanitarie nazionali si pagano 3000 euro per comprare confezioni

dello stesso farmaco rispettivamente a 5, 6 e 10 euro per confezione.

Qual è il prezzo medio a confezione ?

Calcoliamo la media come media aritmetica

Ma non è corretto

E’ corretto ragionare considerando che per calcolare la media si deve tener presente

il numero totale di confezioni che deve rimanere inalterato.

Il numero totale di confezioni sarà:

Se questo numero deve essere lo stesso anche se si sostituisce il valore medio al prezzo

di ogni azienda, allora si dovrà avere:

Ora se, sulla base della definizione di media, uguagliamo le due espressioni si ha

Ritroviamo la media armonica come quella giusta da applicare.

Numericamente

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 28

PROBLEMA 7

Una famiglia è formata da 4 componenti ed un’altra famiglia da 12 componenti.

Qual è il numero medio dei componenti per famiglia?

E’ immediato rispondere:

Questo significa che in media ogni persona del gruppo considerato ha in media altri

7 componenti nella sua famiglia.

Molto logico e corretto ! Vero? NO!

L’errore si commette perché si prende come carattere osservato quello relativo alla

famiglia, mentre si deve considerareil quesito posto dal problema in relazione a

ciascuna persona del gruppo.

Pertanto “chiedendo” ad ogni persona quanti sono i componenti della sua famiglia

otterremo 12 risposte con 12 e 4 risposte con 4. Da cui la media (ponderata):

Questa è la risposta corretta.

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 29

La relazione ( 3) ci dice che le medie tipiche che conosciamo sono sempre comprese tra il

valore minimo e il valore massimo dei dati del campione sul quale si esegue l’operazione di

media.

Ciò sembrerebbe ragionevole e spesso si insegna questo come proprietà della media.

Ma non è così. E’ possibile, in alcuni casi non frequenti, far uso di medie che forniscono

come risultato un valore al di fuori del range di variabilità dei dati a disposizione.

Vediamo un esempio geometrico. PROBLEMA 8

Sui lati di un angolo al ampiezza di vertice O vengono considerati i segmenti

. Costruito il triangolo OPQ, il lato è calcolabile tramite il teorema di

Carnot

Qual è il valore medio dei lati x e y al variare del vertice O dell’angolo mantenendo

inalterata la sua ampiezza e calcolata rispetto alla lunghezza del terzo lato del triangolo che

vale sempre lo stesso valore ?

Geometricamente si capisce che questa proprietà è soddisfatta se si fa variare O sulla

circonferenza circoscritta a OPQ.

Seguendo la definizione generale di media, ponendo il valore medio al posto di x e y e

uguagliando l’espressione di Carnot si ottiene:

Geometricamente questo valore medio che va sostituito ai lati del triangolo può essere visto

geometricamente, rappresentando il caso di OPQ come il triangolo isoscele

O

P Q z

x y

O

P Q z

x y

Note di Statistica e Calcolo della probabilità

Bologna, 7 Febbraio 2013 30

Obiettivi dell’incontro

Statistica descrittiva

Alfabeto della statistica descrittiva

Aggregare i dati

Distribuzione delle frequenze e loro rappresentazione grafica

Indici statistici. Indici di centralità

Moda

Media aritmetica

Mediana

Vari tipi di media

Definizione generale di media

APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassi

Ora

se

Se

In caso contrario torna ad essere interno ai dati

O

P Q z

x

y

B A