GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della...

407
NOTE DI STATISTICA DESCRITTIVA GIUSEPPE BOARI - GABRIELE CANTALUPPI E PRIMI ELEMENTI DI CALCOLO DELLE PROBABILITÀ

Transcript of GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della...

Page 1: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

NOTE DI STATISTICA DESCRITTIVA

GIUSEPPE BOARI - GABRIELE CANTALUPPI

E PRIMI ELEMENTI

DI CALCOLO DELLE PROBABILITÀ

Page 2: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 1Introduzione

1.1

Indice

1 Che cosa è la Statistica 1

2 Caratterizzazione dell’approccio deduttivo e dell’approccio induttivo 1

3 La variabilità accidentale 2

4 Il modello statistico 4

5 Caratterizzazione della componente di errore 4

6 Le branche della statistica 5 1.2

1 Che cosa è la Statistica

• Diramazione delle Matematiche• Ausilio alle discipline sperimentali

– Fisica

– Chimica

– Biologia

– Medicina

– Economia

Categorie di discipline scientifiche

• DEDUTTIVE

– matematica

– geometria

• INDUTTIVE

– fanno ricorso alle indagini sperimentali empiriche

1.3

1

Page 3: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Caratterizzazione dell’approccio deduttivo e dell’ap-proccio induttivo

Approccio deduttivo1. Assunzione preliminare di certi enti e di alcune loro proprietà

assiomi

2. Acquisizione di altri contenuti per via deduttiva dagli assiomi

teoremi1.4

Approccio induttivo (sperimentale)

IPOTESI

osservazioni / nuovi fatti

conferma sperimentale

NOSI

(il ciclo si riattiva quando si presentano fatti nuovi)

TEORIA (formulazione/aggiornamento)

1.5

3 La variabilità accidentale

La statistica si interessa in particolare della variabilità accidentale

variabilità accidentaleesistono fenomeni caratterizzati da molteplici manifestazioni

(risultati NON prevedibili con certezza)

Le differenti manifestazioni di un fenomeno possono verificarsi a seguito di meccanismidi:

• ripetitività virtuale• ripetitività attuale

1.6

fenomeni caratterizzati da ripetitività virtualepossono idealmente essere ripetuti nelle stesse condizioni sperimentali

lancio di una moneta (T;C)

∼ 50%T ∼ 50%C

cause di variabilità:non si ripete l’esperimento nelle stesse condizioni 1.7

2

Page 4: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Riduzione delle fonti di variabilità1. faccia della moneta posta in alto (T )

T ∼ 55%T ∼ 45%C

2. faccia della moneta posta in alto (T ) e supporto di lancio

T ∼ 80%T ∼ 20%C

3. faccia della moneta posta in alto (T ) e supporto di lancio e piano di atterraggio

T ∼ 99%T ∼ 1%C

1.8

Fenomeni caratterizzati da ripetitività attualesi sono già manifestati: i risultati che si osservano sono caratterizzati da una certa varia-bilità (molteplicità).

Indagine sul reddito degli abitanti di una certa città a una certa data

classi di reddito frequenza0 a 20 10%20 a 30 60%superiore a 30 30%

la variabilità dipende dalle differenti caratteristiche dei soggetti esaminati 1.9

Si può ridurre la variabilità, considerando altri fattori, che consentono di individua-re insiemi più omogenei di unità statistiche

1. soggetti con età 40 a 50classi di reddito frequenza0 a 20 2%20 a 30 33%superiore a 30 65%

2. soggetti con età 40 a 50 e professione impiegatoclassi di reddito frequenza0 a 20 2%20 a 30 13%superiore a 30 85%

3. soggetti con età 40 a 50 e professione impiegato e titolo di studio laureaclassi di reddito frequenza0 a 20 0%20 a 30 5%superiore a 30 95%

1.10

3

Page 5: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Il modello statistico

MODELLO ≡MECCANISMO GENERATORE

• descrive i possibili risultati (osservazioni)• nell’ipotesi di ripetere più volte l’esperimento

1.11

Esempio 1. Relazione fra il peso (Y ) e la sola altezza (X) di n individui adultimodello:

yi = a+bxi + ei, i = 1, . . . ,n

Y = f (X)+E = legge+ errore accidentale

Introduzione

40

50

60

70

80

90

100

150 160 170 180 190 200

COMPITO DELLA STATISTICA

- identificazione dei modelli - verifica della loro validità

1.12

5 Caratterizzazione della componente di errore

Accidentalità

• non prevedibile con certezza• non presenta sistematicità

caratteristica minimale:compensazione tra errori positivi e negativi (somma nulla)

1.13

COMPITO DELLA STATISTICA

• identificazione del modello più prossimo ai dati• verifica della validità del modello

4

Page 6: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

FONTI DI INDETERMINATEZZA

• Imperfetta specificazione del modello

– forma delle relazioni presenti nel modello

– variabili esplicative non incluse nel modello

• Imprecisione degli strumenti di misura

COME AFFRONTARE LA VARIABILITÀ

• punto di vista deterministicocerca di eliminare la variabilità individuandone le fonti

• approccio statisticosepara la componente strutturale da quella aleatoria (segnale/rumore)

f (X) da Ela legge dall’ errore accidentale

1.14

Osservazionea volte l’aleatorietà è parte essenziale dell’esperimento

(es. giochi d’azzardo)

Considerazione conclusivaSi accetta l’indeterminatezza quando:

• l’eccessiva analiticità diventa troppo onerosa• la parte strutturale f (x) non è sovrastata dall’errore (rumore)

compito della statisticaPREVEDERE al meglio il valore della generica realizzazione del fenomeno oggetto distudio

1.15

6 Le branche della statistica

Statistica descrittivasintesi delle osservazioni campionarie o dei dati censuari

Statistica probabilisticastudio del meccanismo generatore delle realizzazioni campionarie

(modello→ campione)

Statistica inferenzialedal campione al suo meccanismo generatore

(campione→ modello)

1.16

5

Page 7: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 2 (Problema probabilistico). Si consideri una popolazione composta da 1000consumatori, 200 dei quali sono nostri clienti.

200 800

C C

Calcolare la probabilità che contattando un campione rappresentativo di 50 consumatori:

• 5 di questi siano nostri clienti.• 10 di questi siano nostri clienti.• 20 di questi siano nostri clienti.

OsservazioneLa nostra quota di mercato è del 20% e 10 corrisponde al 20% di 50.

1.17

Esempio 3 (Problema inferenziale). Solitamente la quota di mercato è incognita.

p? (1− p)?

C C

Estratto un campione rappresentativo di 50 soggetti abbiamo che 10 di questi sono nostriclienti e 40 sono della concorrenza.A partire da questa informazione e con riferimento alla conoscenza del meccanismo di’selezione’ del campione, si cerca una ’stima’ della nostra quota di mercato.

OsservazioneÈ impossibile fornire una risposta certa.Mediante gli strumenti della statistica inferenziale verrà, ad esempio, indicato un inter-vallo (p− ε, p+ ε) di valori plausibili con associato un predefinito livello di probabilità.

1.18

6

Page 8: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 2Caratteri e scale di misura

2.1

Indice

1 Le fasi di una ricerca 7

2 La rilevazione dei dati 72.1 Oggetto della rilevazione (censimento/campione) . . . . . . . . . . . . . 8

3 Lo spoglio dei dati 15

4 Terminologia essenziale 15

5 Tipi di caratteri e scale di misura 16

6 I caratteri qualitativi 16

7 I caratteri quantitativi 197.1 Variazione assoluta, misura relativa e variazione relativa . . . . . . . . . 20

8 Scale per caratteri quantitativi 21

9 Alcune considerazioni sulle scale di misura 23 2.2

1 Le fasi di una ricerca

1. Identificazione del problema2. Astrazione

• individuazione variabili osservabili (proxy)

3. Rilevazione

• sperimentazione, questionari, . . .

4. Spoglio dei dati

(a) organizzazione dati

(b) classificazione

5. Elaborazione dei dati

(a) sintesi

(b) interpretazione

(c) inferenza

7

Page 9: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Osservazioneuna prima statistica consiste nel costruire le tabelle riassuntive

2.3

2 La rilevazione dei dati

Può essere effettuata tramite:

• sperimentazionetipicamente in ambito industriale

• questionarianche in questo caso spesso si effettuano delle ’sperimentazioni’, come avviene ad esempioper la valutazione del gradimento di nuove caratteristiche di un prodotto/servizio

• basi dati aziendaliinterrogazioni dei data base aziendali con procedure SQL

• basi dati istituzionaliIstat, Eurostat, Banca d’Italia, Uffici comunali dati statistici

• Internet, social networks, tweettipicamente analisi testuali

OsservazioneIl questionario ha anche finalità di comunicazione.

2.4

2.1 Oggetto della rilevazione (censimento/campione)

Definizione 1 (Rilevazione censuaria). Si rilevano dati su tutti i soggetti che costituisconola popolazione di riferimento.

Definizione 2 (Rilevazione campionaria). Si contatta solo un sottoinsieme (campione)della popolazione oggetto di studio.

OsservazionePer garantire che il campione sia rappresentativo della popolazione, si utilizzano proce-dure di selezione di natura casuale.

2.5

8

Page 10: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Continua nella pagina seguente →

HHEELLPP UUSS TTOO IIMMPPRROOVVEE TTHHEE MMUUSSEEUUMM AANNDD BBEE OOUURR GGUUEESSTT FFOORR AA NNIIGGHHTT!!

Knowing your opinion about your visit to Palazzo Reale

will help us to satisfy better your expectations and the other visitors’ ones

FILL IN THIS QUESTIONNAIRE in every form, assigning a value between 1 and 7 when prompted:

I don’t agree 123456 7 I agree

INSERT YOUR E-MAIL ADDRESS AT THE END AND WE WILL SEND YOUR INVITATION TO BE OUR GUEST AT THE NEXT OPENING AT PALAZZO REALE

Date of the visit: . . . . . . . . . . . . . . . . . . Morning Afternoon

Personal information 1. Gender:

M F

2. Age: …………………….

3. Italian city / Foreign state of residence: ………………

4. Title of study: Elementary school grade Junior high school grade Superior high school grade University degree Other

5. Job: Student Employee/Professional Pensioner Unemployed/other

Your visit at the museum 1. Who have you visited the museum with?

Alone With your family/friends Group

2. Is this the first time you visit Palazzo Reale? Yes No

3. Why did you choose to visit this exhibition? Personal interest for the artist/the works Study or professional interest Part of a tour of the city/country To take here some parents/friends Other (specify:…………………….)

4. How many exhibition did you visit during the last 12 months? None From 1 to 3 From 4 to 6 6 and more

1. Information availability 1. Information about the exhibition are easily available I don’t agree 1234567 I agree

2. How did you notice about the exhibition? a newspaper article exhibition website manifests from a friend Other (specify: . . . . . . . . . . . . . . . . . . )

3. Did you use the Palazzo Reale website? No Yes • If yes, the site is accessible.

I don’t agree 1234567 I agree • If yes, the site is acceptably complete.

I don’t agree 1234567 I agree

2. Impression at the visitor’s arrival 1. The waiting times to enter the exposition are acceptable. I don’t agree 1234567 I agree

2. The number of operating counters is proportionate to visitors’ flux.

I don’t agree 1234567 I agree

3. Was you aware of an on-line booking service? Yes No • If yes, I made use of it

Yes No

• If yes, the service is easy to use. I don’t agree 1234567 I agree

4. The presence of contact personnel is proportionate to visitors’ flux.

I don’t agree 1234567 I agree

2.6

9

Page 11: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3. Logistical aspects 1. The main seat of the Palazzo is easily locatable. I don’t agree 1234567 I agree

2. Opening days are suitable to your requirements. I don’t agree 1234567 I agree

3. Opening hours are suitable to your requirements. I don’t’ agree 1234567 I agree

4. The fee is proportionate to the exhibition’s offer. I don’t agree 1234567 I agree

5. The system of signs provides complete information. I don’t agree 1234567 I agree

6. Have you found some deficiency you have to report? No Yes • If yes, the deficiency management is working properly.

I don’t agree 1234567 I agree I did not report the deficiency

4. Expositive route 1. The hall sequence provides a well-structured visit. I don’t agree 1234567 I agree

2. The works positions is proper to the type of exposition (thematic, monographic, etc).

I don’t agree 1234567 I agree

3. Information about the works are easily found near the works themselves

I don’t agree 1234567 I agree

4. You visited the museum: Using a guided tour Using an audio guide Using a printed guide Without a guide

5. Guide services are useful. I don’t agree 1234567 I agree

I did not use the service

5. Hall personnel 1. The hall personnel is properly prepared. I don’t agree 1234567 I agree

2. Their explanations are complete and easy to understand. I don’t agree 1234567 I agree

3. The presence of hall personnel is proportionate to visitors’ flux.

I don’t agree 1234567 I agree

6. Extra services 1. Which of these services of Palazzo Reale did you use?

Wardrobe Audio guide Bookshop and souvenir shop

2. Satisfaction Wardrobe

Little satisfied 1234567 Very satisfied Audio guide

Little satisfied 1234567 Very satisfied Bookshop and souvenir shop

Little satisfied 1234567 Very satisfied

3. Which of the following services (not present at Palazzo Reale) do you consider essential? Restaurant/pub Internet Point

Overall valuation Make an overall valuation of the following aspects:

Cultural offer Little satisfied 1234567 Very satisfied

Personnel competence and efficiency Little satisfied 1234567 Very satisfied

Global organization of the expositive route Little satisfied 1234567 Very satisfied

Extra services Little satisfied 1234567 Very satisfied

Overall valuation of the museum Little satisfied 1234567 Very satisfied

Overall importance Sign the level of importance, in your opinion, of the following aspects:

1. Information availability Little importance 1234567 Great importance

2. Impression at the visitor’s arrival Little importance 1234567 Great importance

3. Logistical aspects. Little importance 1234567 Great importance

4. Expositive route Little importance 1234567 Great importance

5. Hall personnel Little importance 1234567 Great importance

6. Extra services Little importance 1234567 Great importance

2.7

10

Page 12: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.8

2.9

11

Page 13: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.10

2.11

12

Page 14: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.12

2.13

13

Page 15: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.14

Una volta raccolti, i dati confluiscono nella cosiddetta matrice dei dati

Esempio 3 (Matrice dati votazioni studenti).id 1 2 3 4 . . . k

matr cognome nome età voto stat . . . voto laurea1 1234321 Astolfi Antonio 23 28 . . . 1052 4321234 Bianchi Mario 22 31 . . . 110L...

......

......

......

n 7654567 Zito Mario 22 28 . . . 108

Esempio 4 (Matrice dati imprese).id 1 2 3 4

ragione soc. settore dimensione n. dipendenti fatturato1 abc industria grande 123 2 050 2342 ayz terziario piccola 5 520 342...

......

......

...n zyz industria media 60 520 420

2.15

• In ogni riga della matrice dei dati figurano tutte le informazioni riferite a un singolosoggetto.

• In ogni colonna della matrice dei dati figurano le manifestazioni di una singolavariabile per tutti i soggetti.

2.16

14

Page 16: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Lo spoglio dei dati

Esempio 5. Rilevazione tipologia ultima vacanza effettuata da un campione di n = 36soggetti

tipo conteggio n

mare ||||— ||||— ||||— |||| 19montagna ||||— ||||— | 11città d’arte |||| 4agriturismo || 2

n = 36

v j = singoli valori ( j = 1,2, . . . ,n)(le osservazioni di base) 2.17

FormalizzazioneIndicando con xi (i = 1,2, . . . ,k) le modalità distinte e con ni le rispettive frequenzeabbiamo

X = tipologia ultima vacanza

xi = tipo ni = frequenzax1 = mare n1 = 19x2 = montagna n2 = 11x3 = città d’arte n3 = 4x4 = agriturismo n4 = 2

n = 36

e, in estrema sintesi,X = (xi,ni), i = 1,2, . . . ,k

2.18

4 Terminologia essenziale

Unità statistiche o sperimentalisupporto fisico/materiale su cui si estrinseca il fenomeno

• numero finito (popolazione)• infinità numerabile (universo)

Caratteriproprietà dell’unità sperimentale

• qualitativi• quantitativi

Modalità del carattere

• attributi o categorie (caratteri qualitativi)• misure (caratteri quantitativi)

2.19

15

Page 17: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 Tipi di caratteri e scale di misura

Qualitativi / Categorici

tipo scalasconnessi scala nominale / per attributiordinati scala ordinale

(non ha senso confrontare distanze tra categorie)

Quantitativi / Metrici(sono misure espresse da numeri interi o reali)

tipodiscreticontinui

scalescala per intervalliscala per rapporti

2.20

6 I caratteri qualitativi

sconnessi (scala nominale)

• comune di residenza• tipo di industria• tipo di fabbricazione

...

ordinati (scala ordinale)

• titolo di studio• grado di vendibilità• tipo di abitazione• risultato di un esame (A,B,C, . . . )

...2.21

Esempio 6. Esprimi la tua opinione riguardo al prolungamento degli orari di aperturadelle sale studio

moltod'accordo

indifferente decisamentecontrario

(punteggi espressi su scale convenzionali)(tipicamente la scala di Likert)

2.22

16

Page 18: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Indagine sulla soddisfazione dei clienti (’customer satisfaction’)

Esempio 7. Grado di soddisfazione relativo al servizio di bookshop di un museo

Insoddisfatto poco

soddisfatto

indifferente soddisfatto molto

soddisfatto

2.23

Esempio 8. Grado di soddisfazione relativo al servizio di bookshop di un museo

1 2 3 4 5

con 1 = Insoddisfatto, ..., 5 = Molto soddisfatto

2.24

Esempio 9. Grado di soddisfazione relativo al servizio di bookshop di un museo

Insoddisfatto Moltosoddisfatto

2.25

Funzione di trasferimento tra status mentale e punteggio dichiarato

status mentale

giudizio espresso

molto sodd.

M.sodd.

insodd.

Ins.

b

b1

2

3

4

5

la trasformazione ideale è lineare (proporzionalità) 2.26

17

Page 19: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Funzione di trasferimento tra status mentale e punteggio dichiarato

status mentale

giudizio espresso

molto sodd.

M.sodd.

insodd.

Ins.

b

b1

2

3

4

5

Nella realtà difficilmente la trasformazione sarà lineare. 2.27

OsservazioneNon ha senso confrontare distanze tra categorie(anche se codificate con valori numerici)

status mentale

giudizio espresso

molto sodd.

M.sodd.

insodd.

Ins.

b

b1

2

3

4

5

a b c d

infattiab 6= cd mentre (2−1) = (5−4)

2.28

18

Page 20: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

OsservazioneDue soggetti potrebbero perfino avere funzioni di trasferimento diverse ed esprimerepunteggi differenti in corrispondenza dello stesso livello di percezione della soddisfazione

status mentale

giudizio espresso

molto sodd.

M.sodd.

insodd.

soggetto A

Ins.soggetto B

b

b1

2

3

4

5

Quale tra i due soggetti è più severo nelle sue valutazioni? 2.29

7 I caratteri quantitativi

modalità = misure

numeri reali che descrivono una proprietà oggettiva dell’unità statistica

tipologia• continui

insieme di modalità: intervallo• discreti

insieme di modalità: finito o numerabile

proprietà• ordinamento dei numeri reali• definibile una distanza d tra modalità

2.30

distanza1. d(x1,x2) = |x2− x1|= |x1− x2| ≥ 02. d(x1,x2) = 0↔ x1 = x23. |x1− x2| ≤ |x1− x3|+ |x2− x3|

x1

x3

x2

OsservazioneHanno senso le differenze (e le somme) e, quindi, per i caratteri quantitativi, è possibileeffettuare operazioni aritmetiche (medie)

2.31

19

Page 21: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7.1 Variazione assoluta, misura relativa e variazione relativa

Si considerino due misurazioni x1 e x2 di una grandezza X .Esempi:

• presenze alle esposizioni delle opere di Mirò e di Schiele• valore del titolo Sotheby’s al 30.01.2013 e al 28.02.2013

Si ipotizzi chex1 = 15 x2 = 20

Definizione 10 (Variazione assoluta tra x1 e x2).

∆ = x2− x1 =

> 0 se x2 > x1= 0 se x2 = x1< 0 se x2 < x1

∆ = x2− x1 = 20−15 = 52.32

Definizione 11 (Misura relativa di x2 rispetto a x1).

x2

x1=

> 1 se x2 > x1= 1 se x2 = x1< 1 se x2 < x1

x2

x1=

2015

= 1.3333

Se x1 e x2 sono due misurazioni di X in due istanti temporali, ad esempio t1 e t2, la misurarelativa viene denominata montante unitario.

In ambito finanziario il montante unitario è il capitale che si riceve alla fine del periodo diinvestimento a fronte di un investimento unitario. 2.33

Definizione 12 (Variazione relativa tra x1 e x2).

x2− x1

x1=

x2

x1−1 =

> 0 se x2 > x1= 0 se x2 = x1< 0 se x2 < x1

x2− x1

x1=

20−1515

=x2

x1−1 =

515

=2015−1 = 0.3333.

La variazione relativa può essere espressa in termini percentuali100

(x2− x1

x1

)% =

100

(x2

x1−1)

%

e con riferimento all’esempio abbiamo:

(100 ·0.3333)% = 33.33%.2.34

Esercizio 13 (Ideogrammi). Cosa suggerisce la seguente rappresentazione grafica?In seguito a nuove assunzioni il numero di meccanici

Rappresentazioni grafiche

Cosa suggeriscono le seguenti rappresentazioni grafiche? In seguito alle nuove assunzioni il numero di meccanici

→ è raddoppiato è triplicato è quadruplicato

→ oppure → è raddoppiato è triplicato è quadruplicato

Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercato rispetto alle precedenti indagini?

→ del 100% del 150% del 300%

→ oppure → del 100% del 150% del 200%

20

Page 22: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.35

Esercizio 14. Cosa suggerisce la seguente rappresentazione grafica?In seguito a nuove assunzioni il numero di meccanici

Rappresentazioni grafiche

Cosa suggeriscono le seguenti rappresentazioni grafiche? In seguito alle nuove assunzioni il numero di meccanici

→ è raddoppiato è triplicato è quadruplicato

→ analogo a → è raddoppiato è triplicato è quadruplicato

Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercato rispetto alle precedenti indagini?

→ del 100% del 150% del 300%

→ oppure → del 100% del 150% del 200%

2.36

Esercizio 15. Cosa suggerisce la seguente rappresentazione grafica?Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercatorispetto alle precedenti indagini?

Rappresentazioni grafiche

Cosa suggeriscono le seguenti rappresentazioni grafiche?

In seguito alle nuove assunzioni il numero di meccanici

è raddoppiato

è triplicato

è quadruplicato

oppure

è raddoppiato

è triplicato

è quadruplicato

Di quanto è cresciuto il numero di abitazioni considerate

nell’ultima ricerca di mercato rispetto alle precedenti indagini?

oppure

del 100% del 150% del 300%

oppure

del 100% del 150% del 200%

2.37

Esercizio 16. Cosa suggerisce la seguente rappresentazione grafica?Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercatorispetto alle precedenti indagini?

Rappresentazioni grafiche

Cosa suggeriscono le seguenti rappresentazioni grafiche? In seguito alle nuove assunzioni il numero di meccanici

→ è raddoppiato è triplicato è quadruplicato

→ oppure → è raddoppiato è triplicato è quadruplicato

Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercato rispetto alle precedenti indagini?

→ del 100% del 150% del 300%

→ analogo a → del 100% del 150% del 200%

Letture di approfondimentoHuff D. (1954) How to Lie with Statistics, Norton & Company.Spirer F.H., Spirer L., Jaffe A.J. (1998) Misused Statistics, 2nd ed., Marcel Dekker. 2.38

2.39

2.408 Scale per caratteri quantitativi

Definizione 17 (Scala per intervalli). È caratterizzata dalle seguenti due proprietà

• zero convenzionale• unità di misura convenzionale

Esempio: temperature, date di calendario, anno di nascita, . . .(confrontabili differenze semplici, non percentuali) 2.41

Esempio 18. Una temperatura di 30 non è il doppio di una di 15

invecela differenza tra 30 e 34 è doppia che tra 20 e 22

Si considerino le misurazioni in gradi Fahrenheit (F = 32+1.8C)

C F0 32.0

15 59.020 68.022 71.630 86.034 93.2

21

Page 23: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

34−30 = 4 = 2(22−20) = 2 ·293.2−86 = 7.2 = 2(71.6−68) = 2 ·3.6

30/15 = 2 6= 86/59 = 1.4576

non ha quindi senso calcolare ’misure relative’ e nemmeno ’variazioni relative’.2.42

Esempio 19. Se la temperatura in gradi Celsius passa da 20 a 24 si ha un aumento del20%

C F20 68.024 75.2

In corrispondenza F(20) = 68 e F(24) = 75.2 e si registra un aumento del 10.59%2.43

Definizione 20 (scala per rapporti). È caratterizzata dalle seguenti tre proprietà• zero oggettivo (naturale)• unità di misura convenzionale• modalità positive

Esempio: peso, lunghezza, velocità, età(ha senso trattare le variazioni percentuali) 2.44

Esempio 21. Una variazione di velocità da 60 a 90 km/h corrisponde all’incrementopercentuale tra le stesse velocità misurate, ad esempio, in m/sRicordando che 1km/h = 1000m/3600s = 0.2778m/s

km/ora m/sec60 16.666790 25.0000

e la variazione relativa in termini percentuali risulta

100 ·(

90−6060

)% = 50% = 100 ·

(25−16.6667

16.6667

)%.

2.45

OsservazioneI numeri indici (misure relative) (anno base = 100) sono definiti solo per caratteri misuratisu scale per rapporti.

OsservazioneLe variazioni assolute, calcolate su un carattere definito su scala per intervalli, sonodefinite su scala per rapporti.

2.46

Esempio 22. L’anno 2000 non rappresenta il doppio dell’anno 1000mentre un’età di 30 anni è superiore del 50% di quella di 20 anni(età = differenza tra anno corrente e anno di nascita)L’età ha uno zero oggettivo (età alla nascita).Esempio 23. La differenza tra 30 e 34 è doppia che tra 20 e 22

0 20 22 30 34

32 68 71.6 86 93.2

0 2 0 4

convenzionale

oggettivo oggettivo

oggettivo oggettivo0 3.6 0 7.2

si crea uno zero oggettivo.2.47

22

Page 24: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

9 Alcune considerazioni sulle scale di misura

L’impostazione seguita nella presentazione delle scale di misura fa riferimento a StevensSS 1946 On the Theory of Scales of Measurement. Science 103, 677-680.

Problema(Lord FM 1953 On the statistical treatment of football numbers. American Psychologist,8, 750-775)A ciascun componente di 2 squadre universitarie (matricole, 2 anno) di football ameri-cano viene assegnato in maniera casuale il numero di maglia.Ricevuti i numeri i componenti della squadra del 1 anno lamentano che i numeri loroassegnati sono troppo bassi.Quesiti

• Come possiamo classificare il carattere ’numeri assegnati’?• È possibile considerare il carattere ’numeri assegnati’ come un carattere di tipo

quantitativo e utilizzare le conseguenti misure di sintesi per risolvere il problema?2.48

Risposte

• Si tratta di un carattere qualitativo sconnesso.• I sostenitori dell’approccio cosiddetto ’operazionalista’ affermando

«Since the numbers don’t remember where they came from ...»

applicherebbero ’senza farsi troppi scrupoli’ la media aritmetica per confrontare idue gruppi di numeri.

In base alla classificazione proposta da Stevens tale prassi non può essere ammessa.

Una possibile soluzione può essere individuata adottando un’approccio cosiddettopragmatico.

2.49

Approccio pragmatico(Hand DJ 2004 Measurement theory and practice. The world through quantification,Wiley).Occorre definire in maniera molto accurata il contesto e le finalità dell’applicazione chestiamo conducendo.

• nel caso in oggetto non esiste relazione alcuna tra i numeri assegnati e il sistemaempirico basato sul livello di abilità dei giocatori.

• l’applicazione dei metodi statistici propri dei caratteri quantitativi può avere sensosolo se si considerano i due gruppi di numeri solo ’come numeri’, tenendo presenteche non descrivono l’abilità dei giocatori.

2.50

Quesiti

• La famosa batteria di test relativi al Quoziente Intellettivo che porta all’indicatoreQI misura l’ ’intelligenza’ di un individuo?

• Su quale scala è espressa?2.51

Risposte

• La batteria dei test misura, in realtà, il concetto sotteso all’insieme di quesiti pro-posti.La batteria di test e, in generale, ogni questionario rappresentano uno strumento dimisurazione.

23

Page 25: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

• In base all’approccio pragmatico possiamo dire che:«The precise property being measured is defined simultaneously with the procedurefor measuring it, under the assumption of explicitly defining the meaning of theconcept one is measuring»(Hand DJ in Kenett Salini (eds.) 2012 Modern Analysis of Customer SatisfactionSurveys, Wiley)e che«In a sense this makes the scale type the choice of the researcher»(Hand DJ 2004 Measurement theory and practice. The world through quantifica-tion, Wiley, p. 63.)

2.52

OsservazioneQuesti ragionamenti possono, in alcune situazioni, giustificare il trattamento delle scalepresenti, ad esempio, nelle indagini di customer satisfaction che sarebbero da trattarecome propriamente ordinali, ma che correntemente vengono utilizzate come se fossero ditipo metrico.(Essenzialità delle fasi di astrazione e di ricerca della definizione dei concetti che sarannooggetto di analisi.)

Esercizio 24. Qual è la scala di misura della variabile ’quantità di cibo ingerito’?

La risposta sembra ovvia: si tratta di un carattere quantitativo continuo misurato su scalaper rapporti.

E se questa variabile fosse considerata una misura del ’livello di fame/sazietà di un indi-viduo’?

2.53

24

Page 26: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 3Caratteri e loro rappresentazionegrafica

3.1

Indice

1 Organizzazione dei dati elementari 251.1 Carattere qualitativo sconnesso . . . . . . . . . . . . . . . . . . . . . . . 261.2 Carattere qualitativo ordinato . . . . . . . . . . . . . . . . . . . . . . . . 301.3 Carattere quantitativo non raggruppato in classi . . . . . . . . . . . . . . 331.4 Carattere quantitativo raggruppato in classi . . . . . . . . . . . . . . . . 351.5 Riepilogo rappresentazioni grafiche . . . . . . . . . . . . . . . . . . . . 441.6 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2 Rappresentazione grafica delle serie storiche 47 3.2

1 Organizzazione dei dati elementari

Si costruiscono dei prospetti riassuntivi a partire dall’elenco delle osservazioni.

matrice dati impreseragione soc. settore dimensione n. dipendenti fatturato

1 abc industria grande 123 2 050 2342 ayz terziario piccola 5 520 342...

......

......

...n zyz industria media 60 520 420

v1,v2, . . . ,vn (generica colonna estratta dalla matrice dei dati)

Se il numero di categorie/valori distinti è limitato risulta agevole raccoglierli in una tabella3.3

Esempio 1. n imprese per settore

xi niagricoltura 76industria 195terziario 257

528

tra le n = 528 unità sperimentali esistono n2 = 195 unità con modalità x2 = industria3.4

25

Page 27: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 2. n stanze per abitazione

xi ni1 1842 4513 3124 1975 846 26

1254

tra le n = 1254 unità sperimentali esistono n3 = 312 unità con modalità x3 = 33.5

1.1 Carattere qualitativo sconnesso

carattere qualitativo sconnessoSi è rilevato il carattere X = ’tipologia dell’ultimo spettacolo di evasione a cui hai par-tecipato’, ottenendo, per 8 soggetti, le seguenti osservazioni ( f = film, t = teatro, c =concerto)

soggetto 1 2 3 4 5 6 7 8evento f f c c f t f c

i valori possono essere riclassificati nella seguente tabella

xi ni fif 4 0.500t 1 0.125c 3 0.375

8 1.000

• xi: modalità• ni: frequenze assolute; numero di unità statistiche con modalità xi• fi =

nin : frequenze relative; quota di unità statistiche con modalità xi

3.6

Definizione 3 (Mutabile statistica). L’insieme delle coppie

(xi,ni), i = 1, . . . ,k

è detto mutabile statistica.

Perdita d’informazione

xi ni fif 4 0.500t 1 0.125c 3 0.375

8 1.000

Rispetto ai dati iniziali si è persa l’informazione su quale soggetto abbia partecipato a unadeterminata manifestazione.

3.7

26

Page 28: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Rappresentazione grafica (grafico a bastoncini o canne d’organo)

xi ni fif 4 0.500t 1 0.125c 3 0.375

8 1.000

xi

ni oppure fi

f t c

(modalità convenzionalmente equispaziate)3.8

Il grafico di ParetoIn presenza di un carattere qualitativo sconnesso l’ordine dato nella rappresentazionegrafica alle categorie è arbitrario.Nel grafico di Pareto le categorie vengono ordinate in funzione decrescente delle rispettivefrequenze.

xi ni fif 4 0.500t 1 0.125c 3 0.375

8 1.000

xi

ni oppure fi

f c t

3.9

27

Page 29: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

frequenze assolute o relative? (1)

numero capi composizioneUSA CH USA CH

bovini 127976000 2005000 0.67 0.46suini 49602000 2006000 0.26 0.46ovini 13346000 377000 0.07 0.09

190924000 4388000 1.00 1.00

xixi

0.0e

+00

2.0e

+07

4.0e

+07

6.0e

+07

8.0e

+07

1.0e

+08

1.2e

+08

1.4e

+08

ni

bovini suini ovini

confronto in termini di dimensione3.10

28

Page 30: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

frequenze assolute o relative? (2)

numero capi composizioneUSA CH USA CH

bovini 127976000 2005000 0.67 0.46suini 49602000 2006000 0.26 0.46ovini 13346000 377000 0.07 0.09

190924000 4388000 1.00 1.00

xixi

0.0

0.2

0.4

0.6

0.8

1.0

fi

bovini suini ovini

confronto in termini di composizione

3.11È anche possibile costruire un grafico a torta (settori proporzionali alle frequenze)

xi ni fi settoref 4 0.500 180

t 1 0.125 45

c 3 0.375 135

8 1.000 360

film

teatro

concerto

3.12

29

Page 31: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.2 Carattere qualitativo ordinato

carattere qualitativo ordinatoSi è rilevato il carattere X = ’votazione’ ottenuta da 8 soggetti, ottenendo le seguentiosservazioni (d = discreto, b = buono, o = ottimo)

soggetto 1 2 3 4 5 6 7 8votazione d d o o d b d o

i valori possono essere riclassificati nella seguente tabella(perdendo l’informazione sul voto conseguito da ciascun soggetto)

xi ni fi Ni Fid 4 0.500 4 0.500b 1 0.125 5 0.625o 3 0.375 8 1.000

8 1.000

• xi: modalità• ni: frequenze assolute; numero di unità statistiche con modalità xi• fi =

nin : frequenze relative; quota di unità statistiche con modalità xi

3.13

xi ni fi Ni Fid 4 0.500 4 = 4 0.500 = 0.5 = 4/8b 1 0.125 5 = 4+1 0.625 = 0.5+0.125 = 5/8o 3 0.375 8 = 4+1+3 1.000 = 0.5+0.125+0.375 = 8/8

8 1.000

• xi: modalità• ni: frequenze assolute; numero di unità statistiche con modalità xi• fi =

nin : frequenze relative; quota di unità statistiche con modalità xi

• Ni: frequenze assolute cumulate; numero di unità statistiche con modalità fino a xi• Fi =

Nin = ∑

ij=1 f j =

1n ∑

ij=1 n j: frequenze relative cumulate; quota di unità statisti-

che con modalità fino a xi

3.14

30

Page 32: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Rappresentazione grafica (grafico a bastoncini o canne d’organo)

xi ni fid 4 0.500b 1 0.125o 3 0.375

8 1.000

xi

ni oppure fi

d b o

3.15Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripar-tizione F(x)

Funzione di ripartizione

• F(x) quota di unità statistiche con modalità fino a x

La definizione di funzione di ripartizione ha carattere generale (anche per i caratteriquantitativi);Si osserva come x possa corrispondere anche a valori non osservati o inesistenti;Nell’esempio in esame: una votazione insufficiente o compresa tra buono e ottimo o anchesuperiore a ottimo.

3.16

31

Page 33: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Grafico Funzione di RipartizioneF(x) quota di unità statistiche con modalità fino a x

xi ni fi Ni Fid 4 0.500 4 0.500b 1 0.125 5 0.625o 3 0.375 8 1.000

8 1.000

x

0.0

0.2

0.4

0.6

0.8

1.0

F(x)

d b o

3.17

Grafico frequenze cumulateÈ possibile rappresentare graficamente anche le frequenze cumulate assolute mediante lafunzione N(x)

• N(x) numero di unità statistiche con modalità fino a x

xi ni fi Nid 4 0.500 4b 1 0.125 5o 3 0.375 8

8 1.000

x

02

46

8

N(x)

d b o

3.18

32

Page 34: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.3 Carattere quantitativo non raggruppato in classi

carattere quantitativo non raggruppato in classiValgono le stesse considerazioni fatte per i caratteri qualitativi ordinati.

Occorre solo tenere presente, nel costruire le rappresentazioni grafiche, che le modalitàdel carattere sono delle misure e quindi potrebbero essere non equispaziate.

3.19

Si è rilevata la variabile X = ’votazione’ riportata da 8 soggetti, considerata metricasecondo l’approccio pragmatico, ottenendo le seguenti osservazioni

soggetto 1 2 3 4 5 6 7 8votazione 24 24 30 30 24 28 24 30

i valori possono essere riclassificati nella seguente tabella

xi ni fi Ni Fi24 4 0.500 4 0.50028 1 0.125 5 0.62530 3 0.375 8 1.000

8 1.000

3.20

xi ni fi Ni Fi24 4 0.500 4 0.50028 1 0.125 5 0.62530 3 0.375 8 1.000

8 1.000

• xi: modalità• ni: frequenze assolute; numero di unità statistiche con modalità xi• fi =

nin : frequenze relative; quota di unità statistiche con modalità xi

• Ni =∑ij=1 n j: frequenze assolute cumulate; numero di unità statistiche con modalità

minore o eguale a xi• Fi =

Nin = ∑

ij=1 f j: frequenze relative cumulate; quota di unità statistiche con mo-

dalità minore o eguale a xi

3.21

Definizione 4 (Serie statistica). L’insieme delle coppie

(xi,ni), i = 1, . . . ,k

è detto serie statistica.3.22

33

Page 35: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Rappresentazione grafica (grafico a bastoncini)

xi ni fi24 4 0.50028 1 0.12530 3 0.375

8 1.000

x

20 22 24 26 28 30 32

ni oppure fi

3.23

Grafico Funzione di RipartizionePer rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripar-tizione F(x)

• F(x) quota di unità statistiche con modalità minore o eguale a x

xi ni fi Ni Fi24 4 0.500 4 0.50028 1 0.125 5 0.62530 3 0.375 8 1.000

8 1.000

20 22 24 26 28 30 32

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x)

3.24

34

Page 36: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Grafico Frequenze cumulateÈ possibile rappresentare graficamente anche le frequenze cumulate assolute mediante lafunzione N(x)

• N(x) numero di unità statistiche con modalità fino a x

xi ni fi Ni24 4 0.500 428 1 0.125 530 3 0.375 8

8 1.000

20 22 24 26 28 30 32

02

46

8

x

N(x)

3.25

1.4 Carattere quantitativo raggruppato in classi

Nel caso di variabile continua si hanno troppi valori distinti!!È possibile raggruppare i dati in classi.In genere le classi sono chiuse a destra (da . . . escluso, a . . . incluso] 3.26

Esempio 5. Si è rilevata l’altezza di 10 individui ottenendo le seguenti misurazioni:

soggetto 1 2 3 4 5 6 7 8 9 10altezza 175 168 165 172 180 185 178 172 174 183

↑ ↑min max

I valori assunti dalle unità statistiche possono essere rappresentati come punti sulla rettareale.

175168165 172 180 185178172 174 183

3.27

35

Page 37: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si consideri un intervallo (h0,hk] inclusivo di tutti i valori,

175168165 172 180 185178172 174 183

](h0 h k

(ma anche di possibili valori che potrebbero essere rilevati su altre unità statistiche)quindi

h0 < min teorico e hk ≥max teorico3.28

si definisca una partizione dell’intervallo in k sottoinsiemi (denominati classi)

( ( (] ] ]h0 h1 h2 h k−1 h k

classe 1 classe 2 ... classe k

Le k classi(h0,h1],(h1,h2], . . . ,(hk−1,hk]

costituiscono una partizione dell’intervallo (h0,hk]:

1. sono intervalli (insiemi) disgiunti2. la loro unione coincide con (h0,hk]

3.29

Nel caso in esame si ipotizzi di utilizzare k = 3 classi.

soggetto 1 2 3 4 5 6 7 8 9 10altezza 175 168 165 172 180 185 178 172 174 183

↑ ↑min max

È, quindi, possibile assegnare ciascuno dei valori osservati a una e una sola delle classi.

175168165 172 180 185178172 174 183

( ( (] ] ]162 170 180 190

Si osserva il carattere esaustivo della classificazione operata3.30

36

Page 38: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Una volta definiti gli estremi delle classi, i seguenti valori

soggetto 1 2 3 4 5 6 7 8 9 10altezza 175 168 165 172 180 185 178 172 174 183

possono essere riclassificati in una tabella

i classe hi−1 a hi ni1 h0 = 162 a h1 = 170 22 h1 = 170 a h2 = 180 63 h2 = 180 a h3 = 190 2

10

• hi−1: estremo inferiore della classe i-esima• hi: estremo superiore della classe i-esima• ni: frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi

3.31

Definizione 6 (Seriazione statistica). L’insieme degli elementi

((hi−1,hi),ni), i = 1, . . . ,k

è detto seriazione statistica.

OsservazioneNella determinazione delle classi (hi−1 a hi) occorre evitare le seguenti situazioni:

• poche classi con frequenze troppo elevate,• molte classi con frequenze troppo basse (≤ 15).

3.32

Il fenomeno può essere analizzato non solo in termini assoluti, ma anche in termini relativi

hi−1 a hi ni fi162 a 170 2 0.2170 a 180 6 0.6180 a 190 2 0.2

10 1

• fi =nin : frequenze relative; quota di unità statistiche con valore tra hi−1 e hi

3.33

e si possono anche costruire le frequenze cumulate

hi−1 a hi ni fi Ni Fi162 a 170 2 0.2 2 0.2170 a 180 6 0.6 8 0.8180 a 190 2 0.2 10 1

10 1

• hi−1,hi: estremi inferiore e superiore della classe i-esima• ni: frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi• fi =

nin : frequenze relative; quota di unità statistiche con valore tra hi−1 e hi

• Ni: frequenze assolute cumulate; numero di unità statistiche con modalità ≤ hi• Fi: frequenze relative cumulate; quota di unità statistiche con modalità ≤ hi

3.34

37

Page 39: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Perdita d’informazionesoggetto 1 2 3 4 5 6 7 8 9 10altezza 175 168 165 172 180 185 178 172 174 183

hi−1 a hi ni162 a 170 2170 a 180 6180 a 190 2

10

Rispetto ai dati iniziali non si è solo persa l’informazione su quale soggetto abbia una de-terminata altezza, ma non si hanno più nemmeno i valori delle singole altezze all’internodi ciascuna classe.

3.35

Ipotesi di equidistribuzione delle unità statistiche all’interno di ciascuna classehi−1 a hi ni

162 a 170 2170 a 180 6180 a 190 2

10

( ( (] ] ]162 170 180 190

È come se si suddividesse ciascuna classe hi−1 a hi in ni sottoclassi e si posizionassero idati in corrispondenza degli estremi superiori di queste sottoclassi.

3.36

Definizione 7 (Densità di frequenza (assoluta)). Rapporto tra il numero, ni, di unitàstatistiche nella classe i e l’ampiezza della classe ai = hi−hi−1

di =ni

ai

Essa rappresenta il numero (medio) di unità statistiche che cadono in un generico inter-vallo di ampiezza unitaria.

graficamente, nell’ipotesi che ni 1, abbiamo

](

hi−1 hi

intervallo unitario3.37

La densità di frequenza può, naturalmente, essere espressa anche in termini relativi.

Definizione 8 (Densità di frequenza (relativa)). Quota (media) di unità statistiche chevengono a cadere in un generico intervallo di ampiezza unitaria all’interno della classe

di =fi

ai

rapporto tra quota di unità statistiche nella classe e ampiezza della classe ai = hi−hi−13.38

38

Page 40: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Rappresentazione grafica (istogramma)Sull’asse delle ordinate si riportano le densità di frequenza (assolute o relative)

hi−1 a hi ni fi ai di(assolute) di(relative)162 a 170 2 0.2 8 0.25 0.025170 a 180 6 0.6 10 0.60 0.060180 a 190 2 0.2 10 0.20 0.020

10 1.0

x

150 160 170 180 190 200

ni ai oppure fi ai

3.39

Interpretazione istogrammaL’area di ciascun rettangolo nell’istogramma coincide con la frequenza assoluta (relativa)della classe

niai

ai · niai= ni

ai

fiai

ai · fiai= fi

ai

3.40

39

Page 41: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Funzione di ripartizione F(x)Quota di unità statistiche con modalità minore o eguale a x

hi−1 a hi ni fi Ni Fi162 a 170 2 0.2 2 0.2170 a 180 6 0.6 8 0.8180 a 190 2 0.2 10 1

10 1

x

150 160 170 180 190 200

0.0

0.2

0.4

0.6

0.8

1.0

F(x)

sulla base delle informazioni disponibili possiamo solo quantificare il valore di F(x) soloper x = hi, i = 1, . . . ,k, x < h0 e x > hk

3.41

40

Page 42: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Ipotizzando però l’equidistribuzione delle unità statistiche all’interno di ciascuna clas-se possiamo individuare la posizione delle singole ni osservazioni di ciascuna classeottenendo (cfr. rappresentazione per caratteri discreti)

hi−1 a hi ni fi Ni Fi162 a 170 2 0.2 2 0.2170 a 180 6 0.6 8 0.8180 a 190 2 0.2 10 1

10 1

150 160 170 180 190 200

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x)

3.42

41

Page 43: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Quando il numero di unità statistiche risulta sufficientemente elevato in ciascuna classe,ni 1, otteniamo

150 160 170 180 190 200

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x)

3.43

In tal caso la funzione a gradini può essere approssimata con una spezzata

x

150 160 170 180 190 200

0.0

0.2

0.4

0.6

0.8

1.0

F(x)

Questa rappresentazione viene comunque utilizzata anche nel caso di ni qualsiasi, facendol’ipotesi che ni 1. 3.44

42

Page 44: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante lafunzione N(x)

• N(x) numero di unità statistiche con modalità fino a x

hi−1 a hi ni fi Ni162 a 170 2 0.2 2170 a 180 6 0.6 8180 a 190 2 0.2 10

10 1

x

150 160 170 180 190 200

02

46

810

N(x)

3.45

43

Page 45: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.5 Riepilogo rappresentazioni grafiche

Frequenze semplici ni, fiTipologia carattere

qualitativo qualitativo quantitativo quantitativosconnesso ordinato no classi con classi

ni ai oppure fi ai

3.46

Frequenze cumulate Ni,FiTipologia carattere

qualitativo qualitativo quantitativo quantitativosconnesso ordinato no classi con classi

non definita

3.47

OsservazionePer ogni variabile presente nella matrice dei dati

matrice dati impreseragione soc. settore dimensione n. dipendenti fatturato

1 abc industria grande 123 2 050 2342 ayz terziario piccola 5 520 342...

......

......

...n zyz industria media 60 520 420

siamo in grado di effettuare sintesi univariate (tabelle e grafici).

Nel seguito considereremo ulteriori analisi (indici di posizione e variabilità).3.48

44

Page 46: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.6 Esercizi

Eventuali riferimenti in parentesi riportano numero del tema d’esame, data e numero diesercizio della corrispondente prova di Statistica I (Università Cattolica del Sacro Cuore,Milano, Facoltà di Economia, Interfacoltà di Economia-Lettere).

Esercizio 9. Nella seguente figura sono riportate le Funzioni di Ripartizione relative alleseriazioni statistiche:

• X : distribuzione dei redditi nella località A;• Y : distribuzione dei redditi nella località B.

0 10 20 30 40 50 600 10 20 30 40 50 60

0.2

0.7

0.8

1

A

B

In quale località si ha presenza di redditi più elevati?

A≺ B: i redditi in B sono superiori a quelli in AA B: i redditi in A sono superiori a quelli in B

3.49

45

Page 47: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 10 (T 162, 24.06.1998, A). Una delegazione provinciale della F.I.C. (Federa-zione Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio esple-tati dai suoi 8 componenti (A,B, . . . ,H) durante l’anno. Si riportano il tipo di sport (S,nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione del servizio (T , a = autunno,i = inverno, p = primavera, e = estate), la durata del servizio (D, in minuti) e l’entità delrimborso complessivamente percepito per il servizio (R, in e).

serv 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15cron B B H G F A E E B C D D B C GS n n c c n s s n s n s s c c nT a a a a i i i i i p p p p p pD 120 120 360 60 180 360 360 120 360 180 480 420 300 420 180R 20 20 45 60 30 50 70 30 60 45 60 70 40 60 30

1. Si rappresenti graficamente la mutabile S.2. Si rappresentino graficamente le frequenze assolute e la funzione di ripartizione

della variabile D.3. Si raggruppino i valori di R in tre classi chiuse a destra di ampiezza 25, consi-

derando come estremo inferiore della prima classe il valore 10, e se ne dia unarappresentazione grafica.

3.50

Esercizio 11 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le di-stribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto allivello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’):

’visitatori esperti’hi−1 a hi fi5 a 10 0.40

10 a 20 0.4020 a 25 0.20

1.00

’visitatori occasionali’hi−1 a hi fi5 a 10 0.76

10 a 20 0.0820 a 25 0.16

1.00

1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le duetipologie di visitatori. -

3.51

Esercizio 12 (T 180, 14.09.2000, 1). Lo spessore X delle lamine prodotte da una mac-china è compreso tra 15.2 e 16.5 mm.Si individuino le ampiezze delle 4 classi (Ii) in cui è ripartito l’intervallo (15.1;16.5] inmodo tale che:

I1 I2 I3 I4fi 0.05 0.09 0.72 0.14di 0.25 0.45 2.40 0.20

1. Si costruisca l’istogramma della variabile X .2. Supponendo che dalla produzione vengano scartate le lamine con spessore minore

di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito,la percentuale di lamine eliminate.

3.52

46

Page 48: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Rappresentazione grafica delle serie storiche

Le serie storicheUna serie storica Xt è una sequenza di valori

x0,x1, . . . ,xT

registrati:

• in corrispondenza degli istanti temporali t = 0,1,2, . . . ,T• al termine degli intervalli (t−1, t], t = 1,2, . . . ,T .

Si pensi, ad esempio, alla quotazione giornaliera di un titolo di borsa oppure alla realiz-zazione mensile o trimestrale del fatturato di un’azienda.

Serie storiche di stock e di flusso

• La serie storica si definisce di stock se i riferimenti temporali sono istanti temporali(’capitale sociale’, ’quotazione di chiusura di un titolo’)

• La serie storica si definisce di flusso se i riferimenti temporali sono degli intervallitemporali(’risultato economico di esercizio’, ’volume degli scambi’)

3.53

3.54

A partire dai valori osservati è possibile definire:

• la sequenza delle variazioni assolute rispetto a un particolare istante temporale, adesempio t = 0:

x0− x0 = 0,x1− x0, . . . ,xT − x0

• la sequenza delle misure relative rispetto a un particolare istante temporale, adesempio t = 0:

x0

x0= 1,

x1

x0, . . . ,

xT

x0

• la sequenza delle variazioni relative rispetto a un particolare istante temporale, adesempio t = 0:

x0− x0

x0= 0,

x1− x0

x0=

x1

x0−1, . . . ,

xT − x0

x0=

xT

x0−1

47

Page 49: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

che possono anche essere espresse come variazioni relative percentuali (se molti-plicate per 100):

0,x1− x0

x0, . . . ,

xT − x0

x0

= 100

0,

x1− x0

x0, . . . ,

xT − x0

x0

%

0,

x1

x0−1, . . . ,

xT

x0−1

= 100

0,

x1

x0−1, . . . ,

xT

x0−1

%

3.55

Esempio 13. Serie storica Xt delle valutazioni contabili del patrimonio dell’azienda Yrisultanti dai bilanci degli esercizi 2003, . . . ,2007 (dati in milioni di e); le sequenze dellevariazioni assolute xt − xt−1, delle misure relative xt

xt−1e delle variazioni relative semplici

e percentuali, xt−xt−1xt−1

e 100 xt−xt−1xt−1

%, definite rispetto agli istanti temporali t−1:

t Anno xt xt − xt−1xt

xt−1

xt−xt−1xt−1

%0 2003 5181 2004 550 32 1.0618 0.0618 6.182 2005 540 −10 0.9818 −0.0182 −1.823 2006 580 40 1.0741 0.0741 7.414 2007 608 28 1.0483 0.0483 4.83

3.56Si riportano le possibili rappresentazioni grafiche delle serie storiche oggetto di analisi.

2002 2003 2004 2005 2006 2007 2008

450

500

550

600

650

Serie storica xt che descrive l’andamento del patrimonio dell’azienda Y tra il 2003 e il2007 (dati in milioni di e) (stock) 3.57

48

Page 50: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2002 2003 2004 2005 2006 2007 2008

−20

−10

010

2030

4050

Serie storica xt−xt−1 che descrive le variazioni del patrimonio dell’azienda Y tra il 2003e il 2007 (dati in milioni di e) (flusso) 3.58

2002 2003 2004 2005 2006 2007 2008

450

550

650

2002 2003 2004 2005 2006 2007 2008

−20

020

40

2002 2003 2004 2005 2006 2007 2008

0.90

1.00

1.10

Serie storiche xt , xt−xt−1 e xtxt−1

che descrivono rispettivamente il patrimonio dell’aziendaY , le sue variazioni semplici e i valori relativi, di anno in anno, tra il 2003 e il 2007. 3.59

49

Page 51: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2002 2003 2004 2005 2006 2007 2008

−20

020

40

2002 2003 2004 2005 2006 2007 2008

−0.

040.

000.

040.

08

2002 2003 2004 2005 2006 2007 2008

−0.

040.

000.

040.

08

Serie storiche che descrivono le variazioni assolute xt−xt−1, le variazioni relative sempli-ci e percentuali, xt−xt−1

xt−1e 100 xt−xt−1

xt−1%, subite di anno in anno dal patrimonio dell’azienda

Y tra il 2003 e il 2007. 3.60

Esercizio 14. Si ricostruiscano le rappresentazioni grafiche precedenti con riferimentoalla seguente serie storica:

t Anno xt xt − xt−1xt

xt−1

xt−xt−1xt−1

100 xt−xt−1xt−1

%0 2000 1001 2001 502 2002 1003 2003 1504 2004 100

3.61

50

Page 52: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 4La classificazione congiunta didue caratteri

4.1

Indice

1 La classificazione congiunta di due caratteri 51 4.2

1 La classificazione congiunta di due caratteri

Esempio 1. Con riferimento ai dati, inerenti 15 servizi di cronometraggio complessiva-mente espletati da 8 componenti della F.I.C. (Federazione Italiana Cronometristi), cfr.Esercizio nella sezione precedente.

servizio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15D 120 120 360 60 180 360 360 120 360 180 480 420 300 420 180R 20 20 45 60 30 50 70 30 60 45 60 70 40 60 30

si vuole studiare il comportamento congiunto delle variabili D ed R.A tal fine si raggruppano i valori di D nelle tre classi (50,180],(180,360],(360,480] e ivalori di R nelle tre classi (10,35],(35,60],(60,85].

D \ R 10 a 35 35 a 60 60 a 8550 a 180180 a 360360 a 480

4.3Ciascuna unità statistica può essere assegnata a una e una sola delle celle nella tabella;occorre conteggiare quante unità statistiche corrispondono a ciascuna combinazione delleclassi di D = durata del servizio e R = entità del rimborso

D \ R 10 a 35 35 a 60 60 a 85 ni•50 a 180 5 2 0 7180 a 360 0 4 1 5360 a 480 0 2 1 3

n• j 5 8 2 15

Il valore 4 nella seconda riga, seconda colonna (parte interna della tabella) indica che trale 15 unità statistiche ve ne sono 4 che hanno prestato una durata del servizio tra 180 e360 minuti ricevendo un rimborso compreso tra 35 e 60 e.

Esso viene indicato con n22, dove il primo indice sta a indicare la classe della variabileD (indice di riga) mentre il secondo indice indica la classe della variabile R (indice dicolonna). 4.4

51

Page 53: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Abbiamo quindi

D \ R 10 a 35 35 a 60 60 a 85 ni•50 a 180 n11 = 5 n12 = 2 n13 = 0 n1• = 7

180 a 360 n21 = 0 n22 = 4 n23 = 1 n2• = 5360 a 480 n31 = 0 n32 = 2 n33 = 1 n3• = 3

n• j n•1 = 5 n•2 = 8 n•3 = 2 n = 15

• ni j frequenze congiunte; numero di unità statistiche con modalità (appartenenti allaclasse) corrispondente alla i-esima riga e j-esima colonna.

• ni• frequenze marginali di D; numero di unità statistiche con i-esima modalità (ap-partenenti alla i-esima classe) di D; (somma delle frequenze congiunte nella i-esimariga;

• n• j frequenze marginali di R; numero di unità statistiche con j-esima modalità(appartenenti alla j-esima classe) di R; (somma delle frequenze congiunte nellaj-esima colonna.

4.5Si osserva come nella tabella

D \ R 10 a 35 35 a 60 60 a 85 ni•50 a 180 n11 = 5 n12 = 2 n13 = 0 n1• = 7

180 a 360 n21 = 0 n22 = 4 n23 = 1 n2• = 5360 a 480 n31 = 0 n32 = 2 n33 = 1 n3• = 3

n• j n•1 = 5 n•2 = 8 n•3 = 2 n = 15

figurino anche le frequenze assolute delle due variabili D e R separatamente considerate

D ni•50 a 180 7

180 a 360 5360 a 480 3

15

R n• j10 a 35 535 a 60 860 a 85 2

15

La frequenza n1• = 7, attinente alla classe 50 a 180 è stata ottenuta sommando n11 = 5,n12 = 2 e n13 = 0.

Il simbolo • sostituisce l’indice rispetto al quale si è effettuata la somma:

7 = n1• = n11 +n12 +n13 =3

∑j=1

n1 j

4.6

Definizione 2 (Variabile/Mutabile statistica doppia). L’insieme (X ,Y ) delle terne

xi,y j,ni j, i = 1,2 . . . ,h; j = 1,2, . . . ,k,

dove gli elementi xi,y j possono essere categorie, valori singoli, classi o valori centralidelle classi, è detto mutabile/variabile statistica doppia.

4.7Le coppie di dati elementari vr,wr (r = 1,2, . . . ,n) sono riassunte in h modalità/classixi e k modalità/classi y j

X \ Y y1 . . . y j . . . yk ni•x1 n11 . . . n1 j . . . n1k n1•...

......

......

xi ni1 . . . ni j . . . nik ni•...

......

......

xh nh1 . . . nh j . . . nhk nh•n• j n•1 . . . n• j . . . n•k n

52

Page 54: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

xi,y j = eventuali valori centralini• = totali di riga = ∑

kj=1 ni j

n• j = totali di colonna = ∑hi=1 ni j

h

∑i=1

k

∑j=1

ni j =h

∑i=1

ni• =k

∑j=1

n• j = n

Dalla mutabile/serie/seriazione doppia è possibile ricavare due distribuzioni marginaliunivariate. 4.8

Esempio 3. X = spessore, Y = durezza

X \ Y 70 a 80 80 a 90 90 a 100 ni•5.5 a 7.5 6 9 9 247.5 a 9.5 25 29 25 799.5 a 11.5 7 10 9 26

11.5 a 13.5 2 4 5 11n• j 40 52 48 140

Nel caso in esame siamo in presenza di una seriazione statistica doppia, le cui marginalisono

xi ni•5.5 a 7.5 247.5 a 9.5 79

9.5 a 11.5 2611.5 a 13.5 11

140

y j n• j70 a 80 4080 a 90 52

90 a 100 48140

4.9

OsservazioneNon è immediato stabilire, con la semplice lettura della tabella, se lo spessore (X) induceun aumento di durezza (Y ); necessitano, a tale proposito, ulteriori strumenti statistici cheverranno presentati nell’ambito dell’analisi statistica bivariata.

4.10

53

Page 55: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 56: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 5Indici di posizione (1)

5.1

Indice

1 Indici sintetici o statistiche 55

2 Indici di posizione 55

3 La moda 57

4 I percentili 60

5 Box & Whiskers plot 74

6 Le medie potenziate 816.1 La media aritmetica (r = 1) . . . . . . . . . . . . . . . . . . . . . . . . . 816.2 La media armonica (r =−1) . . . . . . . . . . . . . . . . . . . . . . . . 826.3 La media quadratica (r = 2) . . . . . . . . . . . . . . . . . . . . . . . . 836.4 Il Teorema fondamentale sulle medie potenziate . . . . . . . . . . . . . . 846.5 La media geometrica (r = 0) . . . . . . . . . . . . . . . . . . . . . . . . 85

7 Esercizi 86

8 La media aritmetica è sempre media in senso stretto 88

9 L’operatore media aritmetica 90

10 Interpretazione fisica della media aritmetica 90

11 Media aritmetica di una trasformazione lineare 91

12 I momenti 92 5.2

1 Indici sintetici o statistiche

Date le n osservazioni campionarie

v1,v2, . . . ,vn,

eventualmente raccolte in una serie statistica

X = (xi,ni), i = 1, . . . ,k,

55

Page 57: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

un indice sintetico è una funzione

I = α(v1,v2, . . . ,vn) = α(X)

5.3

2 Indici di posizione

?

sono migliori gli studenti maschi o le femmine

?

si mangiano più polli pro-capite in Italia o in Danimarca

?

(si confrontano statistiche che rappresentano i livelli/valori tipici) 5.4

LA STATISTICAdi Trilussa

Sai ched’è la statistica? È na’ cosache serve pe fà un conto in generalede la gente che nasce, che sta male,che more, che va in carcere e che spósa.

Ma pè me la statistica curiosaè dove c’entra la percentuale,pè via che, lì,la media è sempre egualepuro co’ la persona bisognosa.

Me spiego: da li conti che se fannoseconno le statistiche d’adessorisurta che te tocca un pollo all’anno:

e, se nun entra nelle spese tue,t’entra ne la statistica lo stessoperch’è c’è un antro che ne magna due.

5.5A seconda della scala di misurazione un indice di posizione dovrà soddisfare le seguenticaratteristiche:

• da nominale in su: modalità/valore più simile a tutti (o alla maggioranza)

1. internalitàuno dei valori assunti dal fenomeno(condizione di Cauchy)

• da ordinale in su: valore centrale della distribuzione

1. internalitàxmin ≤ α(X)≤ xmax

(condizione di Cauchy)

56

Page 58: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2. monotonicitàX ≤ Y → α(X)≤ α(Y )

• da scala per intervalli (dati metrici): valore più vicino a tutti

3. moltiplicativitàα(cX) = cα(X)

con c costante arbitraria5.6

È possibile definire i seguenti indici di posizione, in accordo alla scala di misurazione delcarattere oggetto di studio

• da nominale in su→ moda (o norma)

• da ordinale in su→ mediana (o percentili)

• da scala per intervalli (dati metrici)→ medie

5.7

Osservazioni

• la proprietà di Cauchy è irrinunciabile• 1) 2) e 3) media in senso stretto• se cade la proprietà di monotonicità la media si dice in senso lato

Alcuni indici tipici

• moda• percentili xp di ordine p (0≤ p≤ 1)• mediana• medie potenziate

– aritmetica

– armonica

– geometrica

– quadratica...

(la moda è definibile anche per caratteri qualitativi sconnessi) 5.8

3 La moda

Definizione 1 (Moda per caratteri qualitativi e caratteri quantitativi con valori non rag-gruppati in classi).

Moda(X) = x j : n j = maxni= x j : f j = max fi

(modalità/valore di massima frequenza)

57

Page 59: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

xi ni2 24 57 38 2

12

0 2 4 6 8 100

5xi

ni oppure fi

Moda(X)=4

5.9

Definizione 2 (Moda per caratteri quantitativi con valori raggruppati in classi).

Moda(X) =

x j :

n j

a j= max

ni

ai

=

x j :

f j

a j= max

fi

ai

(valore centrale classe di max densità di frequenza)

xi ni di2 a 4 6 34 a 5 4 45 a 7 10 57 a 8 8 88 a 9 2 2

30

0 2 4 6 8 10

010

n ia i

o

ppur

e

f ia i

ni ai oppure fi ai

Moda(X)=7.5

5.10

(se Moda(X) esiste, cioè unimodale . . . )

Esempio 3. Si consideri la distribuzione degli spettacoli organizzati dalle associazioniculturali di una regione

tipo spettacolo n. eventiteatrale 82concerto musica classica 125concerto rock 160concerto big band 158totale 525

La distribuzione è quasi bimodale!

La nozione di media espressa dalla moda può avere, a volte, un carattere molto incerto. 5.11

OsservazioneCadendo la monotonicità la moda è media solo in senso lato.

58

Page 60: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 4. Distribuzione delle auto di servizio di 15 aziendeX : osservazioni al tempo t,Y : osservazioni al tempo t +1

xi ni1 52 73 24 1

15

yi ni1 52 43 24 4

15(3 aziende con due auto hanno raddoppiato il parco macchine)

tempo t: 1 1 1 1 1 2 2 2 2 2 2 2 3 3 4tempo t +1: 1 1 1 1 1 2 2 2 2 3 3 4 4 4 4

= = = = = = = = = > > > > > =

Moda(X) = 2 Moda(Y ) = 1

anche se y( j) ≥ x( j) ( j = 1, . . . ,15) abbiamo Moda(Y )< Moda(X)!! 5.12

Esempio 5 (Carattere qualitativo sconnesso). Si considerano le distribuzioni percentualidel colore dei capelli di alcune scolaresche

colore S1 S2 S3nero 0.10 0.30 0.70castano 0.25 0.30 0.20biondo 0.60 0.30 0.05altro 0.05 0.10 0.05

1 1 1

La moda è una delle modalità !!!Ha senso solo la moda (modalità comune al maggior numero di unità statistiche)Non è possibile calcolare mediana o media !

OsservazioneS2 è plurimodale

5.13

Esercizio 6. Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minu-ti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica(’visitatori esperti’ e ’visitatori occasionali’):

’visitatori esperti’hi−1 a hi fi5 a 10 0.40

10 a 20 0.4020 a 25 0.20

1.00

’visitatori occasionali’hi−1 a hi fi5 a 10 0.76

10 a 20 0.0820 a 25 0.16

1.00

1. Si rappresentino graficamente le funzioni di ripartizione.2. In base ai grafici precedenti si individui la moda delle due distribuzioni.

5.14

59

Page 61: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 I percentili

• Cosa sono e come usarli (definizione preliminare)Si pensi ad esempio al problema della determinazione dei valori di reddito che definisconogli scaglioni di imposizione fiscale.Un criterio è quello di considerare le quote di unità statistiche che risultano collocate inciascuna classe di reddito.

• Limiti della definizione preliminare• Definizione formale ed esempi applicativi• Procedura grafica semplificata• Metodi di calcolo presenti nei software applicativi• Esempi di calcolo della mediana

5.15

Cosa sono e come usarli (definizione preliminare)

Si consideri una serie di n valori distinti riferiti a una variabile misurata su scala almenoordinale

(ad esempio l’altezza in cm di n = 150 individui)

codi

ce in

divi

duo

altezzakpu

gyn

ueb

qsy

xhq

koy

gvm

qrh

tka

heo

scl

rqv

iwm

tjy

zik

agt

5.16

60

Page 62: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si cerca il valore xp che divide la distribuzione dei dati ordinati in due parti:

num

ero

d'or

dine

indi

vidu

i per

alte

zza

(1,2

,...,n

)

altezza5.17

61

Page 63: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

altezza

p1

−p

xp

F(x)

altezza

p

xp

• una quota p dei soggetti ha valore inferiore o uguale a xp• una quota 1− p dei soggetti ha valore superiore o uguale a xp

5.18

Alcuni percentili notevoli

• x0.25 = Q1 = 1 quartile• x0.50 = Q2 = 2 quartile = mediana• x0.75 = Q3 = 3 quartile

5.19

Esempio 7. Se il percentile di ordine 0.30 della distribuzione delle altezze dei soggetti diuna collettività è pari a x0.30 = 130 cm, ciò significa che:

• il 30% dei soggetti ha un’altezza minore o uguale a 130 cm• il 70% dei soggetti un un’altezza non inferiore a 130 cm.

Limiti della definizione preliminare

OsservazioneIl percentile è individuabile, in maniera univoca, solo in situazioni particolari(ad esempio, n 100 e variabile statistica continua che si manifesta con un elevatonumero di valori distinti).

5.20

62

Page 64: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 8. Si vuole determinare x0.5, percentile di ordine 0.5 dell’altezza delle seguentin = 12 unità statistiche

xxxxxxxxxxxxUna volta ordinate dalla più piccola alla più grande

xxxxxxxxxxxxsi assegni la posizione (rango) all’interno dei dati ordinati

x

(1)x(2)

x(3)

x(4)x(5)x(6)x(7)x(8)x(9)x(10)x(11)x(12)

Nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti.5.21

x

(1)x(2)

x(3)

x(4)x(5)x(6)x(7)x(8)x(9)x(10)x(11)x(12)

Ogni valore strettamente compreso tra l’altezza x(6) della sesta unità statistica e x(7),altezza della settima unità statistica, divide la distribuzione esattamente in 2 parti:

• la quota di soggetti con altezza non superiore a quel valore è esattamente pari al50% (6/12).

• la quota di soggetti con altezza non inferiore a quel valore è esattamente pari al50% (6/12).

5.22

Esempio 9. Si vuole determinare x0.5, percentile di ordine 0.5, per le seguenti n = 12unità statistiche

xxxxxxxxxxxxle si ordina e si assegna la posizione all’interno dei dati ordinati

x(1)

x(2)

x(3)x(4)x(5)x(6)x(7)x(8)x(9)x(10)x(11)x(12)

Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzioneesattamente in 2 parti

5.23

x(1)

x(2)

x(3)x(4)x(5)x(6)x(7)x(8)x(9)x(10)x(11)x(12)

Le altezze della sesta e settima (e ottava) unità statistica coincidono, diciamo sono ugualia c:

• la quota di soggetti con altezza non superiore a c è superiore al 50% (8/12).• la quota di soggetti con altezza non inferiore a c è superiore al 50% (7/12).

5.24

Esempio 10. Si vuole determinare x0.5, percentile di ordine 0.5, per le seguenti n = 5unità statistiche

xxxxxx

63

Page 65: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

le si ordina e si assegna la posizione all’interno dei dati ordinati

x(1)x(2)x(3)x(4)x(5)

Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzioneesattamente in 2 parti

5.25

x(1)x(2)x(3)x(4)x(5)

Si consideri l’altezza della terza unità statistica x(3):• la quota di soggetti con altezza non superiore a x(3) è superiore al 50% (3/5).• la quota di soggetti con altezza non inferiore a x(3) è superiore al 50% (3/5).

Occorre, quindi, una definizione più generale di percentile. 5.26

Definizione formale ed esempi applicativi

xp è un valore x:• non superato da almeno una frazione p delle unità statistichee contemporaneamente• superato da almeno una frazione 1− p delle unità statistiche

x

(1)x(2)

x(3)

x(4)x(5)x(6)x(7)x(8)x(9)x(10)x(11)x(12)

x(1)

x(2)

x(3)x(4)x(5)x(6)x(7)x(8)x(9)x(10)x(11)x(12)

Definizione 11 (Percentile - definizione formale).

xp =

x :

[∑

xi≤xfi ≥ p

]∩

[∑

xi≥xfi ≥ (1− p)

]xp = x : [F(x)≥ p]∩ [1−F(x)+ f req(x)≥ (1− p)]

dove con f req(x) si è indicata la frequenza relativa corrispondente al valore x.5.27

In particolare assumiamo che:• se p = 0→ x0 = xmin = x(1)• se p = 1→ x1 = xmax = x(n) 5.28

Per determinare il percentile possiamo contemporaneamente fare riferimento:• alla funzione di ripartizione F(x) → quota di unità statistiche con modalità

minore o uguale a x:→x : F(x)≥ p

• alla funzione di ripartizione retrocumulata R(x) → quota di unità statistichecon modalità maggiore o uguale a x:

→x : R(x)≥ (1− p)

Definizione 12 (Funzione di ripartizione retrocumulata R(x)). Si definisce funzione diripartizione retrocumulata, detta anche funzione di sopravvivenza, la funzione che a ognix fa corrispondere la quota di unità statistiche con modalità non inferiore a x.

5.29

64

Page 66: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Relazione tra F(x) e R(x)

Seriazioni statisticheSe il carattere è quantitativo continuo (classi)

R(x) = 1−F(x).

F(x) e R(x) danno la ’stessa’ informazione con riferimento alla determinazione del per-centile:

xp = F−1(p) = R−1(1− p).

Mutabili/serie statisticheIn presenza di un carattere qualitativo ordinato e di un carattere quantitativo non rilevatocon classi vale:

Ri = 1−Fi + fi.5.30

Calcolo Fi e Ri

xi ni fi Fi Ri2 4 0.204 6 0.305 4 0.207 1 0.058 5 0.25

20 15.31

5.32

5.33

5.34

5.35

5.36

5.37

5.38

5.39

5.40

5.41

Per trovare xp dobbiamo cercare l’insieme dei valori che soddisfa le due condizioniF(x)≥ pR(x)≥ 1− p

5.42

xi ni fi Fi Ri2 4 0.20 0.20 1.004 6 0.30 0.50 0.805 4 0.20 0.70 0.507 1 0.05 0.75 0.308 5 0.25 1.00 0.25

20 1• p = 0.25

x0.25 = 4

F(4) = 0.5≥ 0.25 e R(4) = 0.8≥ 0.755.43

• p = 0.50x0.5 = 4 ma anche x0.5 = 5

F(4) = 0.5≥ 0.5 e R(4) = 0.8≥ 0.5F(5) = 0.7≥ 0.5 e R(5) = 0.5≥ 0.5

4≤ x0.5 ≤ 5

Si può utilizzare il valore centrale

x0.5 =4+5

2= 4.5 =

x(10)+ x(11)

2.

65

Page 67: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5.44

• p = 0.75x0.75 = 7 ma anche x0.75 = 8

F(7) = 0.75≥ 0.75 e R(7) = 0.3≥ 0.25F(8) = 1≥ 0.75 e R(8) = 0.25≥ 0.25

7≤ x0.75 ≤ 8

Si può utilizzare il valore centrale

x0.75 =7+8

2= 7.5.

5.45

66

Page 68: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Procedura grafica semplificata

Per determinare xp possiamo però anche fare riferimento alla sola funzione di ripartizione.Se il carattere è qualitativo ordinato oppure siamo in presenza un carattere quantitativocon valori non raggruppati in classi abbiamo

xi ni Ni Fi2 4 4 0.204 6 10 0.505 4 14 0.707 1 15 0.758 5 20 1.00

20

0.0

0.2

0.4

0.6

0.8

1.0

0 2 4 5 7 8 10

0.25

0.5

0.75

x0.25

• p = 0.25 x0.25 = F−1(0.25) = 4

x0.5 = F−1(0.5) =?? x0.75 = F−1(0.75) =??

5.46

• p = 0.5x(10) = 4≤ x0.5 < 5 = x(11)

si ricorda che x(10) = 4 e x(11) = 5 soddisfano la definizione formale di mediana.Si può utilizzare il valore centrale

x0.5 =4+5

2= 4.5.

5.47

• p = 0.75x(15) = 7≤ x0.75 < 8 = x(16)

si ricorda che x(15) = 7 e x(16) = 8 soddisfano la definizione formale di terzo quar-tile.Si può utilizzare il valore centrale

x0.75 =7+8

2= 7.5.

67

Page 69: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5.48In presenza di classi, se ni 1, abbiamo

xi ni fi Fi2 a 4 200 0.2 0.24 a 5 100 0.1 0.35 a 7 300 0.3 0.67 a 8 300 0.3 0.98 a 9 100 0.1 1

1000 1F

(x)

2 4 5 7 8 9

0.0

0.2

0.3

0.6

0.9

1.0

p

xp

x0.25 = 4.5

5.49

xi fi Fi2 a 4 0.2 0.24 a 5 0.1 0.35 a 7 0.3 0.67 a 8 0.3 0.98 a 9 0.1 1

1

F(x

)

2 4 5 7 8 9

0.0

0.2

0.3

0.6

0.9

1.0

x0.3

x0.3 = 5

x0.5 =??

5.50

68

Page 70: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Per determinare il valore della mediana, percentile di ordine 0.5, identifichiamo in primoluogo la classe di appartenenza, 5 a 7 (corrispondente alla prima Fi ≥ 0.5)

xi fi Fi2 a 4 0.2 0.24 a 5 0.1 0.35 a 7 0.3 0.67 a 8 0.3 0.98 a 9 0.1 1

1

x

F(x

)

2 4 5 7 8 9

0.0

0.2

0.3

0.6

0.9

1.0

0.5

x0.5

Osserviamo come il punto 0.5 sull’asse delle ordinate sia a 2/3 del segmento che unisce ipunti 0.3 e 0.6; quindi anche x0.5 sull’asse delle ascisse sarà in posizione 2/3 sul segmentoche unisce i punti 5 e 7, vale a dire x0.5 = 5+ 2

3 ·2 = 6.3333. 5.51

Segue la formula teorica:

xp = hi−1 +p−Fi−1

Fi−Fi−1ai = hi−1 +

p−Fi−1

fiai

dove:

• hi−1: estremo inferiore della classe (i) di appartenenza del percentile di ordine p,• ai: ampiezza della classe i,• Fi−1 e Fi: valori della funzione di ripartizione in hi−1 e hi,• fi = Fi−1−Fi: frequenza relativa della classe i.

5.52

69

Page 71: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Metodi di calcolo presenti nei software applicativi

Come si è visto, in molte situazioni, la determinazione del percentile avviene in maniera’convenzionale’.Con riferimento alla serie statistica

xi ni fi Fi Ri2 4 0.20 0.20 1.004 6 0.30 0.50 0.805 4 0.20 0.70 0.507 1 0.05 0.75 0.308 5 0.25 1.00 0.25

20 1

per la mediana, x0.5, e per il terzo quartile, x0.75, si sono scelti 4.5 e 7.5, valori intermeditra 4 e 5 e tra 7 e 8.Si osserva come qualsiasi altro valore negli intervalli [4,5] e [7,8] avrebbe potuto essereutilizzato per x0.5 e per x0.75. 5.53

Se il numero delle unità statistiche è ridotto, i valori che soddisfano la definizione formaledi percentile potrebbero anche essere molto dissimili tra loro.

Esistono in letteratura diverse formule per il calcolo dei percentili, si veda Hyndman,R. J., Fan, Y. (1996) Sample quantiles in statistical packages, American Statistician, 50,361-365.

Si riporta una delle definizioni, comunemente utilizzata nei pacchetti statistici di usocorrente. 5.54

Definizione 13 (Calcolo ’preciso’ xp).

xp = (1− γ) · x( j)+ γ · x( j+1)

dove x( j) è l’elemento che occupa la posizione j all’interno dei dati ordinati con

j = [np+(1− p)]

[·] parte intera dell’argomento, e

γ = np+(1− p)− j.5.55

Esempio 14. Per calcolare il percentile di ordine 0.95 in corrispondenza dei redditi din = 315 soggetti, si determinano innanzitutto la posizione ( j) e ( j+1) dei due soggetti icui valori x( j) e x( j+1) soddisfano la definizione formale di percentile di ordine p:

j = [np+(1− p)] = [315 ·0.95+0.05] = [299.3] = 299

La funzione [·] considera solo la parte intera (scartando le cifre decimali) dell’argomento.Il valore del percentile risulta una combinazione lineare dei valori x(299) e x(300) con pesi(1− γ) = 0.7 e γ = 0.3.Si osserva come γ = 0.3 coincida con la parte decimale scartata per ottenere il risultatonella formula precedente.In presenza di x(299) = 60350 e x(300) = 61280 si ottiene x0.95 = 60629.

5.56In particolare, se p = 0.5, si ottiene

j = n

2 se n è parin+1

2 se n è disparie

γ =

12 se n è pari0 se n è dispari

5.57

70

Page 72: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempi di calcolo della mediana

Segue la definizione di mediana, che distingue le situazioni di numerosità pari e dispari:

Definizione 15 (Mediana).

x0.5 =

12

(x( n

2 )+ x( n

2+1)

)se n è pari

x( n+12 ) se n è dispari

Con riferimento all’esempio di n = 20 unità statistiche, la mediana risulta la semisommadegli elementi di posizione 10 e 11 nella serie dei dati ordinati

x(10)+ x(11)

2=

4+52

= 4.5.

Nel caso il carattere sia qualitativo ordinato o quantitativo non rilevato in classi, per lamediana si ottiene lo stesso risultato che si avrebbe con il metodo grafico della funzionedi ripartizione. 5.58

In presenza di una seriazione statistica, se ni non è elevato, abbiamo: (per n pari)

xi ni Ni2 a 4 6 64 a 5 3 95 a 7 9 187 a 8 9 278 a 9 3 30

30

x

N(x

)

2 4 5 7 8 9

1516

0

6

9

18

27

30

xn 2 xn 2+1

x0.5 =x( n

2 )+ x( n

2+1)

2=

12

(5+

69·2)+

(5+

79·2)

= 6.4444

x( n2 )

= hi−1 +n2 −Ni−1

Ni−Ni−1ai x( n

2+1) = hi−1 +

( n2 +1

)−Ni−1

Ni−Ni−1ai

5.59

OsservazioneSe x( n

2 )e x( n

2+1) appartengono alla stessa classe si ottiene

x0.5 = hi−1 +

( n+12

)−Ni−1

Ni−Ni−1ai

Anche in presenza di una seriazione statistica con n dispari abbiamo la stessa formula

x0.5 = x( n+12 ) = hi−1 +

( n+12

)−Ni−1

Ni−Ni−1ai

5.60

71

Page 73: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Riepilogo

xp =

x :

[∑

xi≤xfi ≥ p

]∩

[∑

xi≥xfi ≥ (1− p)

]• È possibile calcolare i percentili solo in presenza di dati ordinati.• Se i dati non sono raccolti in classi si può utilizzare la funzione di ripartizione F(x)

nel modo seguente:

– xp corrisponde al primo valore xi per cui Fi ≥ p

– nel caso in cui risulti Fi = p allora, in genere(∗), xp =xi+xi+1

2

xi ni Ni Fi2 4 4 0.204 6 10 0.505 4 14 0.707 1 15 0.758 5 20 1.00

20

0.0

0.2

0.4

0.6

0.8

1.0

0 2 4 5 7 8 10

0.25

0.5

0.75

x0.25

x0.25 = 4 x0.50 = 4.5 x0.75 = 7.5(∗) Se Fi = p e ni+1 = 0, si dovrà porre xp =

xi+xi+22 5.61

• In presenza di seriazioni statistiche (dati raccolti in classi) il percentile viene deter-minato mediante lettura inversa della funzione di ripartizione

F(x

)

2 4 5 7 8 9

0.0

0.2

0.3

0.6

0.9

1.0

p

xp

• È possibile anche un un calcolo più preciso, attraverso i valori di N(x).

x

N(x

)

2 4 5 7 8 9

1516

0

6

9

18

27

30

xn 2 xn 2+1

72

Page 74: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5.62

Esercizio 16. Si fornisca una rappresentazione grafica e si riassumano opportunamentegli esiti riportati nel seguente prospetto

vi niscarso 18

sufficiente 14discreto 12buono 6

5.63

73

Page 75: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 Box & Whiskers plot

Si considerino le seguenti osservazioni di un carattere quantitativo

20,11,11,10,15,14,30,8,12,12,7

Gli n = 11 valori sono dei punti sulla retta reale

127 1110 1514 3020118 12

Nel grafico si sono evidenziati i valori 11 e 12 con dei punti più grandi in quanto figurano2 volte. 5.64

Si procede al calcolo dei percentili di ordine 0.25, 0.5 e 0.75, primo quartile, mediana eterzo quartile della distribuzione.

xi ni Ni Fi7 1 1 0.098 1 2 0.18

10 1 3 0.2711 2 5 0.4512 2 7 0.6414 1 8 0.7315 1 9 0.8220 1 10 0.9130 1 11 1.00

11

0.0

0.2

0.4

0.6

0.8

1.0

0 7 10 12 14 20 30

0.25

0.5

0.75

x0.25 x0.5 x0.75

Otteniamo:x0.25 = 10, x0.5 = 12, x0.75 = 15

5.65

Riportiamo, con tre segmenti, sul grafico in cui figurano le osservazioni i tre quartili.

127 1110 1514 3020118 12

Possiamo ora rappresentare ’in un altro modo’ i punti che figurano tra il primo e il terzoquartile.

74

Page 76: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sappiamo che:

• tra x0.25 e x0.5 figura una quota di osservazioni approssimativamente pari al 25%;• tra x0.5 e x0.75 figura una quota di osservazioni approssimativamente pari al 25%;• tra x0.25 e x0.75 figura una quota di osservazioni approssimativamente pari al 50%.

7 10 15 30208 12

Nel grafico precedente abbiamo unito i 3 quartili costruendo una scatola (Box), che con-tiene i valori centrali della distribuzione 5.66

I valori molto distanti dalla scatola sono qualificabili come valori anomali.Si definiscono, generalmente, anomali quei valori che hanno una distanza dalla scatolasuperiore a 1.5 · (x0.75− x0.25)Identifichiamo, allora, sul grafico due limiti (Whiskers) al di fuori dei quali figurano glianomali:

• baffo inferiore = maxxmin,x0.25−1.5(x0.75− x0.25)• baffo superiore = minxmax,x0.75 +1.5(x0.75− x0.25)

7 30208

5.67

Concludiamo la costruzione del grafico lasciando solo il Box & Whiskers Plot e glieventuali dati anomali.

7 10 12 15 22.5 30

In alcuni software applicativi la costruzione del grafico pone i baffi in corrispondenza didati esistenti: nel caso in esame il baffo superiore viene posto a 20, ottenendo così unarappresentazione sintetica dei dati effettivamente osservati.

7 10 12 15 20 30

Il Box & Whiskers plot può essere ottenuto mediante il software statistico R con leseguenti istruzioni:

• x <- c(12,7,11,10,15,14,30,20,11,8,12)per assegnare i dati all’oggetto x

• boxplot(x)per produrre il grafico

5.68

75

Page 77: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Riepilogo Box & Whiskers plot 1

Quantitativo no classi

xi ni Ni Fi7 1 1 0.098 1 2 0.1810 1 3 0.2711 2 5 0.4512 2 7 0.6414 1 8 0.7315 1 9 0.8220 1 10 0.9130 1 11 1.00

11

0.0

0.2

0.4

0.6

0.8

1.0

0 7 10 12 14 20 30

0.25

0.5

0.75

x0.25 x0.5 x0.75

7 10 12 15 22.5 30

Quantitativo con classi

hi−1 a hi ni Ni Fi10 a 22 60 60 0.3022 a 31 90 150 0.7531 a 51 50 200 1.00

200

0 10 20 30 40 50

0.0

0.2

0.4

0.6

0.8

1.0

0.25

0.5

0.75

x0.25 x0.5 x0.75

10 20 26 31 47.5 51

76

Page 78: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5.69

5.70

Riepilogo Box & Whiskers plot 2

30

3132

3334

35

50%

25%

25%

outliers

x0.25

x0.5

x0.75

75%

75%

5.71

Il Box & Whiskers plot è, quindi, una rappresentazione grafica costituita da:

• box (scatola)

– x0.25 = Q1

– x0.50 = Q2

– x0.75 = Q3

• whiskers (baffi)

– baffo inferiore = maxxmin,Q1−1.5(Q3−Q1)– baffo superiore = minxmax,Q3+1.5(Q3−Q1)

x0.75− x0.25 = Q3−Q1 è chiamata differenza interquartile. 5.72

Può essere utilizzato:

• per avere una idea sintetica della distribuzione• per effettuare dei confronti• per l’individuazione di dati anomali (oltre i baffi)

5.73

77

Page 79: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 17 (Altezza della navata e lunghezza totale delle cattedrali inglesi). Faraway JJ2002 Practical Regression and Anova using R, July 2002,(http://stat.ethz.ch/CRAN/doc/contrib/Faraway-PRA.pdf)

• x altezza della navata (m) y lunghezza totale (m)

Alcune cattedrali sono in stile romanico, altre in stile gotico.I dati relativi alle cattedrali con entrambi gli stili sono stati duplicati.Si confrontano i due stili mediante grafici Box & Whiskers plot.

style x yDurham r 22.86 153.01

Canterbury r 24.38 159.11Gloucester r 20.73 129.54

Hereford r 19.51 104.85Norwich r 25.30 124.05

Peterborough r 24.38 137.46St.Albans r 21.34 167.94

Winchester r 23.16 161.54Ely r 22.56 166.73

York g 30.48 158.19Bath g 22.86 68.58

Bristol g 15.85 91.44Chichester g 18.90 127.41

Exeter g 20.73 124.66GloucesterG g 26.21 129.54

Lichfield g 17.37 112.78Lincoln g 24.99 154.23

NorwichG g 21.95 124.05Ripon g 26.82 89.92

Southwark g 16.76 83.21Wells g 20.42 126.49

St.Asaph g 13.72 55.47WinchesterG g 31.39 161.54

Old.St.Paul g 31.39 186.23Salisbury g 25.60 144.17

5.74

g r

1520

2530

Distribuzione 'altezza della navata'

g r

6080

120

160

Distribuzione 'lunghezza totale'

5.75

78

Page 80: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 18. Si confrontino mediante grafici Box & Whiskers plot le seguenti serie diosservazioni

Serie X : 12,7,11,10,15,14,30,20,11,8,12

Serie Y : 7,17,10,9,9,11,8,6,12,7,10,7,13,9,85.76

Esercizio 19. Si costruisca il Box & Whiskers plot per la seguente serie statistica

xi ni18 423 4026 3629 7032 50

2005.77

Esercizio 20. Si costruisca il Box & Whiskers plot per la seguente seriazione statisticabasandosi sulla funzione di ripartizione

hi−1 a hi fi15 a 25 0.2225 a 29 0.1829 a 31 0.3531 a 35 0.25

15.78

79

Page 81: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 21. Quale tra i due istogrammi corrisponde al Box & Whiskers plot?

1020

3040

50

0 10 20 30 40 500.00

0.01

0.02

0.03

0.04

0.05

0 10 20 30 40 500.00

0.01

0.02

0.03

0.04

0.05

5.79

Esercizio 22. Quale tra i due istogrammi corrisponde al Box & Whiskers plot?

1020

3040

50

0 10 20 30 40 500.00

0.01

0.02

0.03

0.04

0.05

0 10 20 30 40 500.00

0.01

0.02

0.03

0.04

0.05

5.80

80

Page 82: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 Le medie potenziate

Definizione 23. Data una variabile statistica X con modalità xi > 0 (eventualmente valoricentrali) si definisce media potenziata di ordine r

µ(r) =

(1n

k

∑i=1

xri ni

) 1r

=

=

(k

∑i=1

xrini

n

) 1r

=

(k

∑i=1

xri fi

) 1r

con fi =nin ed r =±1,±2,±3, . . ..

Nel caso di frequenze unitarie (o valori singoli v j, j = 1, . . . ,n)

µ(r) =

(1n

n

∑j=1

vrj

) 1r

5.81

6.1 La media aritmetica (r = 1)

Definizione 24.

µ(1) = µ = M(X) =

1n

k

∑i=1

xini =k

∑i=1

xi fi.

OsservazioneÈ inessenziale la positività delle xi.

Esempio 25. M(X) è il valore centrale di una successione aritmetica con un numerodispari di termini, ad esempio

1,2,3,4,5

si osservi che in questo caso ciascuna modalità figura una sola volta, ovvero k = n = 5 en1 = n2 = . . .= nk = 1, quindi:

µ = M(X) =1n

k

∑i=1

xini =15(1+2+3+4+5) = 3.

5.82

81

Page 83: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 26. Avendo riclassificato i dati 2,2.5,1,2.5,2,10,2.5,2,2,1 nella serie statistica

xi ni1 22 4

2.5 310 1

10

(1)

si può procedere al calcolo della media aritmetica

xi ni xini1 2 22 4 8

2.5 3 7.510 1 10

10 27.5

µ = M(X) =1n

k

∑i=1

xini =1

1027.5 = 2.75.

5.83

OsservazioneNel caso di una seriazione statistica i valori xi sono i valori centrali delle classi

hi−1 a hi ni0.25 a 1.75 21.75 a 2.25 42.25 a 2.75 3

2.75 a 17.25 110

xi ni1 22 4

2.5 310 1

10

M(X) = 2.75

5.84

Esercizio 27. Si supponga che il valore di ciascuna unità statistica aumenti di 1 unità;si ricalcoli il valore della media aritmetica; si ripeta l’esercizio nel caso in cui i valoriraddoppino.

5.85

OsservazioneLa media potenziata di ordine r può essere riscritta nel seguente modo

µ(r) =

[1n

k

∑i=1

xri ni

] 1r

= [M (X r)]1r

Radice r-esima della media aritmetica dei valori di X elevati a r. 5.86

6.2 La media armonica (r =−1)

Definizione 28.µ(−1) =

[M(X−1)]−1

=1

M( 1

X

) = 11n ∑

ki=1

1xi

ni

OsservazioniLa presenza di valori xi = 0 toglie significato all’espressione;Inoltre, valori xi positivi e negativi potrebbero rendere il denominatore nullo.

5.87

82

Page 84: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 29. µ(−1) è il valore centrale di una successione armonica con un numero disparidi termini, ad esempio

1,12,

13,

14,

15

anche in questo caso siamo in presenza di valori singoli e, quindi, ciascuna modalità figurauna sola volta: k = n = 5 e n1 = n2 = . . .= nk = 1

µ(−1) =

11n ∑

ki=1

1xi

ni=

115 (1+2+3+4+5)

=13

5.88

Esempio 30. Avendo riclassificato i dati 2,2.5,1,2.5,2,10,2.5,2,2,1 in serie statistica èpossibile procedere al calcolo della media armonica

xi ninixi

1 2 22 4 2

2.5 3 1.210 1 0.1

10 5.3

µ(−1) =

11n ∑

ki=1

1xi

ni=

1110 5.3

=1

0.53= 1.8868

5.89

6.3 La media quadratica (r = 2)

Definizione 31.

µ(2) =

[M(X2)] 1

2 =√

M (X2) =

√√√√1n

k

∑i=1

x2i ni

OsservazioneLa positività delle xi è inessenziale.

5.90

Esempio 32. Con riferimento alla precedente serie statistica abbiamo

xi ni x2i ni

1 2 22 4 16

2.5 3 18.7510 1 100

10 136.75

µ(2) =

√√√√1n

k

∑i=1

x2i ni =

√110

136.75 = 3.698

OsservazioneVale l’ordinamento:

xmin < µ(−1) = 1.8868 < µ

(1) = 2.75 < µ(2) = 3.698 < xmax

5.91

83

Page 85: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6.4 Il Teorema fondamentale sulle medie potenziate

Teorema 33. La funzione

µ(r) =

(k

∑i=1

xri fi

) 1r

(r =±1,±2, . . .)

con xi positivi (ordinati) e distinti

1. è monotona in senso stretto2. asintoti

limr→−∞

µ(r) = x1 lim

r→+∞µ(r) = xk

3. ogni µ(r) è una media in senso stretto4. media geometrica (r = 0)

limr→0

µ(r) = n

√k

∏i=1

xnii =

(k

∏i=1

xnii

) 1n

=k

∏i=1

x fii = µ

(0).

5.92

Esempio 34. Si riporta l’andamento della funzione µ(r) con riferimento alla seguenteserie statistica

xi ni1 72 33 34 7

20

−20 −10 0 10 20

01

23

45

r

µ(r)

xmax

xmin

µ(−1)

µ(0)

µ(1)

µ(2)

5.93

84

Page 86: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Definizione 35. Si definisce variabile statistica degenere una variabile statistica caratte-rizzata da valori tutti eguali fra loro: xi = c, ∀i (una sola modalità).Per tale variabile statistica, in base alla proprietà di Cauchy,

µ(r) = c

per qualsiasi valore dell’ordine r.

OsservazionePer r = 0 la media non è definita (forma indeterminata 1∞);µ(0) è ottenuta con un’operazione di limite

µ(0) = lim

r→0µ(r)

5.94

6.5 La media geometrica (r = 0)

Definizione 36.

µ(0) =

k

∏i=1

x fii = µ

(0)

OsservazioneLa presenza di valori xi negativi potrebbe togliere significato all’espressione.

5.95

Esempio 37. Con riferimento alla precedente serie statistica abbiamo

xi ni fi x fii

1 2 0.2 12 4 0.4 1.3195

2.5 3 0.3 1.316410 1 0.1 1.2589

10 1 prodotto

µ(0) =

k

∏i=1

x fii = 2.1867

5.96

Esempio 38. Si calcolano media armonica, geometrica, aritmetica e quadratica dellaseguente variabile statistica

classi xi ni7.5 a 9.5 8.5 40

9.5 a 11.5 10.5 2511.5 a 15.5 13.5 12015.5 a 21.5 18.5 145

330

13.8577 14.3826 14.8636 15.2894

media media media media

armonica geometrica aritmetica quadratica

µ(−1) µ(0) µ(1) µ(2)

5.97

85

Page 87: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Riepilogo

Tipologia caratterequalitativo qualitativo quantitativo

Indice sconnesso ordinatomoda X X Xpercentili X Xmedia aritmetica Xmedia geometrica Xmedia armonica Xmedia quadratica Xmedie potenziate Xminimo X Xmassimo X X

Si osserva il carattere generale di applicazione dei percentili: attraverso il grafico Box &Whiskers plot abbiamo un’efficace descrizione di caratteri di tipo quantitativo.Nel seguito:

• considereremo alcune proprietà della media aritmetica• descriveremo alcuni criteri che ci possono supportare nella scelta della media più

adeguata per riassumere un carattere quantitativo.5.98

7 Esercizi

Esercizio 39. Con riferimento alla variabile statistica

xi ni1 22 4−θ

3 24 θ

5 210

1. indicare quali valori può assumere il parametro θ

2. si calcolino poi al variare di θ i valori della media armonica, geometrica, aritmeticae quadratica, della moda e della mediana

3. si commentino i risultati ottenuti con riferimento al Teorema sulle medie potenziate.5.99

Esercizio 40. Si riportano i redditi di 5 soggetti (valori in migliaia di e)

soggetto 1 2 3 4 5reddito 15 22 25 28 35

1. Si calcoli la media aritmetica dei redditi.2. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito raddoppi.3. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito aumenti di

5000e.5.100

86

Page 88: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 41 (T 221, 08.09.2005, 1). Nel prospetto seguente sono riportate, con riferi-mento ai redditi di n soggetti (variabile X), le classi di rilevazione e le rispettive densitàdi frequenza.

hi−1 a hi di10 a 15 415 a 20 420 a 39 3

1. Si ricostruiscano le distribuzioni delle frequenze assolute e cumulate della variabileX e si dia una opportuna rappresentazione grafica di X e della sua funzione diripartizione F(x).

2. Si calcoli la media e si identifichino su un grafico i quartili di X .5.101

Esercizio 42. Si dia una rappresentazione grafica e si calcoli il valore della media armo-nica della seriazione statistica

hi−1 a hi ni1 a 3 13 a 6 96 a 10 10

10 a 20 205.102

Esercizio 43 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nellaseguente tabella risulti µ(−∞) = 10 e µ(1) = 20

xi nix1 n130 30

5.103

Esercizio 44. Indicare se le seguenti medie potenziate

µ(0) = 6.3, µ = 4.3, µ

(2) = 4.3

sono compatibili con la seguente serie statistica(della quale sono note solo alcune informazioni)

xi ni2.5 204 22...

...16 10

5.104

Esercizio 45. Indicare se le seguenti medie potenziate

µ(−1) = 5, µ = 14, µ

(2) = 13

sono compatibili con la seguente serie statistica(della quale sono note solo alcune informazioni)

xi ni11 212 214 2...

...

87

Page 89: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5.105

Esercizio 46 (T 165, 30.09.1998, 3). Sia X una variabile statistica simmetrica rispetto alvalore 85:

xi ni10 10x2 n2

2x2−10 n3x4 10

1. Supponendo n = 100, si ricavi la distribuzione delle frequenze cumulate e se ne diarappresentazione grafica.

5.106

Esercizio 47 (P 001, 10.03.1995, 2). Dire, motivando la risposta, se µ(39), ovvero lamedia potenziata di ordine 39, può assumere il valore 39, con riferimento alla seguentev.s. X

xi 4 12 20 28 36ni 39 39 39 39 39

Calcolare la media geometrica di X e indicare l’intervallo di valori reali entro il quale puòpresentarsi la media armonica.

5.107

Esercizio 48. Dimostrare che con riferimento alla media geometrica di una variabilestatistica X vale:

µ(0) =

k

∏i=1

x fii = eM[ln(X)].

5.108

8 La media aritmetica è sempre media in senso stretto

La definizione di media aritmetica si estende anche a v.s. generiche (xi sia positivi chenegativi) mantenendo le proprietà di media in senso stretto

1. (Cauchy)Posto

x(1) = mini

xi = x1

x(n) = maxi

xi = xk

abbiamox1 ≤ xi ≤ xk

moltiplicando tutti i termini della diseguaglianza per la costante non negativa fi ilverso della diseguaglianza non cambia

x1 fi ≤ xi fi ≤ xk fi

la diseguaglianza vale per tutti i valori di X , possiamo quindi sommare rispettoall’indice i e il verso della diseguaglianza non cambia

k

∑i=1

x1 fi ≤k

∑i=1

xi fi ≤k

∑i=1

xk fi

88

Page 90: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

x1 e xk sono delle costanti, non dipendono dall’indice i e possono essere portatefuori dalle sommatorie

x1

k

∑i=1

fi ≤k

∑i=1

xi fi ≤ xk

k

∑i=1

fi

la somma delle frequenze relative fi vale 1, quindi

x1 ≤k

∑i=1

xi fi ≤ xk

vale a direx1 ≤ µ ≤ xk 5.109

2. (moltiplicatività)Si ricorda che

Y = cX ↔ yi = cxi

La media di Y risulta

M(Y ) =k

∑i=1

yi fi

sostituendo cxi a yi abbiamo

M(Y ) =k

∑i=1

cxi fi

c è una costante moltiplicativa che può essere portata fuori dalla sommatoria, quindi

M(Y ) = ck

∑i=1

xi fi = cM(X)

ricordando che ∑ki=1 xi fi = M(X).

3. (monotonicità)Si ricorda che

Y ≥ X ↔ yi ≥ xi, i.e. yi = xi +δi (δi ≥ 0)

La media di Y risulta

M(Y ) =k

∑i=1

yi fi

sostituendo xi +δi a yi abbiamo

M(Y ) =k

∑i=1

(xi +δi) fi

possiamo sviluppare il prodotto (xi +δi) fi

M(Y ) =k

∑i=1

(xi fi +δi fi)

e scomporre la sommatoria nella somma di due sommatorie

M(Y ) =k

∑i=1

xi fi +k

∑i=1

δi fi ≥k

∑i=1

xi fi

La diseguaglianza finale vale in quanto ∑ki=1 δi fi ≥ 0 in base alla proprietà di Cau-

chy applicata alla variabile statistica (δi,ni), i = 1,2, . . . ,k.5.110

89

Page 91: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

9 L’operatore media aritmetica

Definizione 49 (Operatore media aritmetica). Si definisce operatore media aritmetica,indicato con M(X), la funzione che assegna a ogni variabile statistica X la sua mediaaritmetica

µ =1n

k

∑i=1

xini =k

∑i=1

xi fi = M(X).

5.111Nella letteratura anglosassone l’operatore media aritmetica

M(X)

viene indicato conE(X)

(expected value). 5.112

10 Interpretazione fisica della media aritmetica

’centro di gravità’ o ’punto di equilibrio’ delle frequenze

x1 x2 x3 x4

µ

f1

f2

f3

f4

xi−µ = braccio fi = peso o forza

k

∑i=1

(xi−µ) fi =k

∑i=1

(xi fi−µ fi) =k

∑i=1

xi fi−k

∑i=1

µ fi = µ−µ

k

∑i=1

fi = µ−µ = 0

5.113

90

Page 92: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

11 Media aritmetica di una trasformazione lineare

Teorema 50. SeY = aX +b

con a,b ∈ℜ, e, quindi, yi = axi +b, allora

M(Y ) = aM(X)+b

Dimostrazione.

M(Y ) =k

∑i=1

yi fi =k

∑i=1

(axi +b) fi =k

∑i=1

(axi fi +b fi)

=k

∑i=1

axi fi +k

∑i=1

b fi = ak

∑i=1

xi fi +bk

∑i=1

fi

= aM(X)+b

5.114

OsservazioneIl teorema precedente afferma che l’operatore media aritmetica M(X) è un operatorelineare

M(aX +b) = aM(X)+b

OsservazioneIn particolare

•M(b) = M(costante) = b

dal momento che X = b è una variabile statistica degenere.•

M(aX) = aM(X)

in quanto la media aritmetica è media in senso stretto.5.115

Definizione 51 (variabile scarto da un centro).

Y = X− c

ProprietàM(Y ) = M(X− c) = M(X)−M(c) = M(X)− c

Definizione 52 (variabile scarto dalla media). Si ponga nella definizione precedente c= µ

Y = X−µX , µX = M(X)

ProprietàM(Y ) = M(X−µX ) = M(X)−M(X) = 0

5.116Segue che anche la somma degli scarti dalla media è nulla

k

∑i=1

(xi−µX )ni =k

∑i=1

(xini−µX ni) =

=k

∑i=1

xini−k

∑i=1

µX ni =

= nM(X)−µX

k

∑i=1

ni = nM(X)−nM(X) = 0

5.117

91

Page 93: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

12 I momenti

Definizione 53 (momenti di ordine s≥ 1 da un centro).

M [(X− c)s] =k

∑i=1

(xi− c)s fi

Definizione 54 (momenti di ordine s≥ 1 dalla media).

M [(X−µX )s] =

k

∑i=1

(xi−µX )s fi

Utilizzeremo, nel seguito:

• M[(X−µX )

2]

misura della variabilità di una distribuzione

• M[(X−µX )

3]

misura di asimmetria di una distribuzione

• M[(X−µX )

4]

misura di curtosi di una distribuzione5.118

Definizione 55 (momenti di ordine s≥ 1 dall’origine, c = 0).

M (X s) =k

∑i=1

xsi fi

Abbiamo, in particolare, già visto che

µ(r) = [M (X r)]1/r

5.119

92

Page 94: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 6Indici di posizione (2)

6.1

Indice

1 Il problema della scelta della media 93

2 Media obiettivo secondo Chisini 93

3 Alcuni esempi di applicazione del criterio di scelta della media secondo Chi-sini 94

4 Scelta della media per minimizzazione del danno 97

5 Proprietà associativa della media aritmetica 101

6 Esercizi 104

7 Proprietà mediana e media aritmetica 105 6.2

1 Il problema della scelta della media

Si ricorda che lo studio di un fenomeno comporta, in genere, le seguenti fasi preliminari:

1. individuazione del carattere indicatore (proxy)2. ricerca di opportuni indici sintetici

α(X) = α(x1, . . . ,xk;n1, . . . ,nk) = α(v1,v2, . . . ,vn)

• funzione dei dati• ma . . . quale forma funzionale ??

Criteri

• media obiettivo• minimizzazione danno

Chisini (1929)La ricerca della media ha lo scopo di semplificare una data questione, sostituendo a dueo più quantità date una quantità sola, atta a sintetizzarle senza variare la visione delfenomeno in esame. 6.3

93

Page 95: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Media obiettivo secondo Chisini

Definizione 1 (Media Obiettivo secondo Chisini). Si consideri una v.s. X sulla quale èdefinita una particolare funzione φ(·) dei dati che fornisce un valore globale λ

φ(X) = φ(x1, . . . ,xk;n1, . . . ,nk) = λ

la media α deve soddisfare anch’essa il vincolo globale

φ(α) = φ(α, . . . ,α;n1, . . . ,nk) = λ

la media obiettivo o secondo Chisini è la soluzione dell’equazione

φ(x1, . . . ,xk;n1, . . . ,nk) = φ(α, . . . ,α;n1, . . . ,nk)

(non è garantito che α = α(X) sia una media in senso stretto)6.4

3 Alcuni esempi di applicazione del criterio di sceltadella media secondo Chisini

Esempio 2. La quantità totale di 26 gettoni è stata ripartita tra 10 soggetti nel modoseguente:

7 soggetti possiedono 2 gettoni2 soggetti possiedono 3 gettoni1 soggetto possiede 6 gettoni

Problema Determinare la quantità media da assegnare a ciascun soggetto in modo darealizzare una ripartizione egalitaria del totale

xi ni xini2 7 143 2 66 1 6

10 266.5

Soluzione Si può considerare come valore globale il totale assegnato λ = T ; quindi

φ(x1, . . . ,xk;n1, . . . ,nk) = ∑ki=1 xini = T

φ(α, . . . ,α;n1, . . . ,nk) = ∑ki=1 αni = T

k

∑i=1

xini =k

∑i=1

αni

k

∑i=1

αni =k

∑i=1

xini

α

k

∑i=1

ni =k

∑i=1

xini

αn =k

∑i=1

xini

94

Page 96: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

da cui

α =1n

k

∑i=1

xini

la media α corrisponde alla media aritmetica delle xi. 6.6

ProprietàLa media aritmetica è la quantità che sostituita alle modalità di una variabile statistica nelascia invariato il totale.

(criterio adatto alla maggior parte dei fenomeni naturali) 6.7

Esempio 3. Un investitore deposita al tempo 0 un capitale C0 presso un istituto di cre-dito; la durata dell’investimento è pari a 5 anni; i tassi di interesse, definiti in regime dicapitalizzazione composta, concordati nei diversi periodi sono:

1 periodo 3% i1 = 0.03 u1 = 1.032 periodo 5% i2 = 0.05 u2 = 1.053 periodo 3% i3 = 0.03 u3 = 1.034 periodo 5% i4 = 0.05 u4 = 1.055 periodo 2% i5 = 0.02 u5 = 1.02dove u j è il montante unitario riferito al periodo j.

Problema Determinare il tasso di interesse medio corrisposto dall’istituto di credito nei5 anni. 6.8

Soluzione Si deve trovare il tasso di interesse medio i = αI(i1, . . . , i5), o equivalentementeil montante unitario medio

u = αU (u1, . . . ,u5),

che consente, partendo dalla somma iniziale C0, di riprodurre il capitale finale C5.

Ricordiamo che per j = 1,2, . . . ,5 abbiamo C j =C j−1+ I j, dove I j =C j−1 · i j è la sommacorrisposta a titolo d’interesse alla fine del periodo j-esimo.

Alla fine dei periodi:C1 =C0 + I1 =C0 ·u1C2 =C1 + I2 =C1 ·u2 =C0 ·u1 ·u2...C5 =C0 ·u1 ·u2 ·u3 ·u4 ·u5 =C0 ∏

5j=1 u j 6.9

C0 ·u1 ·u2 ·u3 ·u4 ·u5 =C5

In base al criterio di scelta secondo Chisini dobbiamo individuare il montante unitariomedio u tale che

C0 · u · u · u · u · u =C0u5 =C5

ovverou1 ·u2 ·u3 ·u4 ·u5 = u · u · u · u · u = u5

da cui

u = 5

√√√√ 5

∏j=1

u j =

(5

∏j=1

u j

) 15

=5

∏j=1

u15j

che corrisponde alla media geometrica dei montanti unitari, riferiti ai tassi di interesse i j.

Nel caso in esameu = 1.0359

95

Page 97: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

da cuii = u−1 = 1.0359−1 = 0.0359 = 3.59%.

6.10

ProprietàLa media geometrica è la quantità che sostituita alle modalità di una variabile statistica nelascia invariato il prodotto.

6.11

Esempio 4 (Portafoglio titoli). Un risparmiatore acquista un portafoglio composto da2000e in BTP, 5000e in azioni e 3000e in obbligazioni e, tempo dopo, dismette il ca-pitale investito, ottenendo i seguenti rendimenti: BTP: 3.8%, azioni: −1%, obbligazioni3.5%

Btp Azioni ObbligazioniCi = quantità 2000 5000 3000

xi = rendimenti 3.8% -1% 3.5%

Problema Determinare il tasso di rendimento medio, α(x1,x2,x3), espresso in funzionedei rendimenti parziali xi, considerando come ’quantità invariante’ equivalentemente:

1. il montante complessivo (M)2. il guadagno complessivo (G)

6.12Soluzione Si indichino con Mi i montanti e con Gi i guadagni, i = 1,2,3 dei tre investi-menti.

1.

M =3

∑i=1

Mi =3

∑i=1

Ci(1+ xi) =3

∑i=1

Ci(1+α)

2.

G =3

∑i=1

Gi =3

∑i=1

Cixi =3

∑i=1

Ciα

da cui, risolvendo rispetto ad α , si ottiene:

α =∑

3i=1 Cixi

∑3i=1 Ci

=131

10000= 0.0131 = 1.31%.

La media trovata α corrisponde alla media aritmetica dei tassi di interesse xi ponderatirispetto ai capitali investiti Ci. 6.13

Esempio 5. Un automobilista percorre 100km e rileva le seguenti velocità:sulla prima tratta di 50km mantiene una velocità costante di 80km/hsulla seconda tratta di 40km una velocità costante di 120km/hsulla terza tratta di 10km una velocità costante di 40km/h

Problema determinare la velocità media di percorrenza dei 100km

vi si40 1080 50

120 40100

96

Page 98: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6.14Soluzione si può considerare come carattere invariante il tempo totale T impiegato percompiere l’intero tragitto.E’ possibile determinare il tempo di percorrenza della singola tratta in funzione dellarelazione, V = S

T , intercorrente tra velocità, spazio e tempo:

T =SV

;

con riferimento alla singola tratta risulta:

ti =si

vi

Ne consegue un tempo totale di percorrenza pari a:

T = t1 + t2 + t3 =s1

v1+

s2

v2+

s3

v3

Se si indica con α la velocità media è possibile riscrivere la relazione che ’garantisce’ ilrispetto del tempo totale di percorrenza

T =s1

α+

s2

α+

s3

α.

6.15

L’equazione conseguente, che consente di trovare l’espressione per α , è la seguente:

s1

v1+

s2

v2+

s3

v3=

s1

α+

s2

α+

s3

α

s1

α+

s2

α+

s3

α=

s1

v1+

s2

v2+

s3

v3

1α(s1 + s2 + s3) =

s1

v1+

s2

v2+

s3

v3

=1

s1 + s2 + s3

(s1

v1+

s2

v2+

s3

v3

)(

)−1

=

1

s1 + s2 + s3

(s1

v1+

s2

v2+

s3

v3

)−1

α =1

1s1+s2+s3

(s1v1+ s2

v2+ s3

v3

)6.16

La media trovata corrisponde alla media armonica delle velocità utilizzando ’come fre-quenze’ le lunghezze si delle diverse tratte

vi si ti =sivi

40 10 0.250080 50 0.6250

120 40 0.3333100 1.2083

α =1

1100 1.2083

=1

1100 1.2083

= 82.761

6.17

97

Page 99: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Scelta della media per minimizzazione del danno

Definizione 6. Data la variabile statistica X si cerca l’indice di posizione

α = α(x1, . . . ,xk;n1, . . . ,nk) = α(X)

tale da minimizzare la sua distanza complessiva dai dati (perdita di informazione) misu-rata attraverso gli scarti

zi = xi−α

come

D =1n

k

∑i=1

d(zi)ni

dove d(z) è un’opportuna funzione di distanza che quantifica il danno (perdita di infor-mazione) zi = xi−α in corrispondenza della generica unità statistica

6.18

Teorema 7 (Funzione di perdita valore assoluto).

d(z) = |z|=

z se z≥ 0−z se z < 0

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

z

|z|

D =1n

k

∑i=1|xi−α|ni

D = min↔ α = x0.5 (mediana)

In questo caso il danno è proporzionale rispetto all’errore. 6.19

Dimostrazione. Con riferimento ai dati v j ordinati, ovvero v( j), D = 1n ∑

nj=1 |v j−α|.

Consideriamo v(1) e v(n)

v(1) v(n)α

ogni punto interno al segmento[v(1),v(n)

]è a distanza minima dagli estremi

(si pensi ai punti esterni)

v(1) v(n)

98

Page 100: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

lo stesso può dirsi per[v(2),v(n−1)

]. . . e così viaPertanto:

• se n è dispari → α = v( n+12 )

• se n è pari → v( n2 )≤ α ≤ v( n

2+1)(va bene ogni punto del segmento)

In particolare:

x0.5 =v( n

2 )+ v( n

2+1)

2

6.20

6.21Dimostrazione. Si considerino 9 punti distinti su una retta

a b c d e f g h i

Dobbiamo cercare il punto che minimizza la media o, equivalentemente, la somma delledistanze da tutti i 9 puntiConsideriamo un punto compreso tra a e b

La somma delle distanze è data dalla somma dei 9 segmenti in figura

a b c d e f g h iα

Se consideriamo un punto compreso tra b e c la somma delle distanze si riduce:a e b sono più lontani dal nuovo punto, ma questo è più vicino agli altri 7 punti

a b c d e f g h iα

Possiamo ulteriormente ridurre la somma delle distanze spostando α verso destra

a b c d e f g h iα

99

Page 101: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

La somma delle distanze risulta minima se α coincide con e.

Infatti spostandosi ancora a destra la distanza si ridurrebbe per f ,g,h, i, ma aumenterebbeper a,b,c,d ed e

a b c d e f g h iα

e rappresenta il punto mediano.6.22

6.23

6.24

6.25

6.26

Teorema 8 (Funzione di distanza quadratica).

d(z) = z2

−3 −2 −1 0 1 2 3

02

46

8

z

z2

D =1n

k

∑i=1

(xi−α)2ni

D = min↔ α = µ (media aritmetica)

In questo caso il danno è più che proporzionale rispetto all’errore. 6.27

Si riportano due dimostrazioni del risultato

Dimostrazione. Riscriviamo la funzione da minimizzare utilizzando l’operatore mediaaritmetica

D =1n

k

∑i=1

(xi−α)2ni = M[(X−α)2] .

Sommando e togliendo µ si ottiene

D = M[(X−µ +µ−α)2] .

Si sviluppa ora il quadrato del binomio con termini (X−µ) e (µ−α)

D = M[(X−µ)+(µ−α)]2

= M

[(X−µ)2 +(µ−α)2 +2(X−µ)(µ−α)

].

Tenendo conto che l’operatore media aritmetica è lineare otteniamo

D = M[(X−µ)2]+M

[(µ−α)2]+2M[(X−µ)(µ−α)].

100

Page 102: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

L’espressione (µ − α) è una costante; quindi M[(µ−α)2

]= (µ − α)2 nel secondo

addendo e nel terzo addendo (µ−α) può essere portata fuori dall’operatore media

D = M[(X−µ)2]+(µ−α)2 +(µ−α)2M[(X−µ)].

Tenendo conto che la variabile scarto dalla media (X−µ) è caratterizzata da media nulla,M[(X−µ)] = 0, il terzo addendo risulta nullo, quindi

D = M[(X−µ)2]+(µ−α)2.

L’espressione risulta minima se

α = µ = µ(1) = M(X).

6.28

Dimostrazione. Riscriviamo, anche per questa dimostrazione, la funzione da minimizzareutilizzando l’operatore media aritmetica

D =1n

k

∑i=1

(xi−α)2ni = M[(X−α)2] .

Poniamo uguale a 0 la derivata della funzione obiettivo

d M[(X−α)2

]dα

= 0.

Dal momento che la media è un operatore lineare possiamo scambiare l’ordine dell’ope-ratore derivata e dell’operatore media

M[

d (X−α)2

]= 0.

Ricordando la formula della derivata di una funzione composta otteniamo

M [2(X−α)(−1)] = 0.

I termini 2 e (−1) sono costanti moltiplicative e possono essere portati fuori dall’operatoremedia

−2M(X−α) = 0.

Ricordando che la media è un operatore lineare otteniamo

M(X)−M(α) = 0

α è una costante, quindi M(α) = α

M(X)−α = 0

In conclusione:α = µ = µ

(1) = M(X).

6.29

Per verificare che effettivamente si tratta di un punto di minimo possiamo controllare ilsegno della derivata seconda della funzione da minimizzare in corrispondenza del puntoestremante α = µ

d2 M[(X−α)2

]dα2 = M

[d2 (X−α)2

dα2

]= M

[d [−2(X−α)]

]= M(+2) = +2.

La funzione è convessa e il punto estremante è di minimo. 6.30

101

Page 103: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 Proprietà associativa della media aritmetica

Consente di esprimere la media generale come media delle medie parziali.Si considerino i dati elementari

v1,v2, . . . ,vn

riuniti in h gruppi

1 2 ... h

n1 n2 ... nh

µ1 µ2 ... µh

(il raggruppamento in tabelle è uno dei possibili)il singolo valore viene ora indicato con xi j: j-esima osservazione ( j = 1,2, . . . ,ni) nelgruppo i (i = 1,2, . . . ,h). 6.31

Definizione 9 (Proprietà associativa della media aritmetica). Sia data una popolazionesuddivisa in h gruppi e sia

µi =1ni

ni

∑j=1

xi j

la media del gruppo i-esimo.La media generale (calcolata su tutte le unità statistiche)

µ =1n

h

∑i=1

ni

∑j=1

xi j

può essere riespressa come

µ =1n

h

∑i=1

ni

ni

ni

∑j=1

xi j =

=1n

h

∑i=1

ni

(1ni

ni

∑j=1

xi j

)=

1n

h

∑i=1

µini

6.32vale a dire

µ =1n

h

∑i=1

µini =h

∑i=1

µi fi.

6.33

Esempio 10. Si consideri la seguente popolazione di unità statistiche raggruppate in 3gruppi

1 2 3

4 5

6 7

4 6

6 8

6

8

Si calcolano in primo luogo le medie per i tre gruppi

102

Page 104: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

•µ1 =

14(4+5+6+7) = 5.5

•µ2 =

14(4+6+6+8) = 6

•µ3 =

12(6+8) = 7

6.34È possibile ricostruire la variabile statistica medie di gruppo

i µi ni1 5.5 42 6 43 7 2

10

le cui modalità sono le medie di gruppo, con associate come frequenze le rispettivenumerosità di gruppo.La media di tale variabile statistica risulta

µi ni µini5.5 4 226 4 247 2 14

10 60

µ =1n

3

∑i=1

µini =110

60 = 6

e coincide con la media generale calcolata su tutte le unità statistiche. 6.35

Infatti:µ =

110

(4+5+6+7+4+6+6+8+6+8) = 6

ovvero

xi ni4 25 16 47 18 2

10

xi ni xini4 2 85 1 56 4 247 1 78 2 16

10 60

µ = 6distribuzionesimmetrica

µ =1n

5

∑i=1

xini =1

1060 = 6

6.36

Esempio 11. Sianoµ1 il voto medio delle n1 femmineµ2 il voto medio degli n2 maschi

µ =µ1n1 +µ2n2

n1 +n2

103

Page 105: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 12. Dai dati di produzione media giornaliera alla media mensile o trimestrale(NB solo se le medie parziali sono aritmetiche!!)

6.37

OsservazioneSi consideri la formula della media aritmetica

µ =1n

h

∑i=1

µini.

Indicato conti = µini

il totale parziale; allora

µ =1n

h

∑i=1

ti =Tn

dove T è il totale generale, che associa quindi i totali parziali6.38

6 Esercizi

Esercizio 13. Definita una partizione degli abitanti di una regione in due gruppi, indicatinel seguito con 1 e 2, si sono costruiti i seguenti prospetti relativi alla distribuzione deiredditi in ciascun gruppo.

Gruppo 1Ri ni

10 a 15 180015 a 30 150030 a 50 2700

Gruppo 2Ri ni fi

10 a 15 0.1515 a 30 0.2530 a 50 0.60

1. Sapendo che il reddito medio di tutti gli abitanti della regione è 30, si determini, peril gruppo 2, il numero ni di soggetti appartenenti a ciascuna delle classi di reddito.

6.39

Esercizio 14 (T 216, 04.02.2005, 1). Con riferimento al numero dei componenti del-le 50.000 famiglie di una certa regione si sono calcolati i seguenti indici di posizione:m.geometrica = 2.7; m.quadratica = 3.8.

1. Calcolare approssimativamente il numero di abitanti della regione.6.40

104

Page 106: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Proprietà mediana e media aritmetica

(se non specificato, per media si intende quella aritmetica)

mediana

• media in senso stretto• minimizza la somma degli scarti assoluti

media

• media in senso stretto• operatore lineare• annulla la somma degli scarti relativi• minimizza la somma degli scarti quadratici• lascia invariato il totale

6.41

OsservazioneLa mediana, rispetto alla media, risente meno dei valori anomali

0 1 2 3 4

0 1 2 3 9

X

Y

x0.5 = 2 = y0.5 ma M(X) = 2 < M(Y ) = 36.42

105

Page 107: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 108: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 7Variabilità (1)

7.1

Indice

1 Indici di variabilità 107

2 La variabilità per i caratteri qualitativi 108

3 Le situazioni estreme 1093.1 La situazione di assenza di eterogeneità . . . . . . . . . . . . . . . . . . 1093.2 La situazione di massima eterogeneità . . . . . . . . . . . . . . . . . . . 109

4 L’indice di eterogeneità di Gini 110

5 Gli indici normalizzati 111

6 L’indice di Frosini normalizzato 114

7 Utilizzo congiunto della Moda e dell’indice di eterogeneità 116

8 Esercizi 117

9 Libero Mercato, Monopolio e Oligopolio 117 7.2

1 Indici di variabilità

• indice sintetico di posizione è utile per alcuni confronti• appare tuttavia insufficiente• sintesi troppo spinta fa perdere informazioni

→ POSIZIONE+VARIABILITÀ

• interessano anche indicatori della molteplicità e della diversità dei valori di uncarattere

v1,v2, . . . ,vn

?è più costante l’impegno degli studenti maschi o quello delle femmine

?c’è più sperequazione economica in Piemonte o in Lombardia

?7.3

107

Page 109: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

è più variabile (disperso) X oppure Y ?

4 7 10 15 18 20

0 2 3 4 7 8

X

Y

7.4

Esempio 1. Si considerino le votazioni riportate da due studenti in 25 esami

xi ni18 1224 130 12

25

yi ni24 25

25

• Come vengono qualificati i due studenti utilizzando solo una misura di posizione(media, mediana)?

• Possiamo ritenere che l’impegno dedicato alla preparazione degli esami sia lo stessoper i due studenti?

Definizione 2 (La variabilità). Si definisce variabilità l’attitudine di un fenomeno a ma-nifestarsi con molteplici valori.

7.5

2 La variabilità per i caratteri qualitativi

Con riferimento ai caratteri qualitativi si parla di mutabilità o eterogeneità

Esempio 3. Si considera il colore dei capelli di alcune scolaresche

(distribuzioni %)colore S1 S2 S3nero 0.10 0.30 0.70castano 0.25 0.30 0.20biondo 0.60 0.30 0.05altro 0.05 0.10 0.05

1 1 1

• in quale scolaresca c’è minore variabilità?• in quale scolaresca c’è maggiore variabilità?

7.6

108

Page 110: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Le situazioni estreme

3.1 La situazione di assenza di eterogeneità

assenza di eterogeneità

• quando tutti hanno lo stesso colore dei capelli

colore finero 1castano 0biondo 0altro 0

1

colore finero 0castano 1biondo 0altro 0

1

colore finero 0castano 0biondo 1altro 0

1

colore finero 0castano 0biondo 0altro 1

1

• minima eterogeneità:∃ fi = 1, f j = 0 se j 6= i

• mutabile statistica degenere

7.7

3.2 La situazione di massima eterogeneità

massima eterogeneità

• nel caso avessimo solo 4 soggetti

– se 1 nero, 1 castano, 1 biondo, 1 con altro colore

• e se i soggetti fossero 8?

– se 2 neri, 2 castani, 2 biondi, 2 con altro colore

colore ni finero 2 0.25castano 2 0.25biondo 2 0.25altro 2 0.25

8 1

• massima eterogeneità:

f1 = . . .= fk =1k

• equidistribuzione delle frequenze

7.8

109

Page 111: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

situazioni estremeritornando all’esempio delle scolaresche

colore S1 S2 S3 S4 S5nero 0.10 0.30 0.70 0 0.25castano 0.25 0.30 0.20 1 0.25biondo 0.60 0.30 0.05 0 0.25altro 0.05 0.10 0.05 0 0.25

1 1 1 1 1

• minima variabilità:∃ fi = 1, f j = 0 se j 6= i

tutti i valori sono uguali (ad esempio S4)• massima variabilità:

f1 = . . .= fk =1k

equidistribuzione delle frequenze (S5)

7.9

4 L’indice di eterogeneità di Gini

Definizione 4 (Indice di eterogeneità di Gini).

G = 1−k

∑i=1

f 2i

OsservazioneL’indice di Gini viene usato anche per lo studio della concentrazione industriale o dimercato

7.10

Calcolo dell’indice di GiniConsideriamo la prima scolaresca S1

xi fi f 2i

x1 0.1 0.01x2 0.25 0.0625x3 0.6 0.36x4 0.05 0.0025

1 0.435

G = 1−k

∑i=1

f 2i = 1−0.435 = 0.565.

In base al valore ottenuto possiamo ritenere che sussiste un livello elevato o basso dieterogeneità?

7.11

110

Page 112: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 Gli indici normalizzati

Gli indici normalizzatiIn genere, quando si costruisce uno strumento per misurare il livello I assunto da undeterminato fenomeno (temperatura, peso, variabilità, tasso di umidità), è opportunoindividuare le due situazioni estreme, corrispondenti a

• Imin: minima presenza o assenza del fenomeno oggetto di studio• Imax: massima presenza teorica del fenomeno oggetto di studio

la situazione osservata, caso reale, si posiziona in una situazione intermedia, quindi

Imin ≤ I ≤ Imax

Imin I Imax

7.12

Risulta più comodo costruire un indice che varia tra estremi prestabilitiUn indice normalizzato, IN , varia tra 0 e 1

Imin I Imax

0 1IN

• IN = 0 quando I = Imin• IN = 1 quando I = Imax

7.13Imin ≤ I ≤ Imax

Imin I Imax

0 1IN

0≤ IN ≤ 1

7.14

111

Page 113: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Imin ≤ I ≤ Imax

Imin I Imax

0 1IN

0≤ IN =I− Imin

Imax− Imin≤ 1

7.15

Definizione 5 (Indice normalizzato).

IN =I− Imin

Imax− Imin

IN = 0 ↔ I = Imin

IN = 1 ↔ I = Imax

Interpretazione

IN

0 0.3 0.5 0.65 0.8 0.9 1

molto basso basso medio alto altissimomedioalto

OsservazioneGli indici normalizzati consentono anche di effettuare dei confronti tra situazioni diverse.

7.16

112

Page 114: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

G = 1−k

∑i=1

f 2i

assenza mutabilità caso reale massima mutabilitàGmin G Gmax

xi fi f 2i

x1 0 0x2 0 0x3 1 1x4 0 0

1 1

xi fi f 2i

x1 0.1 0.01x2 0.25 0.0625x3 0.6 0.36x4 0.05 0.0025

1 0.435

xi fi f 2i

x1 0.25 0.0625x2 0.25 0.0625x3 0.25 0.0625x4 0.25 0.0625

1 0.25

Gmin = 1−1 G = 1−0.435 Gmax = 1−0.25Gmin = 0 G = 0.565 Gmax = 0.75

GN =G−Gmin

Gmax−Gmin=

0.565−00.75−0

= 0.7533

7.17

7.18

7.19

7.20

L’indice di Gini nella situazione di massima eterogeneitàxi fi f 2

ix1 f1 =

1k

1k2

x2 f2 =1k

1k2

......

...xk fk =

1k

1k2

1 k 1k2

Gmax = 1−k

∑i=1

f 2i = 1−

k

∑i=1

1k2 = 1− k

1k2 = 1− 1

k

GN =G−Gmin

Gmax−Gmin=

G−01− 1

k −0=

G1− 1

k7.21

113

Page 115: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 L’indice di Frosini normalizzato

L’indice di Gini Normalizzato, GN , assume valori elevati anche in situazioni che nonpossono ritenersi prossime a quella di massima eterogeneità, risultando così poco discri-minante in situazioni ’vicine’ alla situazione di massima eterogeneità.Si consideri, a titolo esemplificativo la seguente generica mutabile statistica

xi fix1 f1 = 1− γ

x2 f2 = γ/3x3 f3 = γ/3x4 f4 = γ/3

1

al variare di γ nell’intervallo [0,0.75]. In corrispondenza degli estremi di tale intervallo sihanno, infatti, le situazioni di massima eterogeneità e di assenza di eterogeneità. 7.22

Nel seguente prospetto sono riportate 7 distribuzioni esemplificative. L’indice GN assumecorrettamente valore basso nelle situazioni a e b nelle quali le frequenze sono fortementeconcentrate in una sola categoria, ma assume valore medio/alto nelle situazioni c e d,nelle quali le frequenze sono ancora concentrate nella sola categoria x1.

a b c d e f gx1 1.0000 0.8750 0.7500 0.6250 0.5000 0.3750 0.2500x2 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500x3 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500x4 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500

GN 0.0000 0.3056 0.5556 0.7500 0.8889 0.9722 1.00007.23

Si rappresenta graficamente l’andamento di GN al variare di γ .

0.0

0.5

1.0

assenza dieterogeneita'

massimaeterogeneita'

a b c d e f g

GN

7.24

114

Page 116: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Una possibile soluzione è rappresentata dall’indice di Frosini normalizzato1

FN = 1−

√√√√ kk−1

(k

∑i=1

f 2i −

1k

)= 1−

√1−GN .

7.25

Il seguente prospetto riporta anche il valore di FN per le 7 distribuzioni sopra considerate.L’indice FN è caratterizzato da una struttura più lineare.

x1 1.0000 0.8750 0.7500 0.6250 0.5000 0.3750 0.2500x2 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500x3 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500x4 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500

GN 0.0000 0.3056 0.5556 0.7500 0.8889 0.9722 1.0000FN 0.0000 0.1667 0.3333 0.5000 0.6667 0.8333 1.0000

7.26Si completa la rappresentazione grafica con l’andamento di FN .

0.0

0.5

1.0

assenza dieterogeneita'

massimaeterogeneita'

a b c d e f g

GN

FN

7.27

1La relazione tra FN e GN vale in quanto:

FN = 1−

√√√√ kk−1

(k

∑i=1

f 2i −

1k

)=

= 1−

√∑

ki=1 f 2

i −1k

k−1k

=

= 1−

√∑

ki=1 f 2

i −1k

1− 1k

=

= 1−

√∑

ki=1 f 2

i −1+1− 1k

1− 1k

=

= 1−

√1− 1

k −(1−∑

ki=1 f 2

i)

1− 1k

=

= 1−

√1−

1−∑ki=1 f 2

i

1− 1k

=

= 1−√

1−GN .

115

Page 117: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si osserva come gli indici di eterogeneità proposti soddisfano le seguenti proprietà:• non negatività;• sono nulli nella situazione di assenza di eterogeneità;• soddisfano la proprietà di coerenza: considerate due generiche frequenze fi e f j

per le quali 0 < fi ≤ f j, se fi viene diminuita della quantità δ > 0, e corrispon-dentemente f j è aumentata della stessa quantità δ , gli indici di eterogeneità devonodiminuire, o al più restare costanti (cfr. Frosini 2009 Metodi Statistici: teoria eapplicazioni economiche e sociali. Carocci).

7.28

7 Utilizzo congiunto della Moda e dell’indice di etero-geneità

Utilizzo congiunto della Moda e dell’indice di eterogeneitàPossiamo confrontare le 5 scolaresche in base alla Moda e alla mutabilità del colore deicapelli

colore S1 S2 S3 S4 S5nero 0.10 0.30 0.70 0 0.25castano 0.25 0.30 0.20 1 0.25biondo 0.60 0.30 0.05 0 0.25altro 0.05 0.10 0.05 0 0.25

1 1 1 1 1

Moda biondo @ nero castano @G 0.565 0.72 0.465 0 0.75GN 0.7533 0.96 0.62 0 1FN 0.5033 0.8 0.3836 0 1

• la moda è rappresentativa della distribuzione quando la mutabilità non è elevata• L’indice di Frosini Normalizzato fornisce un’informazione più realistica sul livello

di eterogeneità per le scolaresche S3 ed S1.7.29

Esempio 6.xi ni fi f 2

ix1 25 0.125 0.015625x2 35 0.175 0.030625x3 100 0.5 0.25x4 40 0.2 0.04

200 1 0.33625

G = 1−k

∑i=1

f 2i = 1−0.33625 = 0.66375

Gmin = 0

Gmax = 1− 14= 0.75

GN =G−Gmin

Gmax−Gmin=

0.66375−00.75−0

= 0.885

FN = 1−√

1−GN = 1−√

1−0.885 = 0.6609

• possiamo ritenere che sussiste un livello medio/alto di eterogeneità7.30

116

Page 118: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 Esercizi

Esercizio 7. [T 162, 24.06.1998, A] Una delegazione provinciale della F.I.C. (Federazio-ne Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio espletatidai suoi 8 componenti (A,B, . . . ,H) durante l’anno.Si riportano il tipo di sport (S, nelle categorie n= nuoto, s= sci, c= ciclismo), la stagionedel servizio (T , a= autunno, i= inverno, p= primavera, e= estate), la durata del servizio(D, in minuti) e l’entità del rimborso complessivamente percepito per il servizio (R, in e).

serv 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15cron B B H G F A E E B C D D B C GS n n c c n s s n s n s s c c nT a a a a i i i i i p p p p p pD 120 120 360 60 180 360 360 120 360 180 480 420 300 420 180R 20 20 45 60 30 50 70 30 60 45 60 70 40 60 30

1. Si confronti il grado di mutabilità di S e di T .7.31

Esercizio 8 (T 224, 02.02.2006, 3). Con riferimento alla seguente v.s. X :

xi nia1 30a2 ?a3 ?

1. determinare n2, n3 ed n in modo che Eterogeneità(X) = max teorico;2. posto poi n = 120 ed n2 = n3 valutare il grado di eterogeneità presente nei dati.

7.32

9 Libero Mercato, Monopolio e Oligopolio

Libero Mercato, Monopolio e OligopolioSia X una variabile statistica le cui categorie x1,x2, . . . ,xk sono le denominazioni socialidelle k imprese operanti su un mercato, mentre f1, f2, . . . , fk rappresentano le quote dimercato delle k imprese

• in una situazione di perfetta concorrenza si potrebbe ipotizzare che le impreseabbiano tutte la stessa quota di mercato

– equidistribuzione delle frequenze↔ mutabilità massima

• in una situazione di Monopolio il mercato è concentrato in una sola delle imprese

– mutabile statistica degenere↔ assenza di mutabilità

• in una situazione di Oligopolio il mercato è concentrato in poche imprese.Che valore assumerà l’indice di eterogeneità?

– possiamo aspettarci un valore elevato dell’indice di Frosini normalizzato; inuna situazione di oligopolio esistono, infatti, accordi (cartelli) tra le imprese,che comunicano tra loro e possono definire quote di mercato omogenee.

7.33

117

Page 119: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 120: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 8Variabilità (2)

8.1

Indice

1 La variabilità per caratteri quantitativi 119

2 Una classe di indici di variabilità globale 1232.1 La differenza semplice media (r = 1) . . . . . . . . . . . . . . . . . . . 1242.2 La differenza quadratica media (r = 2) . . . . . . . . . . . . . . . . . . . 124

3 Una classe di indici di dispersione 1253.1 Lo scostamento medio assoluto dalla mediana (r = 1,c = x0.5) . . . . . . 1263.2 Lo scarto quadratico medio (r = 2,c = µ) . . . . . . . . . . . . . . . . . 127

4 Proprietà di minimo di D1(x0.5) e di D2(µ) 128

5 La varianza 129

6 Varianza di una trasformazione lineare 130

7 Gli indici relativi 131

8 Esercizi 133 8.2

1 La variabilità per caratteri quantitativi

Si ricorda che con riferimento ai caratteri quantitativi è possibile definire una distanza dtra le modalità xi, x j assunte da due generiche unità statistiche, tale che:

1. d(xi,x j) = |x j− xi|= |xi− x j| ≥ 02. d(xi,x j) = 0↔ xi = x j3. |xi− x j| ≤ |xi− xk|+ |x j− xk|

119

Page 121: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

xi nix1 n1x2 n2x3 n3x4 n4x5 n5

n

xi

ni

x1 x2 x3 x4 x5

8.3

Tipologie di indicatori elementari

• indicatori elementari di variabilità globale• indicatori elementari di dispersione rispetto a un centro di riferimento c

x1

x2

x3

x4

x5

x1

x2

x3

x4

x5

c

ogni unità statisticaviene confrontatacon tutte le altre

ogni unità statisticaviene confrontata con

un valore c di riferimento

8.4

120

Page 122: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Definizione 1 (Indicatori elementari di variabilità globale).

x1

x2

x3

x4

x5

• |xi− x j|, i = 1, . . . ,k, j = 1, . . . ,k8.5

Indicatori elementari di variabilità globale• |xi− x j|, i = 1, . . . ,k, j = 1, . . . ,k• quante coppie è possibile formare con elementi di due gruppi, il primo costituito da

ni oggetti e il secondo da n j oggetti?• ad esempio se n1 = 3 ed n2 = 4• gruppo 1 (a,a,a) e gruppo 2 (b,b,b,b)

b b b ba (a,b) (a,b) (a,b) (a,b)a (a,b) (a,b) (a,b) (a,b)a (a,b) (a,b) (a,b) (a,b)

(n1 = 3) · (n2 = 4) = 12 coppie• di indicatori elementari |xi−x j| calcolati con le modalità xi e x j ne esistono, quindi,

ni ·n j• il numero totale degli indicatori elementari di variabilità globale è n2, avendo con-

siderato anche il confronto di ogni unità statistica con se stessa8.6

Esempio 2.

xi ni1 23 35 2

7

1 1 3 3 3 5 51133 |xi− x j|355

121

Page 123: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8.7

Definizione 3 (Indicatori elementari di dispersione rispetto a un centro c).

x1

x2

x3

x4

x5

c

• |xi− c|, i = 1, . . . ,k8.8

Indicatori elementari di dispersione rispetto a un centro c

• |xi− c|, i = 1, . . . ,k• di indicatori elementari di dispersione del tipo |xi− c|, calcolati con la modalità xi,

ne esistono ni• il numero totale degli indicatori elementari di dispersione rispetto a un centro c è n

8.9

Esempio 4.

xi ni1 23 35 2

7

1 1 3 3 3 5 51133 |xi− x j|355

(49 indicatori)

xi ni1 23 35 2

7

1 1 3 3 3 5 5|xi− c|

(7 indicatori)8.10

122

Page 124: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Interpretazione degli indicatori elementari

indicatori elementari tutti nulli

l

assenza di variabilità

l

dati tutti eguali (v.s. degenere)

Misure di variabilitàIn corrispondenza delle due tipologie di indicatori elementari è possibile definire dellemisure di

• variabilità globale V (X)• dispersione da un centro D(X)

Tali misure sono funzione degli indicatori elementari

• sono definite come medie potenziate degli indicatori elementari8.11

Caratteristiche di base degli indici di variabilità

• V (X)≥ 0,D(X)≥ 0 (non negatività)• V (X) = 0,D(X) = 0 se e solo se xi = c• monotonicità rispetto agli indicatori elementari |xi− x j| oppure |xi− c|

8.12

2 Una classe di indici di variabilità globale

Definizione 5 (Differenza media con ripetizione). Si definisce differenza media con ripe-tizione di ordine r la media potenziata di ordine r (r = 1,2, . . .) degli indicatori elementaridi variabilità globale |xi− x j|, i = 1, . . . ,k, j = 1, . . . ,k

∆r =

[1n2

k

∑i=1

k

∑j=1|xi− x j|rnin j

]1/r

(r = 1,2, . . .)

Sono dette ’con ripetizione’ perchè vengono conteggiate anche le differenze |xi− xi|= 0.8.13

ProprietàEssendo ∆r una media in senso stretto sono rispettate le caratteristiche degli indici divariabilità

• condizione di Cauchy

– min |xi− x j|= 0≤ ∆r ≤max |xi− x j|quindi:

* ∆r ≥ 0 (non negatività)

* ∆r = 0 se e solo se xi = c

• condizione di monotonicità

– ∆r è funzione monotona crescente rispetto a |xi− x j|

123

Page 125: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Inoltre

• proprietà moltiplicativa

– Se Y = bX allora ∆r(Y ) = b∆r(X)

• limite superiore medie potenziate

– limr→+∞∆r = max |xi− x j|= xk− x1 = Rdove R = Range o campo di variazione

• invarianza per traslazione

– Se Y = X +b allora ∆r(Y ) = ∆r(X +b) = ∆r(X)

8.14

Invarianza per traslazioneSi consideri Y = X +1, ad esempio:

xi ni2 34 47 3

10

yi ni3 35 48 3

10

ni

2 4 73 5 8

le distanze interne tra le modalità sono le stesse per X e Y8.15

2.1 La differenza semplice media (r = 1)

Definizione 6.

∆1 =1n2

k

∑i=1

k

∑j=1|xi− x j|nin j

8.16

2.2 La differenza quadratica media (r = 2)

Definizione 7.

∆2 =

[1n2

k

∑i=1

k

∑j=1

(xi− x j)2nin j

]1/2

124

Page 126: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

OsservazioneÈ collegata al più importante indice di dispersione;si ha, infatti

∆2 =√

2 · (scarto quadratico medio) =√

2 ·σ8.17

3 Una classe di indici di dispersione

Definizione 8 (Le differenze medie di ordine r). Si considera la media potenziata diordine r (r = 1,2, . . .) degli indicatori elementari di dispersione dal centro di riferimentoc, |xi− c|, i = 1, . . . ,k

Dr(c) =

[1n

k

∑i=1|xi− c|rni

]1/r

= M [|X− c|r]1/r (r = 1,2, . . .)

solitamente come centro c si può considerare:

• un percentile (xp)• la mediana (x0.5)• la media aritmetica (µ)

8.18

ProprietàEssendo Dr(c) una media in senso stretto sono rispettate le caratteristiche degli indici divariabilità

• condizione di Cauchy

– (min |xi− c| ≥ 0)≤ Dr(c)≤max |xi− c|quindi:

* Dr(c)≥ 0 (non negatività)

* Dr(c) = 0 se e solo se xi = c

• condizione di monotonicità

– Dr(c) è funzione monotona crescente rispetto a |xi− c|Inoltre

• proprietà moltiplicativa

– Se Y = bX allora Dr(bc)Y = bDr(c)X

• invarianza per traslazione

– se Y = X +b allora Dr(c)Y = Dr(c)(X+b) = Dr(c)X

8.19

125

Page 127: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Invarianza per traslazioneSi consideri Y = X +1, ad esempio:

xi ni2 34 47 3

10

µX = 4.3

yi ni3 35 48 3

10

µY = 5.3

ni

2 4 73 5 8

le distanze tra le modalità e la media sono le stesse per X e Y8.20

3.1 Lo scostamento medio assoluto dalla mediana (r = 1,c = x0.5)

Definizione 9.

D1(x0.5) =1n

k

∑i=1|xi− x0.5|ni

ovveroD1(x0.5) = M [|X− x0.5|]

8.21

Esempio 10. Calcoliamo D1(x0.5) per la serie statistica

xi ni2 34 47 3

10

In primo luogo si deve determinare il valore della mediana

xi ni Ni2 3 34 4 77 3 10

x0.5 =x(5)+ x(6)

2= 4

126

Page 128: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si calcolano poi gli scostamenti assoluti dalla mediana e li si moltiplica per le frequenze

xi ni |xi− x0.5| |xi− x0.5|ni2 3 2 64 4 0 07 3 3 9

10 15

D1(x0.5) =1

1015 = 1.5

8.22

3.2 Lo scarto quadratico medio (r = 2,c = µ)

Definizione 11.

D2(µ) =

[1n

k

∑i=1

(xi−µ)2ni

]1/2

= σ

ovvero

D2(µ) =

√M[(X−µ)2

]= σ

OsservazioneÈ collegato alla differenza quadratica media

∆2 =√

2 ·σ

per r = 2 l’indice di variabilità globale è direttamente proporzionale all’indice di disper-sione riferito alla media.

8.23

Esempio 12. Con riferimento alla serie statistica

xi ni xini2 3 64 4 167 3 21

10 43

la media aritmetica risultaµ = M(X) =

110

43 = 4.3

Si calcolano gli scostamenti al quadrato da µ e li si moltiplica per le frequenze

xi ni (xi−µ)2 (xi−µ)2ni2 3 5.29 15.874 4 0.09 0.367 3 7.29 21.87

10 38.10

Dividendo il totale ottenuto per la numerosità delle unità statistiche si ottiene il quadratodello scarto quadratico medio

σ2 = M

[(X−µ)2]= 1

n

k

∑i=1

(xi−µ)2ni =110

38.10 = 3.81

σ = D2(µ) =√

M [(X−µ)2] =√

3.81 = 1.95198.24

127

Page 129: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Proprietà di minimo di D1(x0.5) e di D2(µ)

Uso combinato delle misure di posizione e di variabilitàx0.5 e D1(x0.5)

µ e σ = D2(µ)

Si ricorda che, in base al criterio di scelta della media per minimizzazione del danno:

D =1n

k

∑i=1|xi−α|ni = min↔ α = x0.5

D =1n

k

∑i=1

(xi−α)2ni = min↔ α = µ

valgono, quindi, le seguenti proprietà di minimo

D1(x0.5) = M [|X− x0.5|]≤M [|X−α|] , ∀α ∈ℜ

σ2 = M

[(X−µ)2]≤M

[(X−α)2] , ∀α ∈ℜ

8.25

128

Page 130: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 La varianza

Definizione 13 (Varianza).

[D2(µ)]2 =

1n

k

∑i=1

(xi−µ)2ni =k

∑i=1

(xi−µ)2 fi = σ2 =Var(X) = σ

2X

σ2 =Var(X) = M

[(X−µ)2]

Formula operativaσ

2 =Var(X) = M(X2)−µ

2

8.26

Dimostrazione. Sviluppando il quadrato che figura nella definizione

M[(X−µ)2

]= M

(X2−2µX +µ

2)e ricordando che M(·) è un operatore lineare

M(X2)−2µM(X)+µ

2 = M(X2)−2µ

2 +µ2 = M

(X2)−µ

2.

8.27

Esempio 14. Per calcolare la varianza della serie statistica

xi ni xini2 3 64 4 167 3 21

10 43

µ = M(X) =110

43 = 4.3

una volta ottenuta la media, è sufficiente calcolare il momento secondo M(X2)

xi ni xini x2i ni

2 3 6 124 4 16 647 3 21 147

10 43 223

M(X2) =1n

k

∑i=1

x2i ni =

110

223 = 22.3

e applicare la formula operativa

Var(X) = σ2 = M[(X−µ)2] =

= M(X2)−µ2 =

= momento secondo−media2 =

= 22.3−4.32

= 22.3−18.49 = 3.81.8.28

129

Page 131: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 Varianza di una trasformazione lineare

Teorema 15. SeY = aX +b

alloraM(Y ) = aM(X)+b (operatore lineare)

Var(Y ) = a2Var(X) (non è un operatore lineare)

Dimostrazione. Si applichi la definizione di varianza alla variabile statistica Y e si espri-ma Y e µY = M(Y ) in funzione di X e µX = M(X):

Var(Y ) = M[(Y −µY )2] = M

[aX +b− (aµx +b)]2

=

= M[aX +b−aµx−b]2

=

= M[aX−aµx]

2=

= M[a(X−µx)]

2=

= M[a2(X−µx)

2]== a2M

[(X−µx)

2]= a2Var(X).

8.29

Esempio 16. Si calcolino media e varianza della seguente serie statistica

xi ni2 103 124 225 6

xi ni xini x2i ni

2 10 20 403 12 36 1084 22 88 3525 6 30 150

50 174 650

µ = M(X) = 150 174 = 3.48

M(X2) = 150 650 = 13

• Var(X) = M(X2)−µ2 = 13−3.482 = 13−12.1104 = 0.8896.

Sapendo che Y = 12 X +4 si calcolino M(Y ) e Var(Y )

• M(Y ) = 12 M(X)+4 = 1

2 3.48+4 = 5.74

• Var(Y ) =( 1

2

)2Var(X) = 1

4 0.8896 = 0.2224.8.30

130

Page 132: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Gli indici relativi

Indici relativiIn generale:

• gli indici, I, dipendono dall’unità di misura e dall’ordine di grandezza del fenomeno• non è possibile effettuare confronti

Definizione 17 (Indice relativo).

IR =I

opportuno indice di posizione

(numero puro)

Definizione 18 (Coefficiente di variazione).

CV =σ

µ

È un indice relativo: numero puro. Può essere definito solo per variabili statistiche cheassumono valori positivi. 8.31

Esempio 19. Si consideri il peso di 4 soggetti misurato alla nascita, variabile X , e all’etàdi 30 anni, variabile Y .

1 2 3 4xi 3 2.5 3.2 5yi 73 57 69 85

Quale tra le due variabili presenta maggiore variabilità?

Confrontando le medie aritmetiche

M(X) =14(3+2.5+3.2+5) = 3.425

M(Y ) =14(73+57+69+85) = 71

come ragionevolmente ci si può aspettare, il livello medio di Y è superiore a quello di X . 8.32

Calcoliamo ora le varianze e i coefficienti di variazione

M(X2) =14(32 +2.52 +3.22 +52) = 12.6225

M(Y 2) =14(732 +572 +692 +852) = 5141

Var(X) = M(X2)−µ2X = 0.8919

Var(Y ) = M(Y 2)−µ2Y = 100

CV (X) =σX

µX=

√0.89193.425

=0.94443.425

= 0.2757

CV (Y ) =σY

µY=

√10071

=1071

= 0.1408

Dal confronto dei coefficienti di variazione si evince che il livello di variabilità di X (pesoda bambini) è superiore a quello di Y (peso da adulti). 8.33

Esempio 20. Volendo confrontare peso e altezza di n individui possiamo calcolare iseguenti indicatori

131

Page 133: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

unità di misuraindicatore peso altezzamedia aritmetica µ kg cmvarianza σ2 kg2 cm2

scarto quadratico medio σ kg cmcoefficiente di variazione CV = σ

µ

kgkg = 1 cm

cm = 1

Il confronto degli indici di posizione per variabili con differenti unità di misure non hasenso.Il coefficiente di variazione, che non dipende dall’unità di misura, rende possibile ilconfronto in termini di variabilità. 8.34

Esempio 21. Volendo sintetizzare i redditi di una famiglia e il prodotto interno lordonazionale negli ultimi 10 anni possiamo calcolare i seguenti indicatori

ordine di grandezza in eindicatore famiglia nazionemedia aritmetica µ 103 109

varianza σ2 106 1018

scarto quadratico medio σ 103 109

coefficiente di variazione CV = σ

µ

103

103 = 1 109

109 = 1

Non ha alcun senso confrontare il reddito medio della famiglia con il PIL medio.Il coefficiente di variazione, che non dipende dall’ordine di grandezza, rende possibile ilconfronto in termini di variabilità. 8.35

Teorema 22 (CV di una trasformazione lineare). Siano X > 0 e

Y = aX +b

con a > 0 e b tale che anche Y > 0. Allora:• se b < 0 vale CV (Y )>CV (X),• se b = 0 vale CV (Y ) =CV (X),

(b = 0 corrisponde a una sola trasformazione di scala)• se b > 0 vale CV (Y )<CV (X).

Dimostrazione. Se Y = aX +b abbiamo

µY = aµX +b

Var(Y ) = a2Var(X)

σY = aσX

Quindi:CV (Y ) =

σY

µY=

aσX

aµX +b.

8.36

Analogamente al coefficiente di variazione (CV) è possibile definire un indice relativo,che denominiamo coefficiente di scostamento (CS), a partire dall’indice di dispersione diordine 1, D1(x0.5), scostamento medio assoluto dalla mediana.

Definizione 23 (Coefficiente di scostamento).

CS =D1(x0.5)

x0.5

È un indice relativo: numero puro. Può essere definito solo per variabili statistiche cheassumono valori positivi. 8.37

132

Page 134: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 Esercizi

Esercizio 24 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nellaseguente tabella:

xi nix1 n130 30

1. M(X2) = 500, Var(X) = 100 e X risulti simmetrica.8.38

Esercizio 25 (T 180, 14.09.2000, 1). Lo spessore X delle lamine prodotte da una mac-china è compreso tra 15.2 e 16.5 mm.Si individuino le ampiezze delle 4 classi (Ii) in cui è ripartito l’intervallo (15.1;16.5] inmodo tale che:

I1 I2 I3 I4fi 0.05 0.09 0.72 0.14di 0.25 0.45 2.40 0.20

1. Si costruisca l’istogramma della variabile X .2. Si identifichi il valore della mediana e si calcoli un indice di variabilità di X .3. Supponendo che dalla produzione vengano scartate le lamine con spessore minore

di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito,la percentuale di lamine eliminate.

8.39

Esercizio 26 (T 248, 29.01.2009, 1). Il seguente prospetto riporta i valori rilevati in corri-spondenza a 8 unità statistiche con riferimento a un carattere qualitativo X e a un caratterequantitativo Y :

X a b b c a a c cY 30 20 24 50 40 50 40 30

1. Si ricostruisca la mutabile statistica X e se ne dia una rappresentazione grafica.2. Si riassumano con opportuni indici di posizione e di variabilità le distribuzioni X e

Y , commentando opportunamente i risultati ottenuti.3. Si indichi l’intervallo dei possibili valori che può assumere la media armonica di Y .4. Si definiscano le relazioni esistenti rispettivamente tra le medie e le varianze di Y e

di W = 100−2Y e si calcolino quindi media e varianza di W . -8.40

Esercizio 27 (P 001, 10.03.1995, 1). Data la variabile statistica X con distribuzione difrequenze

x j 1 2 4 7n j 8 10 6 40

calcolare M(X) e Var(X). Calcolare inoltre la media aritmetica e la varianza delle v.s.

Y = 6+X , Z = 7X , W = X3.8.41

Esercizio 28 (P 001, 10.03.1995, 4). Date le v.s. X e Y caratterizzate dalle seriazioni (conclassi chiuse a destra)

xi ni10 a 15 2115 a 25 3825 a 50 5150 a 75 20

yi ni100 a 110 30110 a 150 18150 a 200 21200 a 250 21

fornire un’adeguata rappresentazione grafica delle due distribuzioni e confrontarne mediae variabilità.

8.42

133

Page 135: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Soluzione 29 (Esercizio 27). Procediamo, in primo luogo, al calcolo della media aritme-tica di X, M(X) = 1

n ∑ki=1 xini, e della varianza di X

xi ni xini x2i ni

1 8 8 82 10 20 404 6 24 967 40 280 1960

64 332 2104

OtteniamoM(X) =

164

332 = 5.1875

e, utilizzando la formula operativa della varianza:

Var(X) =[M (X−µ)2

]=

= M(X2)−[M(X2)

]=

=1

64332−5.18752 =

= 32.875−26.9102 = 5.9648.

Per ricavare la media aritmetica e la varianza delle variabili statistiche Y = 6+ X eZ = 7X, ricordiamo che l’operatore media aritmetica è un operatore lineare e, quindi,

M(aX +b) = aM(X)+b,

mentre per l’operatore varianza vale

Var(aX +b) = a2Var(X).

Abbiamo, quindi:

M(Y ) = M(6+X) = 6+M(X) = 6+5.1875 = 11.1875M(Z) = M(7X) = 7M(X) = 7 ·5.1875 = 36.3125.

Per ottenere media e varianza di W = X3 occorre costruire la variabile statistica W,trasformando le modalità xi di X in x3

i , e procedere con i calcoli(si osserva come W non sia una trasformazione lineare di X)

wi = x3i ni wini w2

i ni1 8 8 88 10 80 640

64 6 384 24576343 40 13720 4705960

64 14192 4731184

Abbiamo:M(W ) = M(X3) =

164

14192 = 221.75

e

Var(W ) = M(W 2)−[M(W 2)

]=

=164

4731184−221.752 =

= 73924.75−49173.0625 = 24751.6875.

134

Page 136: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8.43

8.44

8.45Soluzione 30 (Esercizio 28). Siamo in presenza di un carattere quantitativo con valoriraggruppati in classi. Occorre, quindi, procedere al calcolo delle densità di frequenzaper costruire gli istogrammi delle due distribuzioni.

xi ni di10 a 15 21 4.2015 a 25 38 3.8025 a 50 51 2.0450 a 75 20 0.80

10 15 25 50 75

4.2

3.8

2.04

0.8

yi ni di100 a 110 30 0.30110 a 150 18 0.45150 a 200 21 0.42200 a 250 21 0.42

100 150 200 250

3

0.450.420.42

Per procedere al confronto di media e variabilità, procediamo al calcolo della mediaaritmetica e del coefficiente di variazione di X e di Y , considerando le serie statisticheottenute sostituendo alle classi i corrispondenti valori centrali.

xi ni xini x2i ni

12.5 21 262.5 3281.2520 38 760 15200.00

37.5 51 1912.5 71718.7562.5 20 1250 78125.00

130 4185 168325.00

M(X) = 1130 4185 = 32.1923,

Var(X) = M(X2)−[M(X2)

]=

= 1130 168325−32.19232 =

= 1294.8077−1036.3447 = 258.4630.CV (X) = σX

µX= 16.0768

32.1923 = 0.4994.

yi ni yini y2i ni

105 30 3150 330750130 18 2340 304200175 21 3675 643125225 21 4725 1063125

90 13890 2341200

M(Y ) = 190 13890 = 154.3333,

Var(Y ) = M(Y 2)−[M(Y 2)

]=

= 190 2341200−154.33332 =

= 26013.3333−23818.7778 = 2194.5556.CV (Y ) = σY

µY= 46.8461

154.3333 = 0.3035.

Possiamo, quindi, concludere che:

• il livello medio di Y è superiore a quello di X

µX = 32.1923, µY = 154.3333;

• la variabile X presenta un livello di variabilità superiore a Y

CV (X) = 0.4994, CV (Y ) = 0.3035.8.46

8.47

135

Page 137: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 138: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 9Variabilità (3)

9.1

Indice

1 Ulteriori considerazioni su media e varianza di una trasformazione lineare 1371.1 X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1381.2 X∗ = X−µX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1391.3 Z = X−µX

σX= 1

σXX− µX

σX= X∗

σX(variabile statistica standardizzata) . . . . 140

1.4 U = XσX

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1411.5 W = 2X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 9.2

1 Ulteriori considerazioni su media e varianza di unatrasformazione lineare

ConsiderazioniSe

Y = aX +b

alloraM(Y ) = aM(X)+b operatore lineare

Var(Y ) = a2Var(X) non è un operatore lineare9.3

Si considerano, a titolo di esempio, le seguenti trasformazioni lineari di una seriazionestastica X

1.X∗ = X−µX

2.Z =

X−µX

σX

3.U =

XσX

4.W = 2X

9.4

137

Page 139: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.1 X

valori centrali X ni fi ai di xini x2i ni

3 2 a 4 4 0.2 2 0.1 12 366 4 a 8 8 0.4 4 0.1 48 2889 8 a 10 8 0.4 2 0.2 72 648

20 1 132 972

M(X) = 6.6 = µ

Var(X) = 48.6−6.62 = 5.04sqm(X) = σX = 2.245

−5 0 5 10 15 20

0.0

0.1

0.2

0.3

0.4

0.5

9.5

138

Page 140: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.2 X∗ = X−µX

valori centrali X ni fi ai di xini x2i ni

-3.6 −4.6 a −2.6 4 0.2 2 0.1 -14.4 51.84-0.6 −2.6 a 1.4 8 0.4 4 0.1 -4.8 2.882.4 1.4 a 3.4 8 0.4 2 0.2 19.2 46.08

20 1 0 100.8

M(X∗) = 0 = µ

Var(X∗) = 5.04−02 = 5.04sqm(X∗) = σX∗ = 2.245o più semplicementeM(X∗) = M(X)−M(X) = 0Var(X∗) = 12 ·Var(X) =Var(X)

−5 0 5 10 15 20

0.0

0.1

0.2

0.3

0.4

0.5

9.6

139

Page 141: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.3 Z = X−µXσX

= 1σX

X− µXσX

= X∗σX

(variabile statistica standardizzata)

valori centrali X ni fi ai di xini x2i ni

-1.6036 −2.049 a −1.1581 4 0.2 0.8909 0.2245 -6.4143 10.2857-0.2673 −1.1581 a 0.6236 8 0.4 1.7817 0.2245 -2.1381 0.57141.069 0.6236 a 1.5145 8 0.4 0.8909 0.449 8.5524 9.1429

20 1 0 20

M(Z) = 0 = µ

Var(Z) = 1−02 = 1sqm(Z) = σZ = 1o più semplicementeM(Z) = M(X)/σ −µ/σ = µ/σ −µ/σ = 0Var(Z) =Var(X)/σ2 = σ2/σ2 = 1

−5 0 5 10 15 20

0.0

0.1

0.2

0.3

0.4

0.5

9.7

140

Page 142: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.4 U = XσX

valori centrali X ni fi ai di xini x2i ni

1.3363 0.8909 a 1.7817 4 0.2 0.8909 0.2245 5.3452 7.14292.6726 1.7817 a 3.5635 8 0.4 1.7817 0.2245 21.3809 57.14294.0089 3.5635 a 4.4544 8 0.4 0.8909 0.449 32.0713 128.5714

20 1 58.7975 192.8571

M(U) = 2.9399 = µ

Var(U) = 9.6429−2.93992 = 1sqm(U) = σU = 1o più semplicementeM(U) = M(X)/σ

Var(U) =Var(X)/σ2 = σ2/σ2 = 1

−5 0 5 10 15 20

0.0

0.1

0.2

0.3

0.4

0.5

9.8

141

Page 143: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.5 W = 2X

valori centrali X ni fi ai di xini x2i ni

6 4 a 8 4 0.2 4 0.05 24 14412 8 a 16 8 0.4 8 0.05 96 115218 16 a 20 8 0.4 4 0.1 144 2592

20 1 264 3888

M(W ) = 13.2 = µ

Var(W ) = 194.4−13.22 = 20.16sqm(W ) = σW = 4.49o più semplicementeM(W ) = 2 ·M(X)Var(W ) = 22Var(X) = 4 ·Var(X)

−5 0 5 10 15 20

0.0

0.1

0.2

0.3

0.4

0.5

9.9

Definizione 1 (Variabile statistica standardizzata). Data una variabile statistica X conmedia µX e varianza σ2

X si definisce variabile statistica standardizzata la seguente variabilestatistica

Z =X−µX

σX

Applicando le proprietà dell’operatore media e della varianza si dimostra che

M(Z) = 0 e Var(Z) = 1

La variabile statistica standardizzata

• non ha unità di misura• non ha ordine di grandezza• risulta invariante rispetto a eventuali trasformazioni lineari operate su X

Se Y = aX +b abbiamo, infatti:

Y −µY

σY=

aX +b− (aµX +b)aσX

=aX−aµX

aσX=

a(X−µX )

aσX=

X−µX

σX

9.10

142

Page 144: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 10Variabilità (4)

10.1

Indice

1 La varianza di un miscuglio (h gruppi) 1431.1 σ2

Between . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1441.2 σ2

Within . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1441.3 Applicazioni del risultato di scomposizione della varianza . . . . . . . . . 1471.4 Il Rapporto di Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . 148

2 Esercizi 151

3 La diseguaglianza di Tchebychev 152 10.2

1 La varianza di un miscuglio (h gruppi)

Si considerino i dati elementariv1,v2, . . . ,vn

riuniti in h gruppi1 2 . . . h

n1 n2 . . . nh

µ1 µ2 . . . µhσ2

1 σ22 . . . σ2

h

(il raggruppamento in tabelle è uno dei possibili).

Il singolo valore viene ora indicato con xi j:j-esima osservazione ( j = 1,2, . . . ,ni) nel gruppo i (i = 1,2, . . . ,h) 10.3

• media gruppo i-esimo

µi =1ni

ni

∑j=1

xi j

• varianza gruppo i-esimo

σ2i =

1ni

ni

∑j=1

(xi j−µi)2

10.4In base alla proprietà associativa della media aritmetica

µ =1n

k

∑i=1

µini

la media generale è la media delle medie di gruppo.

143

Page 145: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Teorema 1 (Scomposizione della varianza). La varianza di tutte le unità statistiche è parialla somma di varianza between e varianza within

σ2 = σ

2B +σ

2W

10.5

1.1 σ2Between

Idea riguardo alla diversità dei gruppi:quanto sono diversi i gruppi tra di loro• quanto sono diverse le medie di gruppo µi• varianza delle medie di gruppo µi

Definizione 2 (σ2Between).

σ2B =

1n

h

∑i=1

(µi−µ)2ni

10.6

1.2 σ2Within

Idea riguardo alla variabilità all’interno dei gruppi:quanto sono variabili i gruppi al loro interno• media delle varianze dei gruppi σ2

i

Definizione 3 (σ2Within).

σ2W =

1n

h

∑i=1

σ2i ni

10.7

Dimostrazione.

σ2 =

1n

h

∑i=1

ni

∑j=1

(xi j−µ)2 =1n

h

∑i=1

ni

∑j=1

(xi j−µi +µi−µ)2 =

=1n

h

∑i=1

ni

∑j=1

[(xi j−µi)+(µi−µ)]2 =

=1n

h

∑i=1

ni

∑j=1

[(xi j−µi)

2 +(µi−µ)2 +2(xi j−µi)(µi−µ)]=

=1n

h

∑i=1

ni

∑j=1

(xi j−µi)2 +

1n

h

∑i=1

ni

∑j=1

(µi−µ)2 +1n

h

∑i=1

ni

∑j=1

2(xi j−µi)(µi−µ) =

=1n

h

∑i=1

ni1ni

ni

∑j=1

(xi j−µi)2 +

1n

h

∑i=1

ni

∑j=1

(µi−µ)2 +1n

h

∑i=1

ni

∑j=1

2(xi j−µi)(µi−µ) =

=1n

h

∑i=1

niσ2i +

1n

h

∑i=1

(µi−µ)2

ni

∑j=1

1

ni

+2n

h

∑i=1

(µi−µ)

ni

∑j=1

(xi j−µi)

0

=

=1n

h

∑i=1

niσ2i +

1n

h

∑i=1

(µi−µ)2ni +2n

h

∑i=1

(µi−µ) ·0 =

=1n

h

∑i=1

σ2i ni +

1n

h

∑i=1

(µi−µ)2ni = σ2Within +σ

2Between

10.8

144

Page 146: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 4. Si consideri la seguente popolazione di unità statistiche raggruppate in 3gruppi

1 2 34 5 4 6 66 7 6 8 8

Abbiamo

µ1 =14(4+5+6+7) = 5.5

µ2 =14(4+6+6+8) = 6

µ3 =12(6+8) = 7

e con riferimento alla proprietà associativa della media aritmetica:

µ =1n

3

∑i=1

µini =110

60 = 6

10.9

A partire dalla variabile statistica medie di gruppo

i µi ni1 5.5 42 6 43 7 2

10

le cui modalità sono le medie di gruppo, con frequenze le numerosità di gruppo, possiamocalcolare media e varianza

µi ni µini µ2i ni

5.5 4 22 1216 4 24 1447 2 14 98

10 60 363

µ =1n

h

∑i=1

modalità · frequenze =1n

3

∑i=1

µini =110

60 = 6

σ2B =

1n

3

∑i=1

(µi−µ)2ni =1n

3

∑i=1

µ2i ni−µ

2 =1

10363−62 = 36.3−36 = 0.3

la varianza delle medie di gruppo è la varianza Between. 10.10

Calcoliamo ora le varianze nei tre gruppi:

σ21 =

14(42 +52 +62 +72)−5.52 =

14

126−30.25 = 31.5−30.25 = 1.25

•σ

22 =

14(42 +62 +62 +82)−62 =

14

152−36 = 38−36 = 2

•σ

23 =

12(62 +82)−72 =

12

100−49 = 50−49 = 1.

145

Page 147: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

10.11È possibile ricostruire la variabile statistica varianze di gruppo

i σ2i ni

1 1.25 42 2 43 1 2

10

le cui modalità sono le varianze di gruppo, con associate come frequenze le rispettivenumerosità di gruppo.La media di tale variabile statistica risulta

σ2i ni σ2

i ni1.25 4 52 4 81 2 2

10 15

σ2W =

1n

h

∑i=1

modalità · frequenze =1n

3

∑i=1

σ2i ni =

110

15 = 1.5.

10.12

La varianza generale calcolata su tutte le unità statistiche può essere ottenuta come

σ2 = σ

2B +σ

2W = 0.3+1.5 = 1.8

Si può, infatti, verificare che

σ2 =

110

(42 +52 +62 +72 +42 +62 +62 +82 +62 +82)−62

=1

10378−36 = 37.8−36 = 1.8

ovvero

xi ni x2i ni

4 2 325 1 256 4 1447 1 498 2 128

10 378

σ2 = M(X2)−µ

2 =1

10378−62 = 37.8−36 = 1.8

10.13

146

Page 148: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.3 Applicazioni del risultato di scomposizione della varianza

Il risultato di scomposizione della varianza

σ2 = σ

2Between +σ

2Within

trova largo impiego nelle analisi di Marketing:è opportuno effettuare una segmentazione delle unità statistiche in funzione della variabiledi raggruppamento utilizzata nello scomporre la varianza?

Esempi

• Studio del livello di spesa in funzione della fascia di età oppure della regionegeografica.

• Definizione della strategia di comunicazione aziendale: pianificare un’unica cam-pagna o adottare comunicazioni diverse in funzione, ad esempio, dell’età o dellazona di appartenenza?

10.14Il risultato di scomposizione della varianza consente, infatti, di verificare se il comporta-mento delle unità statistiche può essere ritenuto sostanzialmente diverso tra i gruppi.

• La varianza Between, varianza delle medie di gruppo, misura quanto sono tra lorodiverse le medie di gruppo µie, quindi, quanto diverso è il comportamento tra i soggetti appartenenti a diversigruppi.

• La varianza Within, media delle varianze di gruppo, fornisce una sintesi del livellodi variabilità presente in ciascun gruppo: una sintesi di quanto le medie di grupposono rappresentative dei valori all’interno di ciascun gruppo.

10.15

Quando ha senso effettuare una segmentazione delle unità statistiche?Devono essere verificate entrambe le seguenti condizioni:

1. la varianza Between deve assumere valore grande

σ2 ≥ σ

2B 0

2. la varianza Within deve essere piccola

σ2 σ

2W ≥ 0

• medie di gruppo tra loro diverse• medie di gruppo rappresentative dei rispettivi gruppi

(omogeneità dei valori all’interno di ciascun gruppo)10.16

147

Page 149: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.4 Il Rapporto di Correlazione

Un indice sintetico che consente di stabilire se è opportuno effettuare una segmentazionedelle unità statistiche è il Rapporto di Correlazione(normalizzazione della varianza Between)

Definizione 5 (Rapporto di correlazione).

η2 =

σ2B

σ2

Proprietà• η2 = 0↔ σ2

B = 0medie di gruppo tutte uguali

• η2 = 1↔ (σ2B = σ2 e σ2

W = 0)medie di gruppo diverse e fortemente rappresentative delle distribuzioni di gruppo,che risultano degeneri in quanto le varianze di gruppo sono tutte pari a 0

10.17Con riferimento all’esempio precedente abbiamo ottenuto

σ2B = 0.3 σ

2W = 1.5 σ

2 = 1.8

quindi

η2 =

0.31.8

= 0.1667

il rapporto di correlazione assume un valore molto basso;non ha, quindi, senso effettuare una segmentazione delle unità statistiche in funzione dellavariabile di raggruppamento che è stata presa in considerazione. 10.18

Un’analisi grafica preliminare è sempre utile al fine di esaminare la possibilità di effet-tuare una segmentazione. Possiamo rappresentare i valori assunti dalle unità statisticheappartenenti ai 3 gruppi

1 2 34 5 4 6 66 7 6 8 8

01

23

45

67

89

10

Gruppo 1 Gruppo 2 Gruppo 3

10.19

Possiamo aggiungere al grafico precedente le medie di gruppo

148

Page 150: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

01

23

45

67

89

10

Gruppo 1 Gruppo 2 Gruppo 3

10.20

Dall’analisi del grafico si evince un’elevata dispersione dei valori di alcuni gruppi dallerispettive medie

01

23

45

67

89

10

Gruppo 1 Gruppo 2 Gruppo 3

→ possibile sintomo che le medie non sono rappresentative 10.21

149

Page 151: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Un’efficace analisi grafica può anche essere condotta confrontando i Box & WhiskersPlot delle distribuzioni di gruppo, qui riferiti a esempi diversi da quello precedentementediscusso, con una numerosità adeguata delle unità statistiche.

Esempio 6 (Distribuzione dello stipendio rispetto al genere).

0 1

1020

3040

10.22

Esempio 7 (Distribuzione dello stipendio rispetto al titolo di studio).

1 2 3 4 5

1020

3040

10.23

150

Page 152: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 8 (Distribuzione dello stipendio rispetto al genere & titolo di studio).

0 1 0 2 0 3 0 4 0 5 1 1 1 2 1 3 1 4 1 5

1020

3040

10.24

2 Esercizi

Esercizio 9 (T 206, 25.09.2003, 1). La qualità dei prodotti di un’azienda produttricedi materiali edili, strutturata su due differenti linee produttive (Li; i = 1,2), è misurataattraverso la resistenza a pressione (Y ) rilevata sui provini prodotti dalle due linee.Nel seguente prospetto sono riportati, per ciascuna delle due linee, la media ed il coeffi-ciente di variazione di Y , calcolati su un certo numero di provini:

linea n provini µi CViL1 50 32 0.065L2 100 29 0.073

1. Calcolare media e varianza di Y sul totale dei 150 provini.2. Valutare, tramite un opportuno indice, se possiamo ritenere diversi i livelli medi di

resistenza dei prodotti nelle due linee.10.25

Esercizio 10 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le di-stribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto allivello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’):

’visitatori esperti’hi−1 a hi fi5 a 10 0.40

10 a 20 0.4020 a 25 0.20

1.00

’visitatori occasionali’hi−1 a hi fi5 a 10 0.76

10 a 20 0.0820 a 25 0.16

1.00

1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le duetipologie di visitatori e le si confronti mediante opportuni indici di posizione e divariabilità;

2. sapendo che la media di Y , riferita a tutte le 80 unità statistiche, è pari a 11.625 eche il numero di soggetti esperti è pari a 30 si calcoli, applicando il risultato dellascomposizione della varianza, il valore della varianza della variabile Y riferita atutte le 80 unità statistiche. -

10.26

151

Page 153: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 La diseguaglianza di Tchebychev

Definizione 11 (Diseguaglianza di Tchebychev). Sia X una variabile statistica con mediaµ = M(X) e varianza σ2 =Var(X).Assegnato un qualsiasi valore t > 1 si consideri l’intervallo dei valori di X , centratorispetto alla media µ e di raggio tσ

(µ− tσ ,µ + tσ).

La frequenza relativa, riferita alle unità statistiche che assumono valore al di fuori di taleintervallo, è al più eguale a 1

t2

∑i:|xi−µ|≥tσ

fi ≤1t2

10.27

∑i:|xi−µ|≥tσ

fi ≤1t2

di conseguenza la frequenza relativa, riferita alle unità statistiche che assumono valoreall’interno dell’intervallo, sarà almeno pari a 1− 1

t2

valori tipicit 1

t2 1− 1t2

2 0.25 0.753 0.1111 0.88894 0.0625 0.93755 0.04 0.96

10.28

152

Page 154: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 12.

µµ − tσ µ − tσ

• l’area in GRIGIO è al più pari a 1t2

• l’area in BIANCO è almeno pari a 1− 1t2

10.29

Esempio 13.

10 15 20 25

0.00

0.05

0.10

0.15

0.20

0.25

µX = 16.6986 σX = 2.9653 t = 2

• l’area in GRIGIO è al più pari a 122 = 0.25 = 25%

• l’area in BIANCO è almeno pari a 1− 122 = 0.75 = 75%

10.30

153

Page 155: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 14.

350 400 450

µX = 375.8302 σX = 23.3231 t = 2.5

• l’area in GRIGIO è al più pari a 12.52 = 0.16 = 16%

• l’area in BIANCO è almeno pari a 1− 12.52 = 0.84 = 84%

10.31

Esempio 15.

77.0 77.5 78.0 78.5

µX = 78.0939 σX = 0.3815 t = 2.5

• l’area in GRIGIO è al più pari a 12.52 = 0.16 = 16%

• l’area in BIANCO è almeno pari a 1− 12.52 = 0.84 = 84%

10.32

154

Page 156: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 11Indici di forma

11.1

Indice

1 Asimmetria 1551.1 Simmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1551.2 Asimmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1581.3 Due particolari situazioni di asimmetria . . . . . . . . . . . . . . . . . . 1591.4 Caratterizzazione indici di posizione (1) . . . . . . . . . . . . . . . . . . 1601.5 Caratterizzazione indici di posizione (2) . . . . . . . . . . . . . . . . . . 160

2 Misure di asimmetria 161

3 Curtosi 1643.1 Tipologie curtosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

4 Considerazioni conclusive sui Box & Whiskers plot 166

5 Esercizi 167 11.2

1 Asimmetria

1.1 Simmetria

Definizione 1 (funzione (continua) simmetrica). Una funzione f (x) si definisce simme-trica rispetto a un centro c se ∀k > 0 vale:

f (c− k) = f (c+ k)

c c c+kc−k

11.3

155

Page 157: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 2. Anche la seguente funzione (continua a intervalli) è simmetrica rispetto alcentro c

c c+kc−k

11.4

Esempio 3. Anche la seguente funzione (di variabile discreta, ovvero definita su uninsieme di valori discreti) è simmetrica rispetto al centro c

c c+kc−k11.5

Definizione 4 (Variabile statistica simmetrica). Una variabile statistica X si definiscesimmetrica rispetto al centro c se:

• per ogni xi = c− k• esiste un valore corrispondente x j = c+ k (simmetrico)

tale chef (xi) = f (x j)

X simmetrica→M(X) = cSi ricorda che la media aritmetica è il baricentro (punto di equilibrio delle frequenze) diogni distribuzione;

156

Page 158: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

in presenza di una variabile statistica X con distribuzione simmetrica rispetto a c vale

M(X) = c = baricentro

11.6

X simmetrica→ x0.5 = cOsservando il grafico di una variabile statistica simmetrica

cc

si evince che (almeno) metà delle unità statistiche hanno valore non superiore a c e (al-meno) metà delle unità statistiche hanno valore non inferiore a c; il punto c può, quindi,essere interpretato come la mediana della distribuzione.

11.7

X simmetrica→Moda = cSe la moda esiste, coincide con il centro di simmetria

c c

11.8

X simmetrica→M[(X−µ)2r+1

]= 0,r = 0,1,2, . . .

Esplicitando l’espressione del momento centrale di ordine dispari rispetto alla mediaaritmetica abbiamo

M[(X−µ)2r+1]= r

∑i=1

(xi−µ)2r+1 fi = 0,r = 0,1,2, . . .

cc

Scarti di eguale entità ma con segno opposto sono ponderati con le medesime frequenze,quindi si compensano.Si ricordi per r = 0 l’interpretazione della media aritmetica come baricentro di una distri-buzione di frequenze, M(X−µ) = 0.

11.9

157

Page 159: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

X simmetrica→ x0.5− xp = x1−p− x0.5, ovvero x0.5 =12 (xp + x1−p) con 0≤ p < 0.5

La frequenza delle unità statistiche con modalità minori o eguali a xp coincide con quelladelle unità statistiche con modalità maggiori o eguali a x1−p.

11.10

Riepilogo•

simmetria → M(X) = x0.5 = c

•M(X) = x0.5 = c ?→ simmetria

Il fatto che la media aritmetica coincida con la mediana è solo un sintomo del fattoche la distribuzione possa essere simmetrica.

•simmetria → M

[(X−µ)2r+1]= 0, r = 0,1,2, . . .

•M[(X−µ)2r+1]= 0, r = 0,1,2, . . . → simmetria

Se tutti i momenti centrali rispetto alla media sono nulli allora la distribuzione èsimmetrica.

– Il momento centrale di ordine 1 rispetto alla media, M(X−µ), è sempre nullo,a prescindere dalla forma della distribuzione.

– Se verifico che il momento centrale di ordine 3 rispetto alla media, M[(X−µ)3

],

è nullo, ho solo un sintomo del fatto che la distribuzione possa essere simme-trica.

simmetria→ x0.5− xp = x1−p− x0.5 ovvero x0.5 =12(xp + x1−p),0≤ p < 0.5

11.11

11.121.2 Asimmetria

Esempio 5. Una funzione non simmetrica si definisce asimmetrica.

158

Page 160: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

11.13

1.3 Due particolari situazioni di asimmetria

Definizione 6. Asimmetria positiva Una distribuzione unimodale si definisce asimmetricapositiva quando 1

2 (xp + x1−p)> x0.5 per ogni 0≤ p < 0.5.Una distribuzione asimmetrica positiva è, quindi, caratterizzata da una coda destra piùpesante (lunga) della sinistra (fat/heavy right tail). È anche detta obliqua verso destra.

x0.5xp x1−p

11.14

Definizione 7. Asimmetria negativa Una distribuzione unimodale si definisce asimmetri-ca negativa quando 1

2 (xp + x1−p)< x0.5 per ogni 0≤ p < 0.5.Una distribuzione asimmetrica negativa è, quindi, caratterizzata da una coda sinistra piùpesante (lunga) della destra (fat/heavy left tail). È anche detta obliqua verso sinistra.

x0.5xp x1−p

11.15

159

Page 161: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1.4 Caratterizzazione indici di posizione (1)

Nel caso di una distribuzione asimmetrica positiva vale il seguente ordinamento:

Moda < x0.5 < µ

x0.5Moda µ

11.16

1.5 Caratterizzazione indici di posizione (2)

Nel caso di una distribuzione asimmetrica negativa vale il seguente ordinamento:

µ < x0.5 < Moda

x0.5 Modaµ

11.17

160

Page 162: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Misure di asimmetria

Definizione 8 (Indice di asimmetria di Gini - Confronto Normalizzato tra media e media-na).

µ− x0.5

D1(x0.5)=

µ− x0.5

M[|X− x0.5|]• distribuzione asimmetrica positiva → 0 < µ−x0.5

M[|X−x0.5|]≤+1

• distribuzione asimmetrica negativa → −1≤ µ−x0.5M[|X−x0.5|]

< 0

• distribuzione simmetrica → µ−x0.5M[|X−x0.5|]

= 0

(cfr. Frosini 1990 Lezioni di Statistica. Parte prima, Vita e Pensiero, Milano) 11.18

Definizione 9 (Indice di Fisher (skewness)).

γ1 =M[(X−µ)3

]σ3 = M

[(X−µ

σ

)3]

È un indice frequentemente utilizzato in ambito finanziario. Si tratta di un indice relativo.

OsservazioneDalla seconda formulazione dell’indice si evince che γ1 è il momento terzo della variabilestandardizzata. Quindi se Y = a+bX , abbiamo:

γ1(Y ) = γ1(a+bX) = γ1(X).

11.19

OsservazioneL’indice di Fisher è solo sintomo di simmetria/asimmetria !!

• se γ1 > 0→ tendenza alla asimmetria positiva• se γ1 = 0→ tendenza alla simmetria• se γ1 < 0→ tendenza alla asimmetria negativa

È, stato mostrato in letteratura, come l’indice γ1 possa assumere valore nullo anche inpresenza di asimmetria positiva o negativa.Gli indici considerati sono solo sintomo di simmetria/asimmetria !!Un valore positivo dell’indice di Gini indica, ad esempio, che la distribuzione è sicu-ramente asimmetrica e che non sarà caratterizzata da asimmetria negativa secondo laDefinizione 7 riportata sopra.

OsservazioneL’indice di Fisher può, inoltre, non rispettare la definizione di ordinamento tra distribu-zioni asimmetriche descritta in Frosini 1990 Lezioni di Statistica. Parte prima, Vita ePensiero, Milano.

11.20

Definizione 10 (Ordinamento tra distribuzioni asimmetriche). Date due distribuzioni X eY entrambe asimmetriche positive (negative), allora Y presenta asimmetria superiore a Xse yp− y0.5 ≥ xp− x0.5 (ovvero yp− y0.5 ≤ xp− x0.5) per ogni 0 < p < 1.

11.21

Esempio 11. Si calcolino le misure di asimmetria µ−x0.5M[|X−x0.5|]

e γ1 con riferimento allaseguente variabile statistica

xi ni Ni1 1 12 2 33 4 74 3 10

10

161

Page 163: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

La mediana risulta:x0.5 =

x(5)+ x(6)2

= 3.

11.22

Calcolo dello scostamento assoluto dalla mediana

xi ni |xi− x0.5| |xi− x0.5|ni1 1 2 22 2 1 23 4 0 04 3 1 3

10 7

D1(x0.5) =1n

h

∑i=1|xi− x0.5|ni =

110

7 = 0.7.

11.23

Calcolo di media e varianzaxi ni xini x2

i ni1 1 1 12 2 4 83 4 12 364 3 12 48

10 29 93

M(X) = µ = 2.9M(X2) = 9.3Var(X) = σ2 = M(X2)−µ2 = 9.3−2.92 = 9.3−8.41 = 0.89σ = 0.9434.

Otteniamo, quindiµ− x0.5

M[|X− x0.5|]=

2.9−30.7

=−0.1429.

Sintomo di distribuzione caratterizzata da asimmetria negativa. 11.24

Calcolo di

M[(X−µ)3]= 1

n

k

∑i=1

(xi−µ)3ni

xi ni (xi−µ) (xi−µ)3 (xi−µ)3ni1 1 −1.9 −6.859 −6.8592 2 −0.9 −0.729 −1.4583 4 0.1 0.001 0.0044 3 1.1 1.331 3.993

10 −4.320

M[(X−µ)3]= 1

10(−4.32) =−0.432

γ1 =M[(X−µ)3

]σ3 =

−0.4320.94343 =− 0.432

0.8396=−0.5145

indizio di asimmetria negativa. 11.25

Si può controllare come sia debolmente verificata la condizione sui percentili per unadistribuzione caratterizzata da asimmetria negativa; si confronta in figura l’andamento di12 (xp + x1−p) rispetto a x0.5.

162

Page 164: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

0.0 0.1 0.2 0.3 0.4 0.5

01

23

45

x0.5

p11.26

Esempio 12 (Contro-esempio).

classi xi ni0 a 10 5 14

10 a 20 15 920 a 30 25 1230 a 40 35 8

• µ = 18.2558• M

[(X−µ)3

]= 193.4221

• x0.5 = 18.8889• σ = 11.1482• γ1 = 0.1396• µ−x0.5

M[|X−x0.5|]=−0.0631.

11.27Gli indici considerati danno informazioni discordanti. Si può controllare come, nel pre-sente caso, non sia verificata la condizione sui percentili per la definizione di asimmetrianegativa o positiva; si confronta in figura l’andamento di 1

2 (xp + x1−p) rispetto a x0.5.La distribuzione può solo essere qualificata come asimmetrica.

0.0 0.1 0.2 0.3 0.4 0.5

1015

2025

30

x0.5

p

11.28

163

Page 165: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Curtosi

Il concetto trova particolare utilizzo in finanza, ad esempio con riferimento alle serie deiprezzi relativi dei titoli o delle valute.Si confronta la forma della distribuzione con quella del modello Normale, che verràpresentato nella sezione sul calcolo delle Probabilità.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

11.29

3.1 Tipologie curtosi

Definizione 13. Distribuzione leptocurtica Una distribuzione si definisce leptocurticaquando presenta, rispetto alla Normale, una frequenza superiore nei valori sulle code enei valori intorno alla media (fat/heavy tails).

−5 0 5

0.0

0.1

0.2

0.3

distribuzione Normale

µ

11.30

164

Page 166: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Definizione 14. Distribuzione platicurtica Una distribuzione si definisce platicurtica quan-do presenta, rispetto alla Normale, una frequenza superiore nei valori intermedi tra lamedia e le code.

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.0

0.5

1.0

1.5

distribuzione Normale

µ

11.31

Definizione 15 (Indici di curtosi (kurtosis)).

γ2 =M[(X−µ)4

]σ4 = M

[(X−µ

σ

)4]

β2 =M[(X−µ)4

]σ4 −3 = M

[(X−µ

σ

)4]−3

• se la distribuzione è leptocurtica↔ γ2 > 3• se la distribuzione è platicurtica↔ γ2 < 3• se la distribuzione è mesocurtica↔ γ2 = 3

• se la distribuzione è leptocurtica↔ β2 > 0• se la distribuzione è platicurtica↔ β2 < 0• se la distribuzione è mesocurtica↔ β2 = 0

11.32

OsservazioneLa seconda formulazione degli indici fa riferimento al momento quarto della variabilestandardizzata.Quindi, se Y = a+bX , abbiamo

γ2(Y ) = γ2(X) e β2(Y ) = β2(X).

OsservazioneUna distribuzione si definisce mesocurtica se ha lo stesso indice di curtosi della Normaleγ2 = 3 ovvero β2 = 0.

11.33

165

Page 167: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Considerazioni conclusive sui Box & Whiskers plot

Si ricorda che possono essere utilizzati per avere una idea sintetica della distribuzionee per effettuare dei confronti. A tal fine occorrerà, quindi, tenere conto delle seguenticaratteristiche, riassunte nel Box & Whisker plot:

• livello medio della distribuzione, descritto da

x0.25, x0.5 e x0.75;

• presenza di valori anomali, che sono posizionati oltre i baffi;• variabilità della distribuzione, descritta da

x0.75− x0.25 e xmax− xmin;

• eventuale asimmetria della distribuzione, confrontando

x0.75− x0.5 e x0.5− x0.25.11.34

Riprendiamo l’Esempio su ’altezza della navata’ e lunghezza totale delle cattedrali inglesi.

g r

1520

2530

Distribuzione 'altezza della navata'

g r

6080

120

160

Distribuzione 'lunghezza totale'

Altezza della navata. Il valore della mediana per le cattedrali con stile gotico è simile aquello delle cattedrali con stile romanico (circa 23 metri). La distribuzione dell’altezzadelle cattedrali con stile romanico è caratterizzata da una minore variabilità, la differenzainterquartilica risulta circa pari a 3 metri, mentre per quelle in stile gotico è di circa 8metri. Entrambe le distribuzioni non sembrano presentare sintomi di asimmetria.

Lunghezza totale. Le cattedrali con stile romanico hanno generalmente una dimensionesuperiore a quelle in stile gotico: almeno il 75% di queste ultime ha una lunghezza infe-riore a 153 metri, valore mediano della lunghezza delle cattedrali in stile romanico. Lalunghezza delle cattedrali con stile gotico è caratterizzata da una maggiore variabilità, ladifferenza interquartilica risulta circa pari a 60 metri, mentre per quelle in stile romanicoil valore è di circa 30 metri. La distribuzioni per le cattedrali in stile romanico sembrapresentare una asimmetria negativa; in effetti, anche per la lunghezza delle cattedrali instile gotico abbiamo x0.75− x0.5 < x0.5− x0.25, ma solo per quelle in stile romanico valexmax− x0.5 < x0.5− xmin.

Sono, quindi, confermate le peculiarità dei due stili architettonici. Le cattedrali in stilegotico hanno, generalmente, un aspetto più slanciato rispetto a quelle in stile romani-co. L’elevato livello di variabilità, rilevato per gli edifici in stile gotico, che caratterizzaentrambe le caratteristiche considerate, può essere giustificato dalla presenza, in misu-ra pressoché uniforme, di cattedrali di piccola, media e grande dimensione. Non sonopresenti dati anomali. 11.35

166

Page 168: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 Esercizi

Esercizio 16 (T 206, 25.09.2003, 3). Data la seguente distribuzione di frequenze relativedella variabile statistica X :

xi 10 35 50 A Bfi 0.1 f2 0.3 f4 f5

1. Si determinino i valori di A, B, f2, f4 e f5 in modo che X risulti simmetrica rispettoalla mediana pari a 50.

2. Calcolare il valore dei seguenti momenti centrali: µ5 =M[(X−µ)5

], µ7 =M

[(X−µ)7

]e µ9 = M

[(X−µ)9

].

3. Si calcolino la varianza e l’indice di asimmetria delle variabili statistiche:

Y = X−2 e Z = 3X .11.36

Esercizio 17. Sia γ1(X) l’indice di asimmetria di una variabile statistica XSi ricavi l’espressione dell’indice di asimmetria della variabile statistica

Y = a+b ·X

in funzione di γ1(X).11.37

Esercizio 18 (T 231, 11.01.2007, 3). Si vuole studiare il numero di prodotti venduti infunzione del loro prezzo Y e del modo X in cui sono stati pubblicizzati (c1 = a mezzo stam-pa o c2 = a mezzo televisione). Nella seguente tabella vengono riportate le distribuzionidi frequenze relative condizionate riguardanti le v.s. Y |X = ci (i = 1,2):

Y |X = ci 0 a 10 10 a 20 20 a 30c1 0.5 0 0.5 1c2 0.1 0.8 0.1 1

1. Sapendo che le frequenze marginali assolute di X sono pari a 150 e 250, si rico-struisca la distribuzione delle frequenze congiunte.

2. Calcolare la moda ed un opportuno indice di mutabilità normalizzato per la v.s. X .3. Dopo aver rappresentato graficamente la distribuzione di frequenza della v.s. Y , se

ne calcoli la mediana, la media, la varianza e l’indice di asimmetria.4. Sia W = 2+ 3Y ; utilizzando le opportune proprietà si calcolino M(W ), Var(W ) e

l’indice di asimmetria di W .11.38

Esercizio 19 (T 250, 04.06.2009, 1). È data la seguente seriazione X :

i hi−1 a hi ni1 10 a 16 102 16 a 30 203 30 a h3 10

1. Si calcoli il valore da attribuire ad h3, sapendo che la densità di frequenza (assoluta)della terza classe risulta pari a 1.31579 e si dia una rappresentazione grafica delladistribuzione X .

2. Si calcolino media aritmetica, varianza e coefficiente di variazione di X .3. Si indichi, almeno approssimativamente, il valore assunto dalla media potenziata di

X di ordine −1000.4. Si indichi, senza effettuare calcoli e giustificando la risposta, se la distribuzione di

X è simmetrica.5. Si calcoli il valore da attribuire ad h3 nell’ipotesi che M(X) = 23. -

11.39

167

Page 169: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 170: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 12Rapporti statistici

12.1

Indice

1 Introduzione 169

2 Rapporti Statistici 171

3 Rapporti di composizione 171

4 Rapporti di densità 172

5 Indici di penetrazione relativi 172

6 Indici inter-popolazione 173

7 Indici inter-temporali 1747.1 Numeri indici a base fissa e a base mobile . . . . . . . . . . . . . . . . . 1747.2 Cambiamento di base (NIBF) . . . . . . . . . . . . . . . . . . . . . . . . 1767.3 Trasformazione NIBF in NIBM . . . . . . . . . . . . . . . . . . . . . . 1767.4 Variazione relativa media . . . . . . . . . . . . . . . . . . . . . . . . . . 1777.5 Passaggio da NIBM a NIBF . . . . . . . . . . . . . . . . . . . . . . . . 1787.6 Numeri Indici composti . . . . . . . . . . . . . . . . . . . . . . . . . . . 1797.7 Numeri Indici dei prezzi . . . . . . . . . . . . . . . . . . . . . . . . . . 1797.8 Numeri Indici di borsa . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

8 Rapporti di durata e ripetizione 182

9 Rapporti statistici tipici delle scienze del turismo 1839.1 Propensione turistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1839.2 Offerta turistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1839.3 Flussi turistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

10 Esercizi 184 12.2

1 Introduzione

Nelle scienze economiche e sociali vengono trattate misure di:

• conteggio (N)• quantità (Q)• prezzo/valore unitario• valore globale

169

Page 171: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

dove:• valore globale = N· prezzo unitario• valore globale = Q· prezzo unitario

In molte circostanze è più opportuno ricorrere a misure relative (ad esempio ’pro-capite’).

Si ricorda come le misure relative possano essere definite solo per caratteri misurati suscala per rapporti.

Consideriamo, quindi, le manifestazioni di una generica grandezza G, definita su scalaper rapporti, riferita alla popolazione P al tempo t:

G(P, t)

12.3

Definizione 1 (Cross section). Le manifestazioni di

G(P, t) = G(P)

per un t prefissato, al variare di P costituiscono una cross section.

Esempio 2. Il Prodotto Interno Lordo delle nazioni dell’area Euro nel 2013.12.4

Definizione 3 (Serie storica). Le manifestazioni di

G(P, t) = G(t) = xt

per P prefissato, al variare di t costituiscono una serie storica.

Riferimento temporale• istante t→ serie storica di stock

x0,x1,x2, . . . ,xT

(esempio: prezzo, popolazione residente, . . .)• intervallo (t−1, t)→ serie storica di flusso

x1,x2, . . . ,xT

(esempio: produzione, vendite, nascite, . . .)12.5

Rapporti tra due grandezze(per i confronti)

•R1 =

abitantichilometri quadrati

=Nt

km2

•R2 = consumo per abitante =

Qt

Nt•

R3 = produzione per ettaro =Qt

ha•

R4 = fatturato per addetto =Vt

Nt•

R5 = ROI, Return On Investment =Rt

It... 12.6

170

Page 172: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

OsservazioneNei precedenti rapporti R2, R3, R4 e R5:

• a numeratore figura una grandezza di flusso,• mentre a denominatore figura una grandezza di stock;

Occorre prestare particolare attenzione a tali situazioni e domandarsi, in particolare, aquale istante temporale è attribuita la grandezza a denominatore ed, eventualmente, comerenderla il più possibile rappresentativa di tutto l’intervallo temporale a cui è riferito ilnumeratore.

Ad esempio, una vendita di titoli con elevata rischiosità potrebbe avere una forte influenzasulla valutazione ROI. 12.7

2 Rapporti Statistici

Si presentano nel seguito i seguenti rapporti statistici

• rapporti di composizione• rapporti di densità (assoluti)• indici di penetrazione relativi (rapporti di rapporti)• indici inter-popolazione• indici inter-temporali• rapporti di durata (giacenza media di magazzino)• rapporti di ripetizione (rotazione stock)• alcuni rapporti statistici tipici delle scienze del turismo

12.8

3 Rapporti di composizione

Definizione 4. Data una popolazione P, i sottoinsiemi P1,P2, . . . ,Ph, Pi ⊂ P, i = 1,2, . . . ,h,costituiscono una partizione di P se:

1.⋃h

i=1 Pi = P2. Pi∩Pj =∅

12.9

quoziente =PARTETUTTO

171

Page 173: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Definizione 5. Data una popolazione P, una partizione di P e una grandezza G misurata

1. sugli elementi di P2. in uno stesso istante/intervallo temporale t

si definisce rapporto di composizione il rapporto

Ri =G(Pi, t)G(P, t)

quindih

∑i=1

Ri = 1 (oppure 100)

Le frequenze relative fi sono un esempio di rapporti di composizione. 12.10

4 Rapporti di densità

Definizione 6. Data una popolazione P, e due grandezze G, H, con H misura di ’dimen-sione’ di P si definisce rapporto di densità il rapporto

G(P, t)H(P, t)

.

12.11

Esempio 7. Ricettività alberghiera Italia (1998)Alberghi Camere N. medio N. medio

Esercizi N. % N. % camere letti????? 90 0.3% 8390 0.9% 93 177???? 2450 7.2% 175753 18.3% 72 135??? 12401 36.7% 450908 46.9% 36 74?? 10094 29.9% 210893 21.9% 21 39? 8767 25.9% 115001 12.0% 13 24

Tutti 33802 100.0% 960945 100.0% 28 55↑ ↑ ↑ ↑rapporti di composizione rapporti di densità

Fonte: Federalberghi, Primo rapporto sul sistema alberghiero in Italia, 1998

OsservazioneIl numero medio di camere è un rapporto di densità:

G(P, t)H(P, t)

• G(P, t): numero totale di camere della popolazione P• H(P, t): numero totale di alberghi della popolazione P

12.12

5 Indici di penetrazione relativi

Gli indici di penetrazione relativi vengono calcolati come rapporti fra

• quote di mercato• % di composizione• consumi pro-capite

172

Page 174: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

e sono utilizzati per effettuare confronti. Sono grandezze relative a partire dalle quali èpossibile derivare gli scostamenti percentuali da una specifica situazione di riferimento.L’esempio successivo riguarda il confronto tra le propensioni al consumo di una bevandain diverse zone di vendita 12.13

Esempio 8. Consumi giornalieri di birra popolazione 15-65 anni

(a) (b) (c) (d) (e) ( f )popol ·1000 litri ·1000 cc indice

zona n % n % pro-capite penetrazioneNO 10261 26.4 279.1 28.5 27.2 1.08NE 7259 18.7 204.7 20.9 28.2 1.12Centro 7412 19.1 240.1 24.5 32.4 1.28SI 13916 35.8 256.1 26.1 18.4 0.73Italia 38848 100.0 980.0 100.0 25.2 1.00

↑ ↑ ↑

rapporti di composizionerapporti

di densitàFonte: Indagini campionarie INRAN

Osservazioni• (e)Italia e ( f )Italia sono medie ponderate

• (e) = (c)(a) ( f ) = (d)

(b) =(c)

(c)Italia(a)

(a)Italia

=(c)(a)

(c)Italia(a)Italia

= (e)(e)Italia

• nel Centro Italia si registra un consumo pro-capite superiore del 28% rispetto allamedia nazionale (heavy consumers);

• nel Sud Italia e Isole si registra, invece, un consumo pro-capite inferiore del 27%rispetto alla media nazionale (light consumers).

12.14

6 Indici inter-popolazione

Definizione 9. Data una grandezza G espressa su scala per rapporti• riferita a due popolazioni P ed S• rilevata nello stesso (istante/periodo) t

si definisce indice interpopolazione relativo alla popolazione S con riferimento a P

PIS =G(S; t)G(P; t)

(poco usati: non utili per i confronti!!) 12.15

Esempio 10.consumo di vino in Franciaconsumo di vino in Italia

(nell’anno t)Se, ad esempio, nell’anno 2003 fosse risultato

consumo di vino in Franciaconsumo di vino in Italia

=V (F,2003)V (I,2003)

= 1.05

si sarebbe concluso che per ogni litro di vino consumato in Italia si erano consumati 1.05litri di vino in Francia 12.16

Esempio 11.consumo di vino pro/capite in Franciaconsumo di vino pro/capite in Italia

(più informativo)12.17

173

Page 175: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Indici inter-temporali

Definizione 12. Con riferimento a una serie storica, relativa a una grandezza G espressasu scala per rapporti, e riferita a un’unica popolazione P, si definisce numero indice altempo t (istante o periodo) con riferimento a t0

t0 It =G(P; t)G(P; t0)

=xt

xt0

(t0 è detto base)

tipologie• base fissa (t0)

montante unitario (grandezza relativa) rispetto a t0• base mobile (t0 = t−1)

montante unitario (grandezza relativa) rispetto a t−112.18

7.1 Numeri indici a base fissa e a base mobile

Definizione 13 (Numeri indici a base fissa).

G(P; t)G(P; t0)

=xt

xt0= t0 It , (t = 0,1, . . . ,T )

dove t0 è un prefissato istante o periodo di riferimento

Definizione 14 (Numeri indici a base mobile).

G(P; t)G(P; t−1)

=xt

xt−1= t−1It , (t = 1,2, . . . ,T )

dove t−1 è l’istante o periodo precedente a t12.19

OsservazioneSono collegati alle variazioni relative rispetto alla base:

• base fissaxt − xt0

xt0=

xt

xt0−1, (t = 0,1, . . . ,T )

• base mobilext − xt−1

xt−1=

xt

xt−1−1, (t = 1,2, . . . ,T )

(eventualmente esprimibili anche come percentuale)12.20

Esempio 15. Ricettività alberghiera mondiale

n.camere · 1000 (base 1994 = 100) base mobileanno Europa America NIBF NIBF NIBM NIBM

Europa America Europa America1994 5492 4494 100.00 100.00 − −1995 5653 4540 102.93 101.02 102.93 101.021996 5942 4598 108.19 102.31 105.11 101.281997 6030 4670 109.80 103.92 101.48 101.571998 6130 4700 111.62 104.58 101.66 100.64

Fonte: OMT; Horwath International, Arthur Andersen; 1998, stime

174

Page 176: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Osservazionebase = periodo di stabilità

12.21

Ricostruzione dei numeri indici per l’Europa con base fissa riferita all’anno 1994(t0 = 1994)

t0=1994It =G(t)

G(1994)

ad esempio:

t0=1994I1997 =G(1997)G(1994)

=60305492

= 1.0980

ovverox1997 : x1994 = 1994I1997 : 1

Il numero indice per l’anno 1997 riferito all’anno base 1994 risulta pari a 1.0980: lagrandezza relativa è 1.0980.Quindi tra il 1994 e il 1997 si è osservato un incremento complessivo pari al 9.80% =(1.0980−1) ·100%

anno = t xt t0=1994It interpretazione1994 5492 5492

5492 = 11995 5653 t0=1994I1995 =

56535492 = 1.0293 dal 1994 al 1995 +2.93%

1996 5942 t0=1994I1996 =59425492 = 1.0819 dal 1994 al 1996 +8.19%

1997 6030 t0=1994I1997 =60305492 = 1.0980 dal 1994 al 1997 +9.80%

1998 6130 t0=1994I1998 =61305492 = 1.1162 dal 1994 al 1998 +11.62%

12.22

su scala centesimalenumeri indici con base 1994 = 100

numeri indicicon base 1994 = 1

numeri indicicon base 1994 = 100

anno = t xt t0=1994It t0=1994It ·1001994 5492 5492

5492 = 1 1001995 5653 t0=1994I1995 =

56535492 = 1.0293 102.93

1996 5942 t0=1994I1996 =59425492 = 1.0819 108.19

1997 6030 t0=1994I1997 =60305492 = 1.0980 109.80

1998 6130 t0=1994I1998 =61305492 = 1.1162 111.62

12.23

Ricostruzione numeri indici a base mobile (t0 = t−1) per l’Europa

t0=t−1It =G(t)

G(t−1)

ad esempio, da:

1996I1997 =G(1997)G(1996)

=60305942

= 1.0148

si può concludere che tra il 1996 e il 1997 si è registrato un incremento pari a 1.48%.

anno = t xt t−1It t−1It ·100 interpretazione1994 5492 − −1995 5653 1994I1995 =

56535492 = 1.0293 102.93 dal 1994 al 1995 +2.93%

1996 5942 1995I1996 =59425653 = 1.0511 105.11 dal 1995 al 1996 +5.11%

1997 6030 1996I1997 =60305942 = 1.0148 101.48 dal 1996 al 1997 +1.48%

1998 6130 1997I1998 =61306030 = 1.0166 101.66 dal 1997 al 1998 +1.66%

12.24

175

Page 177: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7.2 Cambiamento di base (NIBF)

Cambio di base da t0 a t1

• avendo i dati originari, posso ricalcolare

t1 It =G(t)G(t1)

• partendo, invece, dagli indici con base fissa t0 abbiamo

t1 It =G(t)G(t1)

=G(t)/G(t0)G(t1)/G(t0)

=

G(t)G(t0)G(t1)G(t0)

=t0 Itt0 It1

12.25

Cambiamento di base per i numeri indici Europa con base fissa riferita all’anno 1994(t0 = 1994), nuova base 1995 (t1 = 1995)

anno = t xt t0=1994It t1=1995It1994 5492 1 t1=1995I1994 =

54925653 = 1

1.0293 = 0.97151995 5653 1.0293 t1=1995I1995 =

56535653 = 1.0293

1.0293 = 11996 5942 1.0819 t1=1995I1996 =

59425653 = 1.0819

1.0293 = 1.05111997 6030 1.0980 t1=1995I1997 =

60305653 = 1.0980

1.0293 = 1.06671998 6130 1.1162 t1=1995I1998 =

61305653 = 1.1162

1.0293 = 1.0844

12.26

7.3 Trasformazione NIBF in NIBM

È possibile ricostruire la serie dei numeri indici a base mobile anche disponendo solo deinumeri indici con base fissa t0; infatti, a partire dai dati originari abbiamo:

t−1It =G(t)

G(t−1)=

G(t)/G(t0)G(t−1)/G(t0)

=

G(t)G(t0)

G(t−1)G(t0)

=t0 It

t0 It−1

se disponiamo della serie dei numeri indici a base fissa t0(rapporto di NIBF contigui)

anno = t xt t0=1994ItG(t)

G(t−1) = t−1It t−1It =t0 It

t0 It−1

1994 5492 1 − −1995 5653 1.0293 1994I1995 =

56535492 = 1.0293 t0 I1995

t0 I1994= 1.0293

1 = 1.0293

1996 5942 1.0819 1995I1996 =59425653 = 1.0511 t0 I1996

t0 I1995= 1.0819

1.0293 = 1.0511

1997 6030 1.0980 1996I1997 =60305942 = 1.0148 t0 I1997

t0 I1996= 1.0980

1.0819 = 1.0149

1998 6130 1.1162 1997I1998 =61306030 = 1.0166 t0 I1998

t0 I1997= 1.1162

1.0980 = 1.0166

12.27

176

Page 178: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7.4 Variazione relativa media

Si consideri, ad esempio, 1994I1998, numero indice al tempo 1998 con base 1994 (gran-dezza relativa al tempo 1998 rispetto alla base 1994). 1994I1998 può essere espresso infunzione dei numeri indici a base mobile t−1It , t = 1995, . . . ,1998 (grandezze relative altempo t rispetto a t−1)

1994I1998 = 1994I1995 · 1995I1996 · 1996I1997 · 1997I1998

G(1998)G(1994)

=G(1995)G(1994)

· G(1996)G(1995)

· G(1997)G(1996)

· G(1998)G(1997)

Si desidera ottenere la media α dei numeri indici a base mobile (grandezza relativa mediariferita a una unità temporale)In base al criterio di scelta della media secondo Chisini abbiamo

1994I1998 = 1994I1995 · 1995I1996 · 1996I1997 · 1997I1998 = α ·α ·α ·α = α4

Risolvendo rispetto ad α si ottiene

α = 4√

1994I1995 · 1995I1996 · 1996I1997 · 1997I1998.

La grandezza relativa media risulta la media geometrica dei numeri indici a base mobile. 12.28

Osservazione

α = 4

√G(1995)G(1994)

· G(1996)G(1995)

· G(1997)G(1996)

· G(1998)G(1997)

= 4

√G(1998)G(1994)

= 4√

1994I1998

Esempio 16. Con riferimento all’esempio dei numeri indici per l’Europa si ottiene

4√

1994I1998 =4

√61305492

=4√1.1162 = 1.11620.25 = 1.0279

si può, quindi, concludere che tra il 1994 e il 1998 si è registrato un incremento medioannuale (variazione relativa media) del numero delle camere pari al 2.79%.

12.29

Definizione 17 (Grandezza relativa media e variazione relativa media). Si consideri laserie storica delle k+ 1 osservazioni xt , . . . ,xt+k e i corrispondenti numeri indici a basemobile t It+1, . . . , t+k−1It+k; si definisce grandezza relativa media la media geometrica deik numeri indici a base mobile

α = k

√k

∏i=1

t+i−1It+i =k√

t It+1 · . . . · t+k−1It+k =k√

t It+k

corrispondente alla radice di ordine k del numero indice a base fissa t It+k.La variazione relativa media risulta:

α−1

e, in termini percentuali,100 · (α−1)

12.30

177

Page 179: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7.5 Passaggio da NIBM a NIBF

Si ricordi cheG(t)

G(t−1)=

t0 Itt0 It−1

= t−1It (NIBM)

da cuit0 It = t0 It−1 · t−1It

mat0 It−1 = t0 It−2 · t−2It−1

quindit0 It = t0 It−2 · t−2It−1 · t−1It

e, continuando ricorsivamente fino a t0 It0 = 1, si ottiene . . . 12.31

• per t > t0

t0 It = t0 It0+1 · t0+1It0+2 ·prodotto

NIBM fino a · t−3It−2 · t−2It−1 · t−1It

vale a dire

(NIBF) t0 It =t

∏j=t0+1

j−1I j (NIBM)

• per t = t0t0 It0 = 1

• per t < t0, dalla formula per la trasformazione da NIBF in NIBM

t−1It =t0 It

t0 It−1ovvero da t0 It = t0 It−1 · t−1It

ricavo

t0 It−1 =t0 It

t−1Itper cui, noto t0 It , ottengo, a ritroso, gli indici a base fissa da quelli a base mobile

12.32

Ricostruzione NIBF (t0 = 1994) e (t0 = 1996) per l’Europa a partire dai NIBM

anno = t t−1It 1994It1994 − 11995 1994I1995 = 1.0293 1994I1995 = 1.02931996 1995I1996 = 1.0511 1994I1996 = 1994I1995 · 1995I1996 = 1.0293 ·1.0511 = 1.08191997 1996I1997 = 1.0148 1994I1997 = 1994I1996 · 1996I1997 = 1.0818 ·1.0148 = 1.09791998 1997I1998 = 1.0166 1994I1998 = 1994I1997 · 1997I1998 = 1.0979 ·1.0166 = 1.1161

anno = t t−1It 1996It1994 − 1996I1994 = 1996I1995

1994I1995= 0.9514

1.0293 = 0.92431995 1994I1995 = 1.0293 1996I1995 = 1996I1996

1995I1996= 1

1.0511 = 0.95141996 1995I1996 = 1.0511 11997 1996I1997 = 1.0148 1996I1997 = 1.01481998 1997I1998 = 1.0166 1996I1998 = 1996I1997 · 1997I1998 = 1.0148 ·1.0166 = 1.0316

OsservazioneLe precedenti trasformazioni valgono solo per indici rapporto (grandezze relative).

Nel caso i numeri indici siano espressi in scala centesimale occorre adattare oppor-tunamente le formule precedenti, oppure, più semplicemente, passare ai numeri indicirapporto.

12.33

178

Page 180: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7.6 Numeri Indici composti

I numeri indici che sono stati considerati finora sono detti numeri indici semplici in quantosono riferiti a un’unica serie storica.Spesso si ha a che fare con più serie storiche(ad esempio le serie storiche dei prezzi di un paniere di prodotti o di un portafoglio diazioni).A partire da ciascuna serie storica è possibile ottenere una serie di numeri indici semplici.Un numero indice composto è una sintesi di numeri indici semplici

Esempio 18. A partire dalle variazioni dei prezzi di più prodotti si desidera ottenere unamisura della variazione del livello generale dei prezzi.Si osserva come la variazione nel livello generale dei prezzi venga, talvolta, utilizzatacome misura dell’inflazione, che però rappresenta la perdita del potere di acquisto.

12.34

7.7 Numeri Indici dei prezzi

• media ponderata dei prezzi relativi degli h prodotti scelti come rappresentativi deiconsumi di una collettività

i pt

i p0

• come coefficienti di ponderazione si possono utilizzare i valori delle merci scam-biate:

– nel periodo 0 (base): iv0 = i p0 · iq0

– nel periodo t (corrente): ivt = i pt · iqt

Si può, quindi, considerare una serie statistica avente una delle seguenti strutture

xi ni...

...i pti p0 iv0 = i p0 · iq0...

...v0

xi ni...

...i pti p0 ivt = i pt · iqt...

...vt

12.35

pane latte burro0 pane p0 latte p0 burro p0t pane pt latte pt burro pt

prezzirelativi

pane ptpane p0

latte ptlatte p0

burro ptburro p0

valori (0) pane p0 · paneq0 latte p0 · latteq0 burro p0 · burroq0valori (t) pane pt · paneqt latte pt · latteqt burro pt · burroqt

Si vuole calcolare una media delle modalità prezzi relativi

xi =i pt

i p0

utilizzando quali coefficienti di ponderazione (frequenze) i valori riferiti all’anno baseoppure all’anno corrente

ni = iv0 = i p0 · iq0 oppure ni = ivt = i pt · iqt

12.36

179

Page 181: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Definizione 19. Si definisce indice dei prezzi di Laspeyres (1884), la media aritmeticadelle variazioni dei prezzi dei singoli prodotti

xi =i pt

i p0

calcolata utilizzando come frequenze i valori scambiati al tempo 0 (base)

ni = iv0 = i p0 · iq0

p0 IL

t =1n

h

∑i=1

xini =1

∑hi=1 i p0 iq0

h

∑i=1

i pt

i p0i p0 iq0 =

∑hi=1 i pt iq0

∑hi=1 i p0 iq0

Si osserva come il valore del paniere dei beni venga aggiornato solo in occasione di uneventuale cambiamento di base. 12.37

Definizione 20. Si definisce indice dei prezzi di Paasche (1874), la media armonica dellevariazioni dei prezzi dei singoli prodotti

xi =i pt

i p0

calcolata utilizzando come frequenze i valori scambiati al tempo t (corrente)

ni = ivt = i pt · iqt

p0 IP

t =

1n

h

∑i=1

x−1i ni

−1

=

1

∑hi=1 i pt iqt

h

∑i=1

i p0

i pti pt iqt

−1

=∑

hi=1 i pt iqt

∑hi=1 i p0 iqt

Si osserva come il valore del paniere dei beni debba essere aggiornato a ogni periodo dirilevazione 12.38

Si osserva come, con riferimento ai prodotti usualmente consumati, sussista un legamenegativo tra le variazioni dei prezzi e le variazioni delle quantità (la funzione di domandadei prodotti è convessa).In tali situazioni l’indice dei prezzi di Laspeyres sovrastima la reale variazione dei prezzi,mentre l’indice di Paasche la sottostima.Fisher ha proposto la seguente misura ’ideale’ ottenuta come media geometrica dei pre-cedenti indici.

Definizione 21. Indice dei prezzi di Fisher (1922)

p0 IF

t =√

p0 IL

t ·p0 IP

t

OsservazioneLa procedura per il cambiamento di base si complica nel caso di numeri indici composti.Ad esempio, sul sito dell’Istat sono pubblicati opportuni coefficienti di conversione.

12.39

Esempio 22. Si considerino i dati riferiti a 4 prodotti

i 1 2 3 4p0 10 15 8 14pt 12 20 9 18q0 1000 2000 1500 500qt 800 2100 1200 900

Si calcolino gli indici sintetici dei prezzi di Laspeyres, Paasche e Fisher

180

Page 182: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

12.40

Indice dei prezzi di Laspeyresxi = i pt

i p0ni = i p0 · iq0 xini

1210 = 1.2 10 ·1000 = 10000 120002015 = 1.3333 15 ·2000 = 30000 4000098 = 1.125 8 ·1500 = 12000 135001814 = 1.2857 14 ·500 = 7000 9000

59000 74500

p0 IL

t = M(X) =1

5900074500 = 1.2627

la variazione relativa nel livello generale dei prezzi, secondo l’Indice di Laspeyres, è del+26.27%.Si osserva come tale valore sia compreso tra la minima e massima variazione registratanel prezzo dei singoli prodotti [12.50%,33.33%].

12.41

Indice dei prezzi di Paaschexi = i pt

i p0ni = i pt · iqt

nixi

1210 = 1.2 12 ·800 = 9600 80002015 = 1.3333 20 ·2100 = 42000 3150098 = 1.125 9 ·1200 = 10800 96001814 = 1.2857 18 ·900 = 16200 12600

78600 61700

p0 IP

t =[M(X−1)]−1

=1

1n ∑

ki=1

1xi

ni=

11

78600 61700=

7860061700

= 1.2739

Indice dei prezzi di FisherIFisher =

√p0 IL

t ·p0 IP

t =√

1.6086 = 1.2682

OsservazioneLa presente situazione non si riferisce a prodotti di abituale consumo, infatti p

0 ILt assume

valore inferiore a p0 IP

t .12.42

7.8 Numeri Indici di borsa

Si considera un paniere di azioni e si calcola l’evoluzione dei prezzi al termine di ogniminuto di contrattazione.

La struttura dell’indice Mibtel è simile a quella dell’indice di Laspeyres

0It =∑

hi=1

i pti p0 ic i p0 ic iq0

∑hi=1 i p0 ic iq0

=∑

hi=1 i pt iq0

∑hi=1 i p0 ic iq0

dove ic è un fattore correttivo delle quotazioni che tiene conto delle operazioni sul capitalesociale

(ad esempio aumenti di capitale sociale con eventuali opzioni di sottoscrizione da effet-tuare nell’intervallo temporale (0, t)) 12.43

181

Page 183: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 Rapporti di durata e ripetizione

Sono riferiti a una grandezza caratterizzata da flussi in entrata e in uscita nel corso del tem-po. Per una trattazione più esaustiva si rimanda a Santamaria (2006) Statistica descrittiva.Applicazioni economiche e aziendali, Vita e Pensiero.

Esempio 23. Tipiche grandezze aziendali per le quali vengono tipicamente calcolati irapporti in oggetto sono:

• le giacenze di magazzino: scorte finali = scorte iniziali + acquisti − vendite,• i flussi di cassa: consistenza finale = consistenza iniziale + entrate − uscite,• i conti correnti: saldo finale = saldo iniziale + depositi − prelevamenti.

12.44Sia ora [0,T ] un intervallo temporale, caratterizzato da una relativa stabilità (stazionarie-tà) delle grandezze oggetto di indagine, e si indichino con G0 e GT l’ammontare delleconsistenze (stock) agli istanti temporali 0 e T e con et , ut le entrate e le uscite (flussi)registrate negli intervalli (t−1, t] con t = 1, . . . ,T .

Definizione 24. I rapporti di durata sono definiti come

d =12 (G0 +GT )

12 ∑

Tt=1(et +ut)

.

12.45

OsservazioneLa grandezza a numeratore fornisce una stima della consistenza media per il periodo [0,T ]e il denominatore una stima della movimentazione media nello stesso periodo. Tenendopresente che Gτ = G0 +∑

τt=1(et −ut) con τ = 1, . . . ,T , è possibile calcolare la seguente

stima più precisa della media delle consistenze

G0 +1

T +1

T

∑t=1

(T − t +1) · (et −ut).

Un valore d del rapporto indica che il periodo di permanenza medio della generica unitàentrata (prodotto acquistato, unità depositata) risulta pari a dT .Ad esempio, con riferimento a una grandezza con rilevazione giornaliera per la qualeT = 30 (1 mese) se d = 0.5 allora la permanenza (durata) media risulta di 15 giorni(15 = 0.5 ·30). 12.46

OsservazioneSi osserva come in presenza di un sistema di contabilità analitica molto dettagliata èpossibile ottenere stime molto più precise della durata (permanenza) media.

Definizione 25. Si definisce rapporto di ripetizione (rep) il reciproco del rapporto didurata d

rep =1d.

Tale rapporto indica il numero medio di volte che la grandezza si è rinnovata nell’inter-vallo [0,T ]. 12.47

182

Page 184: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

9 Rapporti statistici tipici delle scienze del turismo

Con riferimento a un assegnato intervallo temporale si considerano degli indicatori idoneia misurare i seguenti aspetti:

• propensione turistica• offerta turistica• flussi turistici

Per una trattazione più dettagliata si veda Pasetti (2002) Statistica del Turismo, Carocci. 12.48

9.1 Propensione turistica

Una misura della propensione della popolazione di una certa area a svolgere viaggi è il

tasso lordo di propensione turistica =n. complessivo viaggi effettuati dai residenti

popolazione residente (media)·100

È possibile determinare la quota della popolazione di una certa area che ha effettuatoalmeno un viaggio nell’intervallo temporale oggetto di analisi.

tasso netto di propensione turistica=n. persone che hanno effettuato almeno un viaggio

popolazione residente (media)·100

Le misure precedenti possono anche essere specificate in funzione:

• della durata del viaggio,• della destinazione,• del tipo di alloggio.

12.49

9.2 Offerta turistica

Una misura della dimensione ricettiva (in termini di posti letto) relativa a una certa areageografica è il

tasso semplice di funzione ricettiva =n. posti letto disponibili

popolazione residente (media)·100

che può anche essere specificato in funzione della tipologia degli esercizi commerciali

• esercizi alberghieri,• esercizi complementari.

La seguente misura tiene conto anche della dimensione della superficie dell’area geogra-fica considerata

tasso composto di funzione ricettiva =n. posti letto disponibili

(popolazione residente (media)) · superficie·100.

12.50

9.3 Flussi turistici

Si premettono le definizioni di arrivo turistico e di presenze turistiche.

Definizione 26. Si definisce arrivo turistico l’ingresso del soggetto nel territorio o luogoconsiderato, indipendentemente dalla durata del soggiorno.

183

Page 185: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Definizione 27. Si definiscono presenze turistiche il numero complessivo di notti trascor-se (bed nights).

12.51È possibile determinare la permanenza media, vale a dire il numero medio di notti tra-scorse come segue

permanenza media =presenze turistiche

arrivi turisticiIn base al criterio di scelta della media secondo Chisini, la permanenza media coincide,quindi, con la media aritmetica della variabile statistica numero di notti trascorse, rilevatain corrispondenza delle unità statistiche arrivate in una certa località. 12.52

Una misura del livello di produttività turistica di una certa regione è il

tasso di funzione turistica =presenze turistiche

(popolazione (media)) ·365·100

I seguenti rapporti statistici danno una misura del livello di utilizzazione di una strutturaricettiva:

indice di utilizzazione lorda =presenze turistiche

(n. letti) ·365·100

indice di utilizzazione netta =presenze turistiche

(n. letti) ·g·100

dove g sono i giorni di apertura della struttura ricettiva.Consideriamo, infine, il tasso di turismo proprio che corrisponde alla quota di pernot-tamenti con motivazione vacanza rispetto al totale dei pernottamenti registrati in unalocalità

tasso di turismo proprio =n. pernottamenti per vacanze

n. pernottamenti totali·100.

12.53

10 Esercizi

Esercizio 28 (T 239, 10.01.2008, 2). Sapendo che per un aggregato macroeconomico ilnumero indice riferito al tempo 2006 con base 2005 è pari a 2005I2006 = 0.95 e che trail 2006 e il 2007 l’aggregato ha subito una variazione percentuale del +5% si determini2005I2007, numero indice riferito all’istante temporale 2007 con base 2005. -

12.54

Esercizio 29 (T 241, 14.02.2008, 2). Sapendo che il valore di un aggregato macroeco-nomico nel 2006 è 80, che il numero indice riferito al tempo 2006 con base 2005 è paria 2005I2006 = 1.2 e che tra il 2006 e il 2007 l’aggregato ha subito una variazione assolutadi −20 si determini 2005I2007, numero indice riferito all’istante temporale 2007 con base2005. -

12.55

Esercizio 30 (T 249, 12.02.2009, 2). Si riporta l’evoluzione temporale dei prezzi e dellequantità scambiate di 2 prodotti a e b, tra il 2000 il 2002.

a ba pt aqt b pt bqt

2000 330 10 80 102001 345 aq2001 80 bq20012002 390 10 85 10

1. Si calcoli l’indice dei prezzi di Laspeyres al tempo 2002 con base 2000.

184

Page 186: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2. Supponendo che l’indice dei prezzi di Fisher, p2000IF

2001, al tempo 2001 con base2000, sia risultato pari a 1.033, valore inferiore a quello dell’indice di Laspeyres, siindichi l’intervallo dei possibili valori dell’indice di Paasche. -

12.56

Esercizio 31 (T 252, 02.07.2009, 4). Con riferimento alla seguente serie storica si co-struisca la serie dei numeri indici a base mobile e si calcoli 2I4 interpretando il valoreottenuto.

t 1 2 3 4 5Xt 2.3 2.7 2.3 1.8 2.4 −

12.57

Esercizio 32 (T 255, 14.01.2010, 2). Sapendo che per un aggregato macroeconomi-co il numero indice riferito al tempo 2003 con base 2000 è pari a 2000I2003 = 1.49 eche il numero indice riferito al tempo 2003 con base 2002 è pari a 2002I2003 = 1.21 sideterminino:

1. la variazione relativa subita dall’aggregato tra il 2000 e il 2002;2. il tasso medio annuo di variazione tra il 2000 e il 2003. -

12.58

Esercizio 33 (T 257, 11.02.2010, 2). Il consumo pro-capite di gelato in Italia ha presen-tato, negli ultimi 5 anni, le seguenti variazioni % annuali

2004 2005 2006 2007 2008+1.2% +8% +8% +2% −8%

1. Scelto come base il 2003 (= 100) ricostruire la serie dei numeri indici a base fissa.2. Sapendo che nel 2003 si è manifestato un consumo pro-capite di 33kg, indicare il

consumo del 2008.3. Indicare l’aumento % complessivo registratosi tra il 2006 e il 2008. -

12.59

Esercizio 34 (T 265_1, 22.09.2011, 2). Il prospetto seguente riporta la serie dei numeriindice a base mobile per una determinata grandezza macroeconomica X :

t 2002 2003 2004 2005 2006 2007t−1It − 0.8545 0.7173 0.7585 0.9441 0.6775

1. Sapendo che il valore della grandezza X nel 2002 era 77 si ricostruiscano i valoridella serie storica.

2. Si calcoli il tasso medio di variazione della serie tra il 2003 e il 2006.3. Si indichi il valore mediano delle variazioni relative subite dalla grandezza X negli

anni considerati. -12.60

Esercizio 35 (T 264_2, 23.06.2011, 2). È data la serie storica dei numeri indici con basemobile (su scala centesimale) del prezzo di un kg di pane:

anno 2006 2007 2008 2009 2010t−1It − 106 104 102 101

1. Si ricostruisca la serie storica dei prezzi sapendo che nel 2006 il pane costava 0.75euro.

2. Si ricostruisca la serie storica dei numeri indici a base fissa (2006 = 100).3. Si determini il tasso medio di variazione del prezzo del pane tra il 2006 e il 2010.

-12.61

185

Page 187: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 36 (T 264_3, 07.07.2011, 2). Si consideri la serie storica dei prezzi del prodottoA nel periodo 2001–2005.

anno 2001 2002 2003 2004 2005pA 20 25 20 30 40

1. Si ricostruisca la serie dei numeri indici a base fissa (2003=100).2. Si calcolino, interpretandone il significato, i seguenti numeri indici: 2002I2001 e

2003I2005. -12.62

Esercizio 37 (T 258-1, 03.06.2010, 2). Sapendo che per un aggregato macroeconomi-co il numero indice riferito al tempo 2003 con base 2000 è pari a 2000I2003 = 1.49 eche il numero indice riferito al tempo 2005 con base 2003 è pari a 2003I2005 = 1.22 sideterminino:

1. il numero indice riferito al tempo 2005 con base 2000;2. il tasso medio di variazione subito dall’aggregato tra il 2000 e il 2005. -

12.63

Esercizio 38 (T 258-3, 15.07.2010, 2). Con riferimento alla seguente serie dei prezzidi un prodotto tra il 1998 il 2002 si costruiscano le serie dei numeri indici a base fissa(2000 = 100) e a base mobile e sulla base di quest’ultima si calcoli il tasso medio divariazione del prezzo di tale prodotto tra il 1999 e il 2001.

t 1998 1999 2000 2001 2002pt 130 135 140 145 150 −

12.64

Esercizio 39 (T 262, 03.02.2011, 2). Con riferimento ai prezzi di un prodotto nel perio-do 2004–2008 sono disponibili alcuni elementi della serie dei numeri indici a base fissa2004 = 100 e della serie dei numeri indici a base fissa 2006 = 100.

Anni NIBF(2004 = 100) NIBF(2006 = 100) NIBM2004 1002005 102.52006 106 1002007 109.18 1032008 109

1. Si ricostruiscano le due serie complete dei NIBF dei prezzi e si costruisca la seriedei NI a base mobile.

2. Si calcoli il tasso d’incremento medio dei prezzi tra il 2004 e il 2007. -12.65

Esercizio 40 (T 263, 17.02.2011, 2). Si consideri la serie dei numeri indici a base mobiledei prezzi del prodotto A nel periodo 2004–2007.

anno 2004 2005 2006 2007NIBMA − 105 105 105

1. Si ricostruisca la serie dei numeri indici a base fissa (2004 = 100).2. Si costruisca la serie dei numeri indici a base mobile per i prezzi del prodotto B,

sapendo che nel periodo considerato i prezzi di B sono costantemente risultati ildoppio dei prezzi di A. -

12.66

186

Page 188: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 41 (T 264_1, 09.06.2011, 3). Il seguente prospetto riporta i prezzi e le quantitàscambiate per i prodotti A e B negli anni 1990, 2000 e 2010.

anno A pt Aqt B pt Bqt1990 100 111 200 1012000 150 142 922010 260 123 600 83

1. Si indichi quale valore deve assumere il prezzo del prodotto B nel 2000 affin-ché l’indice dei prezzi di Laspeyres al tempo 2000 con base 1990 risulti pari ap1990IL

2000 = 1.5.2. Si calcoli l’indice dei prezzi di Paasche al tempo 2010 con base 1990, commentando

il risultato ottenuto. -12.67

Esercizio 42 (T 265, 08.09.2011, 2). Il prospetto seguente riporta la produzione di energiaelettrica in TWh per le fonti energetiche rinnovabili nel periodo 2002–2007:

t 2002 2003 2004 2005 2006 2007rinnovabili 49.0 48.0 55.7 49.9 52.2 49.4

1. Si ricostruisca la serie dei numeri indici a base mobile.2. Si calcoli il tasso medio di crescita nel periodo considerato. -

12.68

Esercizio 43 (T 266, 12.01.2012, 3). Si riporta l’evoluzione temporale del prezzo di unprodotto tra il 2001 il 2005.

t 2001 2002 2003 2004 2005pt 330 342 390 405 420

1. Si costruisca la serie dei numeri indici a base mobile per i prezzi del prodotto.2. Si interpreti il valore assunto dal numero indice 2002I20033. Si calcoli il tasso medio di variazione dei prezzi tra il 2002 e il 2005. -

12.69

Esercizio 44 (T 267, 26.01.2012, 3). Con riferimento alla seguente serie storica Wt

anno 2008 2009 2010 2011Wt 800 850 900 1000

1. Si costruisca la serie dei numeri indici a base fissa, con base 2008 = 100.2. Si interpreti l’ultimo valore della serie sopra calcolata.3. Si costruisca la serie dei numeri indici a base mobile.4. Si calcoli quale dovrebbe essere il valore W2012 in modo che il tasso medio di

crescita nel periodo 2008–2012 risulti pari al 6%. -12.70

Esercizio 45 (T 268, 09.02.2012, 2). Si consideri la seguente serie dei numeri indice abase fissa riguardante l’andamento della serie Zt .

anno 2008 2009 2010 2011NIBF 1 1.1 0.9 1.2

1. Si costruisca la serie dei numeri indici a base mobile.2. Si interpreti l’ultimo valore della serie sopra calcolata.3. Si calcoli il valore Z2011 sapendo che Z2009 = 47. -

12.71

187

Page 189: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 46 (T 269_1, 07.06.2012, 2). Si consideri la seguente serie dei numeri indice abase fissa (2008) riguardante l’andamento della serie Zt .

anno 2008 2009 2010 2011NIBF(2008) 1 1.1 0.9 1.2

1. Si costruisca la serie dei numeri indici con base fissa 2010.2. Si interpreti il primo valore della serie sopra calcolata.3. Si calcoli il tasso medio di variazione tra il 2008 e il 2011.4. Si calcoli il valore Z2007 sapendo che Z2008 = 47. -

12.72

Esercizio 47 (T 269_2, 28.06.2012, 2). Si consideri la serie storica delle quotazioni di ungenerico titolo Qt .

anno 1 2 3 4 5Qt 114 86 101 113 86

1. Si costruisca la serie dei numeri indici con base mobile.2. Si calcoli e interpreti il valore del numero indice al tempo 5 con base 1.3. Si calcoli il tasso medio di variazione per l’intero periodo considerato. -

12.73

Esercizio 48 (T 269_3, 12.07.2012, 2). Il prospetto seguente riporta la serie dei numeriindice a base mobile, NIBM, per una determinata grandezza macroeconomica X (seriestorica di flusso)

t 2002 2003 2004 2005 2006 2007t−1It − 0.8545 0.7173 0.7585 0.9441 0.6775

1. Sapendo che il valore della grandezza X nel 2007 era 22.90 si ricostruiscano i valoridella serie storica.

2. Si rappresenti graficamente la serie storica X .3. Si calcoli il tasso medio di variazione della serie tra il 2003 e il 2006.4. Si indichi la peggiore variazione relativa subita dalla grandezza X negli anni consi-

derati. -12.74

Esercizio 49 (T 270, 06.09.2012, 1). Si consideri la variabile Xt = numerosità dellapopolazione italiana, in milioni di unità, misurata tra il 1861 e il 2001.

Anno 1861 1881 1901 1921 1941 1961 1981 2001Xt 22 28 33 39 43 51 56 58

1. Si costruisca la serie dei numeri indici con base mobile.2. Si interpreti il valore dell’ultimo degli indici sopra calcolati.3. Si calcoli il tasso di crescita medio della popolazione italiana tra il 1901 e il 2001.

-12.75

Esercizio 50 (T 270-1, 20.09.2012, 1). Si consideri la variabile Xt = numerosità dellapopolazione italiana, in milioni di unità, misurata tra il 1861 e il 2001.

Anno 1861 1881 1901 1921 1941 1961 1981 2001Xt 22 28 33 39 43 51 56 58

1. Si costruisca la serie dei numeri indici con base fissa 1861.2. Si interpreti il valore del numero indice al tempo 1881 con base 1861.

188

Page 190: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3. Si calcoli il tasso di crescita medio annuo della popolazione italiana tra il 1861 e il1881. -

12.76

Esercizio 51 (T 271, 10.01.2013, 2). Si consideri la seguente serie storica delle venditedi un’azienda tra il 2006 e il 2010.

t 2006 2007 2008 2009 2010xt 205 290 315 340 225

1. Si costruisca la corrispondente serie dei numeri indici a base mobile.2. Si calcoli il tasso medio di variazione tra il 2008 e il 2010, commentando il risultato

ottenuto. -12.77

Esercizio 52 (T 272, 24.01.2013, 2). Della serie storica Xt delle vendite di un’azienda trail 2006 e il 2010 abbiamo le seguenti informazioni:

t NIBM NIBF2006 1002007 1132008 1162009 1062010 131

1. Si riempiano le caselle vuote della tabella e sapendo che x2010=650 si calcoli x2006.2. Si calcoli il tasso medio di variazione tra il 2007 e il 2010, commentando il risultato

ottenuto. -12.78

Esercizio 53 (T 273, 07.02.2013, 2). Dati i seguenti NIBM delle vendite di un’aziendatra il 2001 e il 2005:

t 2001 2002 2003 2004 2005NIBM 0.94 1.12 1.06 1.11

1. Si calcolino i numeri indice a base fissa (base 2001).2. Si calcoli il tasso medio di variazione tra il 2001 e il 2005 esprimendolo in valore

percentuale.3. Per ottenere un tasso medio di variazione tra il 2001 e il 2006 del 7% che valore

dovrebbe avere 2001I2006? -12.79

Esercizio 54 (T 274-1, 06.06.2013, 2). Dati i seguenti NIBF (base 2001) delle vendite diun’azienda tra il 2001 e il 2005:

t 2001 2002 2003 2004 2005NIBF 1.00 0.94 1.12 1.06 1.11

1. Si calcolino i numeri indice a base mobile.2. Si calcoli il tasso medio di variazione tra il 2003 e il 2005 esprimendolo in valore

percentuale.3. Sapendo che tra il 2005 e il 2006 vi è stato un calo delle vendite del 10% si

determinino 2005I2006 e il valore delle vendite nel 2006. -12.80

Esercizio 55 (T 274, 27.06.2013, 2). Si consideri la serie NIBF (base 2006) relativa allaspesa delle Amministrazioni Pubbliche rilevata tra il 2005 e il 2009:

t 2005 2006 2007 2008 2009NIBF 0.9705 1.0000 1.0164 0.7607 1.0951

189

Page 191: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1. Si calcolino i numeri indice a base mobile.2. Si calcoli il tasso medio di variazione tra il 2006 e il 2009 esprimendolo in valore

percentuale.3. Si calcoli il Numero Indice del 2006 con base l’anno 2009 interpretando il valore

ottenuto. -12.81

Esercizio 56 (T 274-2, 11.07.2013, 2). Si consideri la serie NIBM relativa alla spesa delleAmministrazioni Pubbliche rilevata tra il 2005 e il 2009:

t 2005 2006 2007 2008 2009NIBM 1.0304 1.0164 0.7484 1.4397

1. Sapendo che x2009 = 334 si calcoli il valore di x2005. -12.82

Esercizio 57 (T 275, 05.09.2013, 2). Si consideri la seguente serie storica degli indici abase mobile relativa ai costi di un’azienda tra il 2008 e il 2012:

t 2008 2009 2010 2011 2012NIBM 1.20 0.55 0.85 1.05

1. Si costruisca la serie dei numeri indici a base fissa con base 2008.2. Si calcoli l’indice a base fissa: 2010I2012 e si commenti il risultato.3. Si calcoli il tasso medio di variazione tra il 2010 e il 2012 e lo si confronti con

l’indice calcolato al precedente punto. -12.83

Esercizio 58 (T 275-1, 16.09.2013, 2). Si consideri la seguente serie storica dei costi diun’azienda tra il 2008 e il 2012:

t 2008 2009 2010 2011 2012xt 200 240 110 170 210

1. Si costruisca la serie dei numeri indici a base mobile.2. Si calcoli l’indice a base fissa: 2012I2010 e si commenti il risultato.3. Si calcoli il tasso medio di variazione tra il 2009 e il 2012 commentando il risultato

ottenuto.4. Sapendo che 2012I2013 = 1 si calcolino i costi del 2013. -

12.84

Esercizio 59 (T 276, 16.01.2014, 2). Con riferimento alla seguente serie di Numeri Indicea Base Mobile:

t 2008 2009 2010 2011 2012NIBM 0.92 0.95 1.05 1.08

1. Si ricostruisca la serie storica dei dati xt sapendo che x2010 = 90.2. Si calcoli il tasso medio di variazione nel periodo 2008-2012 interpretando il risul-

tato ottenuto.3. Si calcoli il numero indice al tempo 2012 con base 2010 e si commenti il risultato.

-12.85

Esercizio 60 (T 277, 30.01.2014, 2). Il prospetto seguente riporta i prezzi medi annui di2 beni di uso quotidiano nel periodo 2002−2006:

t 2002 2003 2004 2005 2006bene A 99.4 117.3 129.8 149.3 158.1bene B 77.0 65.8 47.2 35.8 33.8

190

Page 192: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1. Costruire la serie dei numeri indici a base fissa con base 2003 per il bene A.2. Calcolare il tasso medio di variazione per il prezzo del bene B tra il 2002 e il 2005,

interpretando il risultato.3. Note le quantità Aq2003 = 1500 e Bq2003 = 8500, calcolare l’indice di Laspeyres dei

prezzi al 2006 con base 2003. -12.86

Esercizio 61 (T 278, 13.02.2014, 2). Della seguente serie storica sono note solo alcuneinformazioni.

t 1 2 3 4 5xt 200 x2 180 x4 160

1. Si ricostruisca la serie storica sapendo che tra il tempo 1 e il tempo 2 vi è stato unincremento di 21 e che tra t = 3 e t = 4 vi è stata una diminuzione del 5%.

2. Si costruiscano le serie dei numeri indici a base fissa, con base t = 1, e a basemobile.

3. Si calcoli il tasso medio di variazione di xt tra l’istante temporale 1 e l’istante 3,interpretando il risultato. -

12.87

191

Page 193: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 194: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 13Analisi statistica bivariata

13.1

Indice

1 Introduzione 1931.1 Problemi asimmetrici e problemi simmetrici . . . . . . . . . . . . . . . . 193

2 Studio di un caso 1932.1 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . 1942.2 Distribuzioni condizionate Y |X . . . . . . . . . . . . . . . . . . . . . . . 1952.3 Distribuzioni condizionate X |Y . . . . . . . . . . . . . . . . . . . . . . . 195

3 Formalizzazione simbolica v.s. doppia 195

4 Indipendenza stocastica 1974.1 Distribuzioni condizionate . . . . . . . . . . . . . . . . . . . . . . . . . 1974.2 Definizione di indipendenza stocastica . . . . . . . . . . . . . . . . . . . 1984.3 Quadro riassuntivo indipendenza stocastica . . . . . . . . . . . . . . . . 198

5 Dipendenza funzionale 199

6 Studio della dipendenza 201 13.2

1 Introduzione

Studio congiunto di due caratteri per accertare la presenza di relazioni di dipendenza tradi essi.

• ripartizione quote mercato prima e dopo campagna pubblicitaria• studio customer satisfaction: analisi questionari per area geografica• impresa con diverse dipendenze con produzione simile: analisi di produttività

Nell’ambito della statistica inferenziale si studiano dei metodi che consentono l’attri-buzione di un significato al valore degli indicatori (cfr. χ2) che attengono a una datasituazione. 13.3

1.1 Problemi asimmetrici e problemi simmetrici

Definizione 1 (Problema asimmetrico). Un problema ha carattere asimmetrico quandosolo una variabile può essere considerata "dipendente" dall’altra

Y dipende da X oppure X dipende da Y.

Si osserva come vale solo una delle due precedenti proposizioni.

193

Page 195: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Definizione 2 (Problema simmetrico). Un problema ha carattere simmetrico quando ilrapporto di dipendenza è bi-direzionale

X ↔ Y.

In questo caso le due variabili si dicono concomitanti.13.4

2 Studio di un caso

Con riferimento alle variabili X = ’provenienza del cliente’ e Y = ’secondo piatto’ si rilevala distribuzione congiunta dei 250 secondi serviti la scorsa domenica in un ristorante diuna località turistica

X \ Y y1 y2 y3 y4 y5 ni•Europa 30 20 15 15 20 100America 5 40 10 15 30 100

Asia 5 10 20 10 5 50n• j 40 70 45 40 55 250

y1 = carne arrostoy2 = carne alla grigliay3 = pesce crudoy4 = pesce alla grigliay5 = selvaggina 13.5

È possibile ottenere la variabile statistica doppia con le frequenze congiunte relative

fi j =ni j

n

X \ Y y1 y2 y3 y4 y5 fi•Europa 0.12 0.08 0.06 0.06 0.08 0.40America 0.02 0.16 0.04 0.06 0.12 0.40

Asia 0.02 0.04 0.08 0.04 0.02 0.20f• j 0.16 0.28 0.18 0.16 0.22 1

13.6

2.1 Distribuzioni marginaliX \ Y y1 y2 y3 y4 y5 ni•

Europa 30 20 15 15 20 100America 5 40 10 15 30 100

Asia 5 10 20 10 5 50n• j 40 70 45 40 55 250

X ni• fi•Europa 100 0.40America 100 0.40

Asia 50 0.20n 250 1

Y n• j f• jy1 40 0.16y2 70 0.28y3 45 0.18y4 40 0.16y5 55 0.22n 250 1

13.7

194

Page 196: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.2 Distribuzioni condizionate Y |XX \ Y y1 y2 y3 y4 y5 ni•

Europa 30 20 15 15 20 100America 5 40 10 15 30 100

Asia 5 10 20 10 5 50n• j 40 70 45 40 55 250

Y |X=x1 n1 j f .cond.r.= n1 jn1•

y1 30 0.30y2 20 0.20y3 15 0.15y4 15 0.15y5 20 0.20n1• 100 1

Y |X=x2 n2 j f .cond.r.= n2 jn2•

y1 5 0.05y2 40 0.40y3 10 0.10y4 15 0.15y5 30 0.30n2• 100 1

Y |X=x3 n3 j f .cond.r.= n3 jn3•

y1 5 0.10y2 10 0.20y3 20 0.40y4 10 0.20y5 5 0.10n3• 50 1

13.8

2.3 Distribuzioni condizionate X |YX \ Y y1 y2 y3 y4 y5 ni•

Europa 30 20 15 15 20 100America 5 40 10 15 30 100

Asia 5 10 20 10 5 50n• j 40 70 45 40 55 250

X |Y=y1 ni1 f .cond.r.= ni1n•1

Europa 30 0.75America 5 0.125

Asia 5 0.125n•1 40 1

X |Y=y2 ni2 f .cond.r.= ni2n•2

Europa 20 0.29America 40 0.57

Asia 10 0.14n•2 70 1

X |Y=y3 ni3 f .cond.r.= ni3n•3

Europa 15 0.33America 10 0.22

Asia 20 0.44n•3 45 1

X |Y=y4 ni4 f .cond.r.= ni4n•4

Europa 15 0.375America 15 0.375

Asia 10 0.25n•4 40 1

X |Y=y5 ni5 f .cond.r.= ni5n•5

Europa 20 0.364America 30 0.545

Asia 5 0.09n•5 55 1

13.9

3 Formalizzazione simbolica v.s. doppia

X\Y y1 . . . y j . . . yk ni•x1 n11 . . . n1 j . . . n1k n1•...

......

......

xi ni1 . . . ni j . . . nik ni•...

......

......

xh nh1 . . . nh j . . . nhk nh•n• j n•1 . . . n• j . . . n•k n

195

Page 197: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

da questa derivano:

• 2 variabili statistiche marginali• 2 famiglie di variabili statistiche condizionate

Xx1 n1•...

...xi ni•...

...xh nh•

n

Yy1 n•1...

...y j n• j...

...yk n•k

n

X |y jx1 n1 j...

...xi ni j...

...xh nh j

n• j

Y |xiy1 ni1...

...y j ni j...

...yk nik

ni•13.10

in corrispondenzav.s. doppia relativa

fi j =ni j

nv.s. marginali relative

Xxi fi•x1

n1•n = f1•

......

xini•n = fi•

......

xhnh•n = fh•

1

( j = 1,2, . . . ,k)

Yy j f• jy1

n•1n = f•1

......

y jn• jn = f• j

......

ykn•kn = f•k

1

(i = 1,2, . . . ,h)13.11

v.s. condizionate relative

X |y jxi f .cond.rel.x1

n1 jn• j

=f1 jf• j

......

xini jn• j

=fi jf• j

......

xhnh jn• j

=fh jf• j

1

Y |xiy j f .cond.rel.y1

ni1ni•

= fi1fi•

......

y jni jni•

=fi jfi•

......

yknikni•

= fikfi•

1

13.12

196

Page 198: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Indipendenza stocastica

Si consideri un campione di 100 famiglie, estratte tra quelle che hanno figli adulti, per lequali sono state rilevate le variabili:

X = professione paterna Y = scolarità dei figli

X\Y elementari diploma laurea ni•operaio 3 2 5 10

impiegato 9 6 15 30dirigente 18 12 30 60

n• j 30 20 50 100

distribuzioni marginali

X ni• fi•O 10 0.1I 30 0.3D 60 0.6

100 1

Y n• j f• jE 30 0.3D 20 0.2L 50 0.5

100 113.13

4.1 Distribuzioni condizionateX\Y elementari diploma laurea ni• fi•

operaio 3 2 5 10 0.1impiegato 9 6 15 30 0.3dirigente 18 12 30 60 0.6

n• j 30 20 50 100f• j 0.3 0.2 0.5

Y |x1 n1 j f .cond.r.E 3 0.3D 2 0.2L 5 0.5

n1• 10 1

Y |x2 n2 j f .cond.r.E 9 0.3D 6 0.2L 15 0.5

n2• 30 1

Y |x3 n3 j f .cond.r.E 18 0.3D 12 0.2L 30 0.5

n3• 60 1

X |y1 ni1 f .cond.r.O 3 0.1I 9 0.3D 18 0.6

n•1 30 1

X |y2 ni2 f .cond.r.O 2 0.1I 6 0.3D 12 0.6

n•2 20 1

X |y3 ni3 f .cond.r.O 5 0.1I 15 0.3D 30 0.6

n•3 50 1

Le distribuzioni condizionate relative non dipendono dalla condizione.Le distribuzioni condizionate assolute (righe/colonne) sono proporzionali.I caratteri si dicono statisticamente (stocasticamente) indipendenti 13.14

Con riferimento al precedente esempio le distribuzioni delle frequenze condizionate rela-tive sono fra loro identiche.

Quindi, sulla base dei dati disponibili, anche se questo problema è asimmetrico, possiamoaffermare che:

• non sussiste dipendenza della professione paterna dal livello di scolarità dei figli• non sussiste dipendenza del livello di scolarità dei figli rispetto alla professione

paterna13.15

197

Page 199: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4.2 Definizione di indipendenza stocastica

Definizione 3 (Indipendenza stocastica). Data la v.s. (m.s.) doppia (X ,Y ) le componentiX e Y sono stocasticamente indipendenti se:

1. tutte le condizionate X |y j ( j = 1,2, . . . ,k) hanno la stessa distribuzione percentuale2. tutte le condizionate Y |xi (i = 1,2, . . . ,h) hanno la stessa distribuzione percentuale3. sono somiglianti alle rispettive marginali

ni j

n• j=

ni•n

= fi•, ∀i ( j = 1, . . . ,k)

ni j

ni•=

n• j

n= f• j, ∀ j (i = 1, . . . ,h)

13.16

4.3 Quadro riassuntivo indipendenza stocastica

X |y jsomigliante a∼ X , ∀ j Y |xi

somigliante a∼ Y, ∀ini j

n• j=

ni•n

←→ ←→ni j

ni•=

n• j

n

l

ni j =ni• ·n• j

n, ∀i, j

(condizione di fattorizzazione)

13.17

Esempio 4. (colore dei capelli)|(zona geografica)

colore Z1 Z2 Z3nero 0.10 0.30 0.70

castano 0.25 0.30 0.20biondo 0.60 0.30 0.05altro 0.05 0.10 0.05

1 1 1

condizionate relative diverse→ non indipendenza

OsservazioneQui le marginali non possono essere ricostruite, perché?

13.18In definitiva i caratteri X e Y sono indipendenti se

ni j =ni• ·n• j

n= ni j, ∀i, j

Si osservi come ni j

n=

ni•n

n• j

n= fi• · f• j

quindi, condizione di indipendenza è anche

fi j =ni•n

n• j

n= fi• · f• j = fi j, ∀i, j

Definizione 5 (Notazione frequenze teoriche indipendenza stocastica).

ni j = frequenze osservateni j = frequenze teoriche nella situazione

di indipendenza stocastica

198

Page 200: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

13.19

OsservazioneL’indipendenza stocastica è una condizione simmetrica

(X indip Y ↔ Y indip X)

OsservazioneNella situazione di indipendenza stocastica, le frequenze congiunte ni j non assumononecessariamente valori interi.

OsservazioneLa presenza di frequenze congiunte nulle implica la non-indipendenza.

13.20Nel seguito si considereranno solo tabelle ammissibili

Definizione 6 (Tabelle ammissibili).

X\Y y j

xi ni j ni•

n• j n

ni• > 0, ∀in• j > 0, ∀ j

Non figurano righe/colonne con elementi tutti nulli.13.21

5 Dipendenza funzionale

A ogni modalità della variabile esplicativa corrisponde una sola modalità della variabiledipendente

Definizione 7 (Dipendenza funzionale di Y da X). Sussiste dipendenza funzionale di Yda X , y = g(x), se le distribuzioni condizionate Y |xi sono degeneri

1. k ≤ h2. a ogni xi corrisponde un solo y j

Esempio 8.X\Y y1 y2 y3

Europa x1 n11 0 0America x2 0 n22 0Asia x3 n31 0 0A f rica x4 0 0 n43

13.22

Definizione 9 (Dipendenza funzionale di X da Y ). Sussiste dipendenza funzionale di Xda Y , x = f (y), se le distribuzioni condizionate X |y j sono degeneri

1. h≤ k2. a ogni y j corrisponde un solo xi

Esempio 10.X\Y y1 y2 y3 y4

Europa x1 n11 0 0 0America x2 0 n22 0 n24Asia x3 0 0 n33 0

13.23

199

Page 201: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Definizione 11 (Dipendenza funzionale biettiva). Sussiste dipendenza funzionale biettivase

1. le distribuzioni Y |xi sono degeneri2. le distribuzioni X |y j sono degeneri

In tale situazione la tabella è quadrata e si ha una frequenza non nulla per riga/colonna.

Esempio 12.X\Y y1 y2 y3

Europa x1 0 n12 0America x2 n21 0 0Asia x3 0 0 n33

13.24

Esempio 13 (Tabelle relative a situazioni di dipendenza funzionale).

X \ Y y1 y2 y3 y4 y5 ni•Europa 30 70 0 0 0 100America 0 0 0 45 55 100

Asia 0 0 50 0 0 50n• j 30 70 50 45 55 250

• sussiste dipendenza funzionale di X da Y• ma non sussiste dipendenza funzionale di Y da X

X \ Y y1 y2 y3 ni•Europa 30 0 0 30America 0 70 0 70

Asia 0 0 50 50n• j 30 70 50 150

• sussiste dipendenza funzionale di Y da Xe contemporaneamente

• sussiste dipendenza funzionale di X da Y13.25

Esercizio 14. Determinare le frequenze congiunte ni j in modo da realizzare la situazionedi dipendenza funzionale di Y da X

X \ Y y1 y2 ni•x1 n11 n12 10x2 n21 n22 5x3 n31 n32 15n• j 10 20 30

SoluzioneX \ Y y1 y2 ni•

x1 10 0 10x2 0 5 5x3 0 15 15n• j 10 20 30

a ogni modalità di X deve corrispondere una e una sola modalità della Y13.26

200

Page 202: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Controllo delle distribuzioni condizionateY |X=x1 n1 j f .cond.r.= n1 j

n1•y1 10 1y2 0 0n1• 10 1

Y |X=x2 n2 j f .cond.r.= n2 jn2•

y1 0 0y2 5 1n2• 5 1

Y |X=x3 n3 j f .cond.r.= n3 jn3•

y1 0 0y2 15 1n3• 15 1

tutte le distribuzioni condizionate Y |xi sono degeneri:sussiste una relazione di dipendenza funzionale di Y (variabile dipendente) rispetto a X(variabile esplicativa)

13.27

6 Studio della dipendenza

attraverso:

• connessioneprincipalmente per caratteri qualitativi

• modelli di regressione(se la variabile dipendente è quantitativa)per descrivere al meglio un carattere in funzione dell’altro

considereremo pertanto:

• indici di connessionedistanza dall’indipendenza stocastica

• indici di dipendenzaaccostamento dei modelli teorici ai dati

13.28

Esercizio 15 (T 182, 18.01.2001, 1). In una località turistica invernale L1 sono presenti 30alberghi.Nel prospetto di sinistra si riporta la distribuzione congiunta del livello di soddisfacimento, S,rispetto alla categoria alberghiera, A, espresso da un campione di 200 turisti.Nel prospetto di destra si riportano, in corrispondenza di ciascuna categoria alberghiera, con riferi-mento al medesimo campione di 200 turisti, le distribuzioni delle frequenze, rilevate nel 1999, dellapermanenza media in giorni, G, del soggiorno, condizionate rispetto alla categoria alberghiera, A.

A \ S non sodd. indi f f . sodd.?? 18 6 36??? 12 43 45???? 8 12 20

G|A ?? ??? ????

1.5 0.50 0.70 0.603.0 0.30 0.15 0.257.5 0.20 0.15 0.15

1.00 1.00 1.00

1. Si rappresentino graficamente le distribuzioni A|G = 3.0 e A|G = 7.5 e si dica, senza effet-tuare calcoli e motivando la risposta, se sussiste indipendenza stocastica fra A e G.

2. Si confrontino con opportuni indici di posizione e di variabilità le distribuzioni G|A = ?? eG|A = ???.

13.29

201

Page 203: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 204: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 14Connessione (1)

14.1

Indice

1 La connessione e le sue misure 203

2 Indici di connessione 203

3 Distanze elementari: le contingenze 204

4 Indice χ2 di Pearson 2054.1 L’indice χ2 come funzione delle contingenze relative . . . . . . . . . . . 2064.2 Formula operativa dell’indice χ2 . . . . . . . . . . . . . . . . . . . . . . 2064.3 Normalizzazione dell’indice χ2 . . . . . . . . . . . . . . . . . . . . . . . 206

5 Calcolo indice χ2 2075.1 Calcolo indice χ2 con le contingenze assolute . . . . . . . . . . . . . . . 2075.2 Calcolo indice χ2 con la formula operativa . . . . . . . . . . . . . . . . . 2085.3 Normalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

6 Interpretazione delle contingenze relative 210

7 Esercizi 212 14.2

1 La connessione e le sue misure

Definizione 1 (Connessione). Si ha connessione tra due caratteri X e Y se X e Y non sonostocasticamente indipendenti

connessione = non indipendenza stocastica

ovvero la mutabile (variabile) statistica doppia (X ,Y ) è caratterizzata da distribuzionicondizionate non somiglianti

perchédistribuzioni condizionate somiglianti = indipendenza

Y |x1 ∼ Y |x2 ∼ . . .∼ Y |xh ∼ Y

X |y1 ∼ X |y2 ∼ . . .∼ X |yk ∼ X

14.3

203

Page 205: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Indici di connessione

Misura della variabilità fra le distribuzioni condizionatema ancheDistanza dalla situazione di indipendenza stocastica

Si confrontano

ni j ni•

n• j ntabella osservata

ni j ni•

n• j ntabella teorica

OsservazioneLa tabella teorica di indipendenza è unica!!Le due tabelle hanno in comune le distribuzioni marginali: esse consentono di determinarein maniera univoca le frequenze congiunte nella situazione di indipendenza stocastica

ni j =ni•n• j

n

14.4

3 Distanze elementari: le contingenze

Definizione 2 (Contingenze assolute).

ci j = ni j− ni j

proprietàh

∑i=1

ci j = 0,k

∑j=1

ci j = 0,h

∑i=1

k

∑j=1

ci j = 0

Definizione 3 (Contingenze relative).ni j

ni j

Se sussiste indipendenza stocastica

ci j = ni j− ni j = 0 eni j

ni j= 1, ∀i, j

14.5

204

Page 206: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 4.X\Y y1 y2 y3x1 3 3 3 9x2 1 2 3 6x3 6 0 9 15

10 5 15 30

ni j

X\Y y1 y2 y3x1 3 1.5 4.5 9x2 2 1 3 6x3 5 2.5 7.5 15

10 5 15 30

ni j

contingenzeassolute ci j

y1 y2 y3x1 0 1.5 −1.5 0x2 −1 1 0 0x3 1 −2.5 1.5 0

0 0 0 0

contingenzerelative

y1 y2 y3x1 1 2 0.6667x2 0.5 2 1x3 1.2 0 1.2

14.6

Esempio 5.3 8 1 124 1 2 77 5 1 13

14 14 4 32

ni j

5.2500 5.2500 1.5000 123.0625 3.0625 0.8750 75.6875 5.6875 1.6250 13

14 14 4 32

ni j

contingenzeassolute ci j

−2.2500 2.7500 −0.5000 00.9375 −2.0625 1.1250 01.3125 −0.6875 −0.6250 0

0 0 0 0

contingenzerelative

0.5714 1.5238 0.66671.3061 0.3265 2.28571.2308 0.8791 0.6154

14.7

4 Indice χ2 di Pearson

Definizione 6.

χ2 =

h

∑i=1

k

∑j=1

c2i j

ni j=

h

∑i=1

k

∑j=1

(ni j− ni j)2

ni j

dove

• ni j sono le frequenze congiunte osservate• ni j sono le frequenze teoriche nella situazione di indipendenza stocastica

14.8

205

Page 207: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4.1 L’indice χ2 come funzione delle contingenze relative

χ2 =

h

∑i=1

k

∑j=1

(ni j− ni j)2

ni j

=h

∑i=1

k

∑j=1

n2i j + n2

i j−2ni jni j

ni j

=h

∑i=1

k

∑j=1

n2

i j

ni j+

n2i j

ni j−

2ni jni j

ni j

=h

∑i=1

k

∑j=1

n2i j

ni j+

h

∑i=1

k

∑j=1

n2i j

ni j−2

h

∑i=1

k

∑j=1

ni jni j

ni j

=h

∑i=1

k

∑j=1

ni jni j

ni j+

h

∑i=1

k

∑j=1

ni j

+n

−2h

∑i=1

k

∑j=1

ni j

−2n

χ2 =

h

∑i=1

k

∑j=1

ni jni j

ni j−n = n

h

∑i=1

k

∑j=1

fi jni j

ni j−1

14.9

4.2 Formula operativa dell’indice χ2

χ2 =

h

∑i=1

k

∑j=1

ni jni j

ni j−n

=h

∑i=1

k

∑j=1

n2i j

ni•n• jn

−n

= nh

∑i=1

k

∑j=1

n2i j

ni•n• j−n

χ2 = n

h

∑i=1

k

∑j=1

n2i j

ni•n• j−1

14.10

4.3 Normalizzazione dell’indice χ2

Se sussiste indipendenza stocastica ni j = ni j e, quindi, χ2 = 0:

χ2min = 0

Si dimostra che nella situazione di dipendenza funzionale χ2 = χ2max:

χ2max = n ·min(h−1,k−1)

dove h e k sono rispettivamente il numero di modalità delle variabili X e Y (numero dirighe e colonne nella tabella a doppia entrata).In conclusione, l’indice normalizzato risulta

χ2N =

χ2−χ2min

χ2max−χ2

min=

χ2

χ2max

=χ2

n ·min(h−1,k−1)

206

Page 208: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

14.11

OsservazioneL’indice χ2

N risulta poco risolvente nelle situazioni vicine all’indipendenza stocastica, eassume valori bassi anche in situazioni che si discostano da tale situazione limite.È quindi preferibile considerare la radice quadrata dell’indice

χN =√

χ2N

che risulta più facilmente interpretabile.L’indice χN è anche noto in letteratura come statistica V di Cramér.

OsservazioneLa formulazione dell’indice χ2 (assoluto) che è stata presentata, è solitamente utilizzatanell’ambito della Statistica inferenziale.

Una trattazione più approfondita dello studio della connessione è presente in Zanella A1992 Lezioni di Statistica. Parte seconda. Strutture dei dati in due o più dimensioni. Laconnessione, Vita e Pensiero. 14.12

5 Calcolo indice χ2

5.1 Calcolo indice χ2 con le contingenze assolute

X\Y y1 y2 y3x1 3 3 3 9x2 1 2 3 6x3 6 0 9 15

10 5 15 30

ni j

X\Y y1 y2 y3x1 3 1.5 4.5 9x2 2 1 3 6x3 5 2.5 7.5 15

10 5 15 30

ni j

y1 y2 y3x1 0 1.5 −1.5 0x2 −1 1 0 0x3 1 −2.5 1.5 0

0 0 0 0

ci j = ni j− ni j

y1 y2 y3x1 0 1.5 0.5 2x2 0.5 1 0 1.5x1 0.2 2.5 0.3 3

(ni j−ni j)2

ni j

χ2 =

h

∑i=1

k

∑j=1

(ni j− ni j)2

ni j= 6.5

14.13

207

Page 209: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5.2 Calcolo indice χ2 con la formula operativa

X\Y y1 y2 y3x1 3 3 3 9x2 1 2 3 6x3 6 0 9 15

10 5 15 30

ni j

y1 y2 y3x1 0.1000 0.2000 0.0667 0.3667x2 0.0167 0.1333 0.1000 0.2500x3 0.2400 0.0000 0.3600 0.6000

n2i j

ni•n• j

χ2 = n

h

∑i=1

k

∑j=1

n2i j

ni•n• j−1

= 30 · (1.2167−1) = 30 ·0.2167 = 6.5

14.14

5.3 Normalizzazione

Abbiamo

χ2N =

χ2

n ·min(h−1,k−1)=

6.530 ·min(3−1,3−1)

=6.5

30 ·min(2,2)=

6.530 ·2

=6.560

= 0.1083

eχN =

√χ2

N =√

0.1083 = 0.3291.

Tra le variabili in gioco sussiste, quindi, un livello basso di connessione. 14.15

Esempio 7. Si riprenda l’analisi del caso con cui si è aperta la Sezione precedente (X =’provenienza’, Y = ’secondo’)

X \ Y y1 y2 y3 y4 y5 ni•Europa 30 20 15 15 20 100America 5 40 10 15 30 100

Asia 5 10 20 10 5 50n• j 40 70 45 40 55 250

La situazione teorica di indipendenza stocastica ni j =ni• ·n• j

nrisulta

X \ Y y1 y2 y3 y4 y5 ni•Europa 16 28 18 16 22 100America 16 28 18 16 22 100

Asia 8 14 9 8 11 50n• j 40 70 45 40 55 250

14.16

Le contingenze assolute ci j = ni j− ni j risultano

X \ Y y1 y2 y3 y4 y5Europa 14 −8 −3 −1 −2America −11 12 −8 −1 8

Asia −3 −4 11 2 −6

208

Page 210: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Le contingenze relative ni jni j

risultano

X \ Y y1 y2 y3 y4 y5Europa 1.8750 0.7143 0.8333 0.9375 0.9091America 0.3125 1.4286 0.5556 0.9375 1.3636

Asia 0.6250 0.7143 2.2222 1.2500 0.454514.17

Utilizzando la definizione dell’indice χ2 si calcolano c2i j = (ni j− ni j)

2

X \ Y y1 y2 y3 y4 y5Europa 196 64 9 1 4America 121 144 64 1 64

Asia 9 16 121 4 36

e(ni j− ni j)

2

ni j

X \ Y y1 y2 y3 y4 y5Europa 12.25 2.2857 0.5 0.0625 0.1818America 7.5625 5.1428 3.5556 0.0625 2.9091

Asia 1.125 1.1429 13.4444 0.5 3.272753.9976

14.18

Utilizzando la formula operativa si calcolanon2

i j

ni•n• j

X \ Y y1 y2 y3 y4 y5Europa 0.225 0.05714286 0.05 0.05625 0.07272727America 0.00625 0.22857143 0.02222222 0.05625 0.16363636

Asia 0.0125 0.02857143 0.17777778 0.05 0.009090911.21599026

χ2 = n

h

∑i=1

k

∑j=1

n2i j

ni•n• j−1

= 250 · (1.21599026−1) = 53.9976

OsservazioneI calcoli precedenti sono stati effettuati utilizzando 8 cifre significative allo scopo diottenere il medesimo risultato finale.

14.19

Normalizzazione

χ2 =

h

∑i=1

k

∑j=1

(ni j− ni j)2

ni j= 53.9976

Con riferimento all’esempio in esame: h = 3,k = 5 :

χ2max = n ·min(h−1,k−1) = 250 ·min(3−1,5−1)

= 250 ·min(2,4) = 250 ·2 = 500

χ2N =

χ2

χ2max

=53.9976

500= 0.108.

eχN =

√χ2

N =√

0.108 = 0.3286.

Tra le variabili in gioco sussiste, quindi, un livello basso di connessione.14.20

209

Page 211: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 Interpretazione delle contingenze relative

Si riprende l’esempio sulla distribuzione dei 250 ’secondi’ serviti a clienti di diversaorigine geografica.

X \ Y y1 y2 y3 y4 y5 ni•Europa 30 20 15 15 20 100America 5 40 10 15 30 100

Asia 5 10 20 10 5 50n• j 40 70 45 40 55 250

X\Y y1 y2 y3 y4 y5x1 16 28 18 16 22x2 16 28 18 16 22x3 8 14 9 8 11

ni j

Si considerino le distribuzioni condizionate

Y |X y1 y2 y3 y4 y5Europa 0.30 0.20 0.15 0.15 0.20 1America 0.05 0.40 0.10 0.15 0.30 1

Asia 0.10 0.20 0.40 0.20 0.10 1f req.marg.rel. 0.16 0.28 0.18 0.16 0.22 1

X |Y y1 y2 y3 y4 y5 f req.marg.rel.Europa 0.750 2/7 15/45 0.375 20/55 .4America 0.125 4/7 10/45 0.375 30/55 .4

Asia 0.125 1/7 20/45 0.25 5/55 .21 1 1 1 1 1

14.21

Contingenze relative:

ni j

ni j=

ni jni•n• j

n

=

ni jni•n• jn

=f (y j|xi)

f (y j)=

ni jn• jni•n

=f (xi|y j)

f (xi)

• Confrontando le frequenze osservate ni j con le frequenze teoriche nella situazionedi indipendenza stocastica ni j abbiamo una misura relativa della frequenza con-giunta osservata rispetto a quella che si avrebbe nella situazione di indipendenzastocastica.Ad esempio n11

n11= 30

16 = 1.875: il consumo di ’carni arrosto’ da parte di clientieuropei è superiore dell’87.5% rispetto a quello che si avrebbe nella situazione diindipendenza stocastica.

14.22

• Se rapportiamo le frequenze condizionate relative f (y j|xi) alle frequenze marginalirelative f (y j) (prima tabella di distribuzioni condizionate) confrontiamo il compor-tamento di Y nella distribuzione condizionata xi rispetto al comportamento ’medio’di Y (cfr. infra).Ad esempio

f (y1|x1)

f (y1)=

0.300.16

= 1.875

nella composizione dei secondi consumati dai clienti europei il consumo di ’carniarrosto’ è superiore dell’87.5% rispetto a quello che si ha nella composizione deisecondi di tutti i clienti (media di riferimento).

14.23

• Se rapportiamo le frequenze condizionate relative f (xi|y j) alle frequenze margi-nali relative f (xi) (seconda tabella di distribuzioni condizionate) confrontiamo ilcomportamento di X nella distribuzione condizionata y j rispetto al comportamento’medio’ di X (cfr. infra).

210

Page 212: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Ad esempiof (x1|y1)

f (x1)=

0.750.4

= 1.875

nella composizione geografica dei clienti che hanno consumato ’carni arrosto’ lafrazione di clienti europei è superiore dell’87.5% rispetto alla composizione geo-grafica di tutti i clienti (media di riferimento).

14.24Le frequenze marginali di Y possono essere ottenute come media ponderata delle frequen-ze condizionate Y |xi.

n• j = n1 j +n2 j + . . .+nk j

n• j = n1 jn1•n1•

+n2 jn2•n2•

+ . . .+nk jnk•nk•

n• j =n1 j

n1•n1•+

n2 j

n2•n2•+ . . .+

nk j

nk•nk•

e dividendo per n abbiamo

n• j

n=

n1 j

n1•

n1•n

+n2 j

n2•

n2•n

+ . . .+nk j

nk•

nk•n

f• j =n1 j

n1•f1•+

n2 j

n2•f2•+ . . .+

nk j

nk•fk•

Ad esempio,

0.16 =1

250(0.30 ·100+0.05 ·100+0.10 ·50)

0.16 = 0.30 ·0.4+0.05 ·0.4+0.10 ·0.2

14.25

Una considerazione analoga vale per le frequenze marginali di X , che possono essereottenute come media ponderata delle frequenze condizionate X |y j.

ni• = ni1 +ni2 + . . .+nih

ni• = ni1n•1n•1

+ni2n•2n•2

+ . . .+nihn•hn•h

ni• =ni1

n•1n•1 +

ni2

n•2n•2 + . . .+

nih

n•hn•h

e dividendo per n abbiamo

ni•n

=ni1

n•1

n•1n

+ni2

n•2

n•2n

+ . . .+nih

n•h

n•hn

fi• =ni1

n•1f•1 +

ni2

n•2f•2 + . . .+

nih

n•hf•h

Ad esempio,

0.4 =1

250

(0.75 ·40+

27·70+

1545·45+0.375 ·40+

2055·55)

0.4 = 0.75 ·0.16+27·0.28+

1545·0.18+0.375 ·0.16+

2055·0.22

14.26

211

Page 213: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 EserciziEsercizio 8 (T 248, 29.01.2009, 2). Con riferimento a n unità statistiche si sono raccolti alcunidati in una tabella a doppia entrata:Determinare, motivando le risposte, i valori delle frequenze assolute mancanti in modo tale cheχ2 = 0.

X \ Y y1 y2 y3 ni•x1 21 2x2 14n• j 37

X \ Y y1 y2 y3 ni•x1 20 30x2 10 3 15n• j

X \ Y y1 y2 y3 ni•x1x2 21 0 15n• j

-

14.27

Esercizio 9 (T 253, 03.09.2009, 2). Si consideri la seguente tabella delle frequenze congiuntedel carattere quantitativo X e del carattere qualitativo ordinato Y

X \ Y y1 y2 y3 ni•1 2 n12 n13 n1•x2 n21 n22 n23 n2•

n•1 n•2 n•3 14

1. Si completi la tabella (modalità e frequenze) in modo tale che χ2 = χ2max e che per la variabile

Y si verifichi la condizione n•1 = n•3. -14.28

Esercizio 10 (T 250, 04.06.2009, 2). Si completi la seguente tabella in modo che siano soddi-sfatte, se possibile, le condizioni indicate:

X \ Y y1 y2 y3x1 19x2 8x3 3

1. χ2N = 1 e χ2

max = 90

2. χ2N = 0 e χ2

max = 180 -

14.29

212

Page 214: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 15Connessione (2)

15.1

Indice

1 Analisi grafica: costruzione di un Mosaic Plot 213

2 Student Admissions at UC Berkeley 2162.1 Odd e Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

3 Analisi di dati multidimensionali: the Titanic data 221

4 Studio della connessione per problemi asimmetrici 222

5 Analisi delle distribuzioni condizionate 222

6 L’indice τ di Goodman Kruskal 223

7 Esercizi 224 15.2

1 Analisi grafica: costruzione di un Mosaic Plot

X \ Y Economia Giurisprudenza Ingegneriaumanistica 20 40 15 75scienti f ica 35 35 30 100

tecnica 25 15 35 7580 90 80 250

Se si vuole rappresentare la Facoltà scelta, Y , come dipendente dalla tipologia di diplomasuperiore X , occorre considerare

1. la distribuzione delle frequenze marginali relative di X2. le distribuzioni delle frequenze condizionate relative Y |xi, i = 1,2,3

X fi•u 0.30s 0.40t 0.30

1.00

Y |x=un1 jn1•

E 0.2667G 0.5333I 0.2000

1.0000

Y |x=sn2 jn2•

E 0.35G 0.35I 0.30

1.0000

Y |x=tn3 jn3•

E 0.3333G 0.2000I 0.4667

1.000015.3

213

Page 215: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

X fi• Fi•u 0.30 0.30s 0.40 0.70t 0.30 1.00

1.00

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 115.4

X fi• Fi•u 0.30 0.30s 0.40 0.70t 0.30 1.00

1.00

u

s

t

0.3

0.7

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 115.5

214

Page 216: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Y |x=un1 jn1•

f .c.r.cum.

E 0.27 0.27G 0.53 0.80I 0.20 1.00

1.00

Y |x=sn2 jn2•

f .c.r.cum.

E 0.35 0.35G 0.35 0.70I 0.30 1.00

1.00

Y |x=tn3 jn3•

f .c.r.cum.

E 0.33 0.33G 0.20 0.53I 0.47 1.00

1.00

u

s

t

0.3

0.7

1E G I

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 115.6

Y |x=un1 jn1•

f .c.r.cum.

E 0.27 0.27G 0.53 0.80I 0.20 1.00

1.00

Y |x=sn2 jn2•

f .c.r.cum.

E 0.35 0.35G 0.35 0.70I 0.30 1.00

1.00

Y |x=tn3 jn3•

f .c.r.cum.

E 0.33 0.33G 0.20 0.53I 0.47 1.00

1.00

u

s

t

E G I

15.7

Esercizio 1. Costruire il mosaic plot per le distribuzioni condizionate X |Yj ’tipologia diprovenienza’ per ciascuna Facoltà.

In questo caso la rappresentazione delle distribuzioni condizionate segue una strutturaverticale e non orizzontale. 15.8

215

Page 217: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Student Admissions at UC Berkeley

(from the R help system)

This data set is frequently used for illustrating Simpson’s paradox, see Bickel et al. (1975).At issue is whether the data show evidence of sex bias in admission practices.There were 2691 male applicants, of whom 1198 (44.5%) were admitted, compared with1835 female applicants of whom 557 (30.4%) were admitted.This gives a sample odds ratio of 1.83, indicating that males were almost twice as likelyto be admitted.In fact, graphical methods ... show that the apparent association between admission andsex stems from differences in the tendency of males and females to apply to the individualdepartments (females used to apply more to departments with higher rejection rates).

See the home page of Michael Friendly (http://www.math.yorku.ca/SCS/friendly.html)for further information.Bickel, P. J., Hammel, E. A., and O’Connell, J. W. (1975) Sex bias in graduate admissions:Data from Berkeley. Science, 187, 398-403. 15.9

Distribuzione congiunta:Admitted Rejected

Male 1198 1493Female 557 1278

Distribuzioni marginali:freq

Male 2691Female 1835

freqAdmitted 1755Rejected 2771

Distribuzione congiunta (frequenze relative fi j):Admitted Rejected

Male 0.2647 0.3299Female 0.1231 0.2824

Distribuzioni marginali (frequenze relative fi•, f• j):freq

Male 0.5946Female 0.4054

freqAdmitted 0.3878Rejected 0.6122

15.10

2.1 Odd e Odds Ratio

Definizione 2 (Odd). Con riferimento a una variabile statistica Y dicotomica, (con duesole modalità y1 e y2) si definisce odd il rapporto tra le frequenze assunte da y1 e y2.

Esempio 3. Considerando il risultato del test di ammissione abbiamo 11981493 = 0.8024 per i

maschi e 5571278 = 0.4358 per le femmine.

15.11

Definizione 4 (Odds ratio). Con riferimento a una variabile statistica doppia (X ,Y ) conY dicotomica si definisce odds ratio il rapporto tra due odds definiti sulle distribuzionicondizionate Y |X .

Esempio 5. Considerando i risultati dei test di ammissione abbiamo

119814935571278

=0.80240.4358

= 1.8412

15.12

216

Page 218: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Distribuzioni condizionate

Admit|Gender:Admitted Rejected

Male 0.4452 0.5548Female 0.3035 0.6965

Gender|Admit:Male Female

Admitted 0.6826 0.3174Rejected 0.5388 0.4612

Admit

Mal

eF

emal

e

Admitted Rejected

Admit

Admitted Rejected

Mal

eF

emal

e

15.13

Distribuzioni (congiunte) di Gender e Admit, condizionatamente ai diversi livellidella variabile Dept

Department AAdmitted Rejected

Male 512 313Female 89 19

Department BAdmitted Rejected

Male 353 207Female 17 8

Department CAdmitted Rejected

Male 120 205Female 202 391

Department DAdmitted Rejected

Male 138 279Female 131 244

Department EAdmitted Rejected

Male 53 138Female 94 299

Department FAdmitted Rejected

Male 22 351Female 24 317

15.14Dalle precedenti tabelle è possibile ricavare le informazioni relative:

• al diverso grado di selettività esercitato dai 6 dipartimenti,• alla preferenza nella scelta del dipartimento.

OsservazioneI gruppi (Dept) non sono omogenei.

15.15

217

Page 219: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Grado di selettivitàDepartment A

Admitted Rejectedfreq 0.6442 0.3558

Department BAdmitted Rejected

freq 0.6325 0.3675

Department CAdmitted Rejected

freq 0.3508 0.6492

Department DAdmitted Rejected

freq 0.3396 0.6604

Department EAdmitted Rejected

freq 0.2517 0.7483

Department FAdmitted Rejected

freq 0.0644 0.9356

I dipartimenti sono già ordinati rispetto alla rigidità nella selezione 15.16

Scelta dipartimentoDepartment A

Male Femalefreq 0.8842 0.1158

Department BMale Female

freq 0.9573 0.0427

Department CMale Female

freq 0.3540 0.6460

Department DMale Female

freq 0.5265 0.4735

Department EMale Female

freq 0.3271 0.6729

Department FMale Female

freq 0.5224 0.4776

La preferenza data dalle femmine ai diversi dipartimenti è secondo l’ordine

E C F D A B15.17

218

Page 220: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Distribuzioni condizionate di Admit|Gender per i diversi dipartimenti

Department AAdmitted Rejected

Male 512 313Female 89 19

Admitted RejectedMale 0.6206 0.3794

Female 0.8241 0.1759

Department BAdmitted Rejected

Male 353 207Female 17 8

Admitted RejectedMale 0.6304 0.3696

Female 0.6800 0.3200

Department CAdmitted Rejected

Male 120 205Female 202 391

Admitted RejectedMale 0.3692 0.6308

Female 0.3406 0.6594

Department DAdmitted Rejected

Male 138 279Female 131 244

Admitted RejectedMale 0.3309 0.6691

Female 0.3493 0.6507

Department EAdmitted Rejected

Male 53 138Female 94 299

Admitted RejectedMale 0.2775 0.7225

Female 0.2392 0.7608

Department FAdmitted Rejected

Male 22 351Female 24 317

Admitted RejectedMale 0.0590 0.9410

Female 0.0704 0.929615.18

Department A

Admit

Sex M

ale

Fem

ale

Admitted Rejected

Department B

Admit

Sex

Mal

eF

emal

e

Admitted Rejected

Department C

Admit

Sex

Mal

eF

emal

e

Admitted Rejected

Department D

Admit

Sex

Mal

eF

emal

e

Admitted Rejected

Department E

Admit

Sex

Mal

eF

emal

e

Admitted Rejected

Department F

Admit

Sex

Mal

eF

emal

e

Admitted Rejected

Student admissions at UC Berkeley

15.19

219

Page 221: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Distribuzioni condizionate di Gender|Admit per i diversi dipartimenti

Department AAdmitted Rejected

Male 512 313Female 89 19

Male FemaleAdmitted 0.8519 0.1481Rejected 0.9428 0.0572

Department BAdmitted Rejected

Male 353 207Female 17 8

Male FemaleAdmitted 0.9541 0.0459Rejected 0.9628 0.0372

Department CAdmitted Rejected

Male 120 205Female 202 391

Male FemaleAdmitted 0.3727 0.6273Rejected 0.3440 0.6560

Department DAdmitted Rejected

Male 138 279Female 131 244

Male FemaleAdmitted 0.5130 0.4870Rejected 0.5335 0.4665

Department EAdmitted Rejected

Male 53 138Female 94 299

Male FemaleAdmitted 0.3605 0.6395Rejected 0.3158 0.6842

Department FAdmitted Rejected

Male 22 351Female 24 317

Male FemaleAdmitted 0.4783 0.5217Rejected 0.5254 0.4746

15.20

Department A

Admit

Sex

Admitted Rejected

Mal

eF

emal

e

Department B

Admit

Sex

Admitted Rejected

Mal

eF

emal

e

Department C

Admit

Sex

Admitted Rejected

Mal

eF

emal

e

Department D

Admit

Sex

Admitted Rejected

Mal

eF

emal

e

Department E

Admit

Sex

Admitted Rejected

Mal

eF

emal

e

Department F

Admit

Sex

Admitted Rejected

Mal

eF

emal

e

Student admissions at UC Berkeley

15.21

Osservazioni• Solo nei dipartimenti C ed E si ha una percentuale di successo per le femmine

lievemente inferiore rispetto a quella ottenuta dai maschi.• In tali dipartimenti si osserva anche che la quota di femmine tra gli ammessi risulta

inferiore alla quota di femmine tra coloro che non sono stati ammessi.• L’elevato numero di femmine che hanno fatto domanda in tali dipartimenti, unita-

mente al basso numero di domande presentate nei dipartimenti a bassa selettività,ha una grande influenza nella determinazione della percentuale di successo a li-vello ’marginale’, dando l’impressione di una discriminazione nei confronti dellecandidature delle femmine.

15.22

220

Page 222: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Analisi di dati multidimensionali: the Titanic data(from the R help system)

The sinking of the Titanic is a famous event. Many well-known facts – from the proportions offirst-class passengers to the ’women and children first’ policy, and the fact that that policy was notentirely successful in saving the women and children in the third class – are reflected in the survivalrates for various classes of passenger.The dataset Titanic consists of a 4-dimensional array resulting from cross-tabulating 2201 ob-servations on 4 variables. The variables and their levels are as follows:

No Name Levels1 Class 1st, 2nd, 3rd, Crew2 Sex Male, Female3 Age Child, Adult4 Survived No, Yes

These data were originally collected by the British Board of Trade in their investigation of thesinking.Note that there is not complete agreement among primary sources as to the exact numbers on board,rescued, or lost.

> mosaicplot(Titanic) 15.23

Titanic

Class

Sex

1st 2nd 3rd Crew

Mal

eF

emal

e

Child Adult

No

Yes

No

Yes

Child Adult Child Adult Child Adult

15.24

221

Page 223: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Studio della connessione per problemi asimmetrici

Si consideri la seguente tabella a doppia entrata che riassume la distribuzione delle varia-bili X , provenienza scolastica, e Y , Facoltà scelta.

ECONOMIA LETTEREumanistica 9 36scientifica 30 30

commerciale 41 4

È ragionevole1 ritenere che la scelta della Facoltà Y possa logicamente dipendere dallatipologia di formazione superiore conseguita X .L’indice χ2, che, si ricorda, ha carattere simmetrico, risulta 46.1607, con valore norma-lizzato χ2

N = 0.3077, confermando la presenza di connessione tra le variabili in gioco.15.25

5 Analisi delle distribuzioni condizionate

Studio delle distribuzioni condizionate Y |X . Si riportano le frequenze condizionaterelative Y |xi, i = 1,2,3.

ECONOMIA LETTEREumanistica 0.2000 0.8000scientifica 0.5000 0.5000

commerciale 0.9111 0.0889

Con riferimento ai 250 casi considerati:• gli studenti provenienti da una scuola umanistica prediligono la Facoltà di Lettere;• quelli provenienti da un istituto commerciale la Facoltà di Economia;• gli studenti con maturità scientifica sono, invece, equidistribuiti tra le due Facoltà.

La situazione è evidente se si considerano i valori della Moda per le distribuzioni condi-zionate. 15.26

Per ’avvalorare’ il valore della Moda si può calcolare una misura di eterogeneità.Si osserva come anche l’indice di Gini non normalizzato, G, consenta di effettuare unconfronto tra i livelli di eterogeneità delle distribuzioni condizionate, essendo questecaratterizzate tutte dallo stesso numero di categorie.Con riferimento alla marginale Y : G(Y ) = 0.4978:

G(Y ) = 1−k

∑j=1

f 2• j G(Y |xi) = 1−

k

∑j=1

(ni j

ni•

)2

, i = 1, . . . ,h

xi Moda(Y |xi) G(Y |xi)umanistica LETTERE 0.32scientifica @ 0.5

commerciale ECONOMIA 0.16215.27

1Nella presente sezione si assume che X ’variabile sulle righe della tabella’ possa interpretarsi come varia-bile ’indipendente’, mentre Y ’variabile sulle colonne della tabella’ come variabile ’dipendente’, valga cioè laseguente relazione di causalità

X → Y

222

Page 224: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Lo studio delle cosiddette ’differenze di eterogeneità’

G(Y )−G(Y |xi), i = 1, . . . ,h,

consente di stabilire per quali livelli della variabile X si ha una propensione della variabileY a concentrarsi su ’poche’ categorie, o addirittura su un valore modale, dando in questocaso un contributo significativo alla connessione

xi Moda(Y |xi) G(Y |xi) G(Y )−G(Y |xi)umanistica LETTERE 0.32 0.4978−0.32 = 0.1778scientifica @ 0.5 0.4978−0.5 =−0.0022

commerciale ECONOMIA 0.162 0.4978−0.162 = 0.3358

Per Y |x1 e per Y |x3 abbiamo G(Y )−G(Y |xi)> 0. 15.28

6 L’indice τ di Goodman Kruskal

L’indice di Goodman Kruskal consiste in una sintesi (media aritmetica) delle differenzedi eterogeneità, che vengono ponderate con le frequenze della variabile condizionante X :

GK(Y |X) = τY |X =MX G(Y )−G(Y |X)

G(Y )

Si osserva che l’indice è già normalizzato.

xi G(Y )−G(Y |xi) n(xi) mod × frequmanistica 0.1778 45 8scientifica −0.0022 60 -0.1333

commerciale 0.3358 45 15.1111150 22.9778

GK(Y |X) = τY |X =22.9778

1500.4978

= 0.3077.

15.29

OsservazioneSe la variabile ’dipendente’, Y , è caratterizzata da due sole categorie l’indice χ2

N e l’in-dice di Goodman Kruskal, GK(Y |X), forniscono lo stesso valore (normalmente ciò nonavviene).

OsservazioneCome osservato per l’indice χ2, anche l’espressione dell’indice di Goodman Kruskal,GK(Y |X), presentata sopra, trova utilizzo nell’ambito della Statistica inferenziale; volen-do utilizzare l’indice ai fini descrittivi è preferibile considerare la radice quadrata dellostesso, che risulta meglio interpretabile come indice normalizzato.Con riferimento all’esempio precedente abbiamo√

GK(Y |X) = 0.5547.

che indica un livello medio di connessione della scelta della Facoltà rispetto alla prove-nienza scolastica.

Solo per esercizio:

GK(X |Y ) = 0.1402 e√

GK(X |Y ) = 0.3744

questo risultato ha la sola valenza numerica e nessun senso logico in quanto basatosull’assunzione che sia la tipologia di diploma a dipendere dalla scelta della Facoltà. 15.30

223

Page 225: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Esercizi

Esercizio 6. Nella seguente tabella è riportata la distribuzione delle frequenze congiuntedelle variabili X = ’Tipologia diploma scuola superiore’ e Y = ’Facoltà universitaria’rilevate in corrispondenza di un campione di 250 matricole.

X \ Y Economia Giurisprudenza Ingegneriaumanistica 20 40 15 75scienti f ica 35 35 30 100tecnica 25 15 35 75

80 90 80 250

1. È possibile ritenere che la scelta della facoltà dipende dal tipo di diploma?2. Sotto quali condizioni tale conclusione è estensibile a tutta la popolazione delle

matricole universitarie?15.31

Esercizio 7 (T 182, 18.01.2001, 1). In una località turistica invernale L1 sono presenti 30alberghi.Nel prospetto di sinistra si riporta la distribuzione congiunta del livello di soddisfacimento, S,rispetto alla categoria alberghiera, A, espresso da un campione di 200 turisti.Nel prospetto di destra si riportano, in corrispondenza di ciascuna categoria alberghiera, con riferi-mento al medesimo campione di 200 turisti, le distribuzioni delle frequenze, rilevate nel 1999, dellapermanenza media in giorni, G, del soggiorno, condizionate rispetto alla categoria alberghiera, A.

A \ S non sodd. indi f f . sodd.?? 18 6 36??? 12 43 45???? 8 12 20

G|A ?? ??? ????

1.5 0.50 0.70 0.603.0 0.30 0.15 0.257.5 0.20 0.15 0.15

1.00 1.00 1.00

1. Si rappresentino graficamente le distribuzioni A|G = 3.0 e A|G = 7.5 e si dica, senza effet-tuare calcoli e motivando la risposta, se sussiste indipendenza stocastica fra A e G.

2. Si confrontino con opportuni indici di posizione e di variabilità le distribuzioni G|A = ?? eG|A = ???.

3. Si calcoli una misura della connessione tra il livello di soddisfazione e la categoria alber-ghiera (S|A).

15.32

Esercizio 8 (T 239, 10.01.2008, 3). Completare la tabella, esplicitando anche i valoripossibili per x2 e y2, in modo tale che l’indice χ2 normalizzato sia pari a zero:

X \ Y 1 y2 = 35

x2 = 2−

15.33

Esercizio 9 (T 240, 31.01.2008, 2,3). Completare la tabella (inserendo frequenze con-giunte e marginali) in modo che:

a) χ2 = 21;b) ci sia dipendenza funzionale di Y da X .

X \ Y y1 y2 y3x1 14x2

21

15.34

224

Page 226: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 10 (T 248, 29.01.2009, 2). Con riferimento a n unità statistiche si sono raccoltialcuni dati in una tabella a doppia entrata:Determinare, motivando le risposte, i valori delle frequenze assolute mancanti in modotale che χ2 = 0.

X \ Y y1 y2 y3 ni•x1 29 10x2 6n• j 45

X \ Y y1 y2 y3 ni•x1 20 30x2 10 11 15n• j

X \ Y y1 y2 y3 ni•x1x2 29 0 15n• j

-

15.35

225

Page 227: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 228: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 16Studio della dipendenza se lavariabile dipendente è di tipoquantitativo

16.1

Indice

1 Introduzione 227

2 Studio di un caso 227

3 Collegamento tra scomposizione della varianza e analisi bivariata 228

4 Calcolo del rapporto di correlazione η2Y |X 229

5 Considerazioni di riepilogo 231

6 Raccordo notazione 231

7 Analisi del Rapporto di Correlazione 232

8 Relazione tra indipendenza stocastica e indipendenza in media 234

9 Esercizi 236 16.2

1 Introduzione

Nella presente sezione si descrive come analizzare il comportamento congiunto di duevariabili in relazione a un problema di tipo asimmetrico con:

• X carattere qualitativo o quantitativo (variabile esplicativa)• Y carattere quantitativo (variabile dipendente)

Si vuole studiare Y in funzione di X .Si ricorda come lo studio della dipendenza passi sempre attraverso lo studio delle di-stribuzioni condizionate Y |X .Dal momento che la variabile dipendente (variabile risposta/outcome) Y è di tipo quanti-tativo, è possibile riassumere le distribuzioni condizionate mediante appropriati indici diposizione.Utilizzeremo le medie delle distribuzioni condizionate M(Y |xi). La scelta della mediacome indice sintetico verrà giustificata nelle sezioni successive, quando verrà presentatoil criterio dei minimi quadrati. 16.3

227

Page 229: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Studio di un caso

Un albergatore è interessato a stabilire se il livello Y dei consumi per food & beveragedipende dal motivo (X) della trasferta dei clienti: per turismo (T ) o per lavoro (L).A tal fine effettua, presso un campione di 10 soggetti, una rilevazione dei caratteri X e Yottenendo le seguenti informazioni

X YT 23.1T 43.1L 21.5L 7T 21.8T 34.6L 26.6T 30.2L 18L 10.5

16.4

3 Collegamento tra scomposizione della varianza e ana-lisi bivariata

Sebbene risulti più semplice analizzare i dati in questione considerando la struttura pergruppi1

Turismo Lavoro

23.1 43.1 21.8

34.6 30.2

21.5 7 26.6

18 10.5

riclassifichiamo i dati in una tabella a doppia entrata SOLO per mostrare come la variabiledi ragruppamento possa essere interpretata come variabile esplicativa o condizionante.

X \ Y 7 10.5 18 21.5 21.8 23.1 26.6 30.2 34.6 43.1 ni•T 0 0 0 0 1 1 0 1 1 1 5L 1 1 1 1 0 0 1 0 0 0 5

n• j 1 1 1 1 1 1 1 1 1 1 10

Y |Xi 7 10.5 18 21.5 21.8 23.1 26.6 30.2 34.6 43.1T 0 0 0 0 0.2 0.2 0 0.2 0.2 0.2 1L 0.2 0.2 0.2 0.2 0 0 0.2 0 0 0 1

16.5

Si ricorda come sia possibile studiare il comportamento congiunto a partire da un’analisigrafica che rappresenti le coppie di valori e le medie di gruppo (medie condizionate)Possiamo rappresentare i valori assunti dalle unità statistiche appartenenti alle 2 categorie

1cfr. calcolo delle medie potenziate in corrispondenza di valori singoli e il risultato di scomposizione dellavarianza

228

Page 230: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

0

10

20

30

40

50

Turismo Lavoro

Y |X = turismo Y |X = lavoroM(Y |X = turismo) = 30.56 M(Y |X = lavoro) = 16.72

Var(Y |X = turismo) = 61.2184 Var(Y |X = lavoro) = 51.053616.6

Infatti:

M(Y |X = turismo) =15(23.1+43.1+21.8+34.6+30.2) =

15

152.8 = 30.56

Var(Y |X = turismo) =15(23.12 +43.12 +21.82 +34.62 +30.22)−30.562 =

=15

4975.66−933.9136 = 995.132−933.9136 = 61.2184

M(Y |X = lavoro) =15(23.1+43.1+21.8+34.6+30.2) =

15

83.6 = 16.72

Var(Y |X = lavoro) =15(21.52 +72 +26.62 +182 +10.52)−16.722 =

=15

1653.06−279.5584 = 330.612−279.5584 = 51.0536

16.7Stiamo quindi interpretando i dati mediante la funzione medie condizionate.

Dal momento che le medie condizionate sono fra loro diverse è possibile concludereche sussiste una forte dipendenza della variabile Y dalla variabile X =motivazione delsoggiorno?

Per rispondere al quesito occorre considerare il risultato di scomposizione della varianzae calcolare il rapporto di correlazione η2

Y |X .

NotazioneNel presente contesto (analisi bivariata) la varianza Between e la varianza Within sonoanche denominate varianza spiegata e varianza residua.

16.8

229

Page 231: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Calcolo del rapporto di correlazione η2Y |X

In primo luogo calcoliamo media e varianza della variabile statistica medie condizionateM(Y |X)

xi M(Y |xi) niT 30.56 5L 16.72 5

le cui modalità sono le medie condizionate (medie di gruppo), con frequenze le numero-sità delle categorie della variabile condizionante (numerosità di gruppo)

M(Y |xi) ni M(Y |xi) ·ni M(Y |xi)2 ·ni30.56 5 152.8 4669.56816.72 5 83.6 1397.792

10 236.4 6067.36

MXM(Y |X) =1n

h

∑i=1

modalità · frequenze =1

10236.4 = 23.64 = M(Y )

VarXM(Y |X) = σ2B =

varianzaspiegata =

momentosecondo −media2 =

=110

6067.36−23.642 = 606.736−558.8496 = 47.8864

16.9

È possibile ricostruire la variabile statistica varianze condizionate Var(Y |X)

xi Var(Y |xi) niT 61.2184 5L 51.0536 5

10

le cui modalità sono le varianze condizionate (varianze di gruppo), con associate co-me frequenze le numerosità delle categorie della variabile condizionante (numerosità digruppo).La media di tale variabile statistica risulta

Var(Y |xi) ni Var(Y |xi)ni61.2184 5 306.09251.0536 5 255.268

10 561.36

MXVar(Y |X) = σ2W =

varianzaresidua =

1n

h

∑i=1

modalità · frequenze =

=110

561.36 = 56.136

16.10

La varianza della variabile statistica marginale Y (varianza generale calcolata su tutte leunità statistiche) può essere ottenuta come

σ2Y = varianza spiegata + varianza residua = σ

2B +σ

2W

= 47.8864+56.136 = 104.0224

230

Page 232: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si può, infatti, verificare che

Var(Y ) =110

(23.12 +43.12 +21.52 +72 +21.82 +34.62 +26.62 +30.22 +182 +10.52)−23.642

=110

(6628.72)−558.8496 = 662.872−558.8496 = 104.0224

16.11

Abbiamo, quindi

VarXM(Y |X)= σ2B = 47.8864

MXVar(Y |X)= σ2W = 56.136

e σ2 = 104.0224

quindi

η2 =

47.8864104.0224

= 0.4603.

Il rapporto di correlazione assume un valore moderato.Non sussiste, quindi, un forte livello di dipendenza tra la spesa per food & beverage e lamotivazione del soggiorno.

5 Considerazioni di riepilogo

Considerazioni di riepilogo

• È possibile concludere che sussiste una certa dipendenza della variabile Y = spesaper food & beverage dalla variabile X = motivazione del viaggio in quanto le mediecondizionate sono fra loro diverse (Varianza delle medie condizionate)

• Tale considerazione non garantisce un livello elevato di dipendenza in quanto lemedie condizionate devono essere ’rappresentative’ delle rispettive distribuzionicondizionate

• Si deve, quindi, anche considerare la variabilità delle rispettive distribuzioni condi-zionate

• Affinché le medie condizionate siano rappresentative è necessario che le varianzecondizionate assumano valore piccolo (Media delle varianze condizionate)

16.12

6 Raccordo notazione

Proprietà Associativa della media aritmetica

media generale = media delle medie di gruppoM(Y ) = MXM(Y |X)

Scomposizione varianzaσ2

B = varianza spiegata = VarXM(Y |X)+ + +

σ2W = varianza residua = MXVar(Y |X)= = =

σ2(globale) = varianza dipendente = Var(Y )

16.13

231

Page 233: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Analisi del Rapporto di Correlazione

Osservazione• medie condizionate tra loro molto diverse → varianza spiegata ↑• varianze condizionate piccole → varianza residua ↓

Precedentemente si era utilizzato il Rapporto di Correlazione per stabilire se è opportunoeffettuare una segmentazione delle unità statistiche; l’indice consente di sintetizzare ledue considerazioni riportate nella precedente Osservazione.

Definizione 1 (Rapporto di correlazione).

η2Y |X =

var.spiegataVar(Y )

=VarXM(Y |X)

Var(Y )

= 1− var.residuaVar(Y )

= 1− MXVar(Y |X)Var(Y )

16.14

Interpretazione• è interpretabile anche come rapporto di composizione in quanto

var. spiegata + var. residua = var. totale dipendente

0≤ η2 ≤ 1

• quota di variabilità spiegata dalla funzione medie condizionate

Si analizzano ora le situazioni a cui corrispondono i valori estremi di η2 16.15

η2Y |X = 0

η2Y |X =

VarXM(Y |X)Var(Y )

quindiη

2Y |X = 0 ↔ VarXM(Y |X)= 0

la variabile statistica ’medie condizionate’ M(Y |X) ha varianza nulla (è degenere)

M(Y |x1) = M(Y |x2) = . . .= M(Y |xh) = M(Y )

situazione di indipendenza in media

x1 x2 ... xh

y

16.16

η2Y |X = 1

η2Y |X = 1− MXVar(Y |X)

Var(Y )

quindiη

2Y |X = 1 ↔ MXVar(Y |X)= 0

232

Page 234: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

la variabile statistica ’varianze condizionate’ Var(Y |X) ha media nullama

Var(Y |x1)≥ 0,Var(Y |x2)≥ 0, . . . ,Var(Y |xh)≥ 0

quindiMXVar(Y |X)= 0↔Var(Y |x1) = . . .=Var(Y |xh) = 0

le distribuzioni condizionate Y |xi sono degeneri, situazione di dipendenza funzionale.

x1 x2 ... xh

y

16.17

OsservazioneIn tutte le precedenti considerazioni la variabile X ha svolto il ruolo di carattere condizio-nante, come mera variabile di raggruppamento; potrebbe, quindi, essere di tipo

• qualitativo(genere, regione geografica, tipo di cliente, classe di età o di reddito)

• o quantitativo(numero componenti famiglia, età)

In entrambi i casi, da un punto di vista operativo, non dovrebbe essere caratterizzata daun numero troppo elevato di categorie/modalità(eventuale ricodifica in un numero ridotto di categorie/classi).

16.18

Esercizio 2. Con riferimento a 20 unità statistiche sono state rilevate le variabili X1, X2,Y , Z e W .

i x1i x2i yi zi wi1 1 1 38 36 32.752 1 1 39 38 34.753 1 2 40 40 36.24 1 2 41 42 38.25 1 3 42 44 406 2 2 47 49 50.27 2 3 43 41 428 2 4 46 47 48.49 2 4 44 43 44.410 3 3 42 42 4011 3 4 41 40 38.412 3 4 43 44 42.413 4 1 47 48 50.7514 4 1 49 52 54.7515 4 3 49 52 5416 4 2 43 40 42.217 4 2 48 50 52.218 4 3 43 40 4219 4 3 45 44 4620 4 4 44 42 44.4

233

Page 235: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si vuole studiare la dipendenza:

A di Y in funzione di X1 C di Y in funzione di X2

B di Z in funzione di X1 D di W in funzione di X216.19

medie condizionate diverse - bassa variabilità distribuzioni condizionate medie condizionate simili - bassa variabilità distribuzioni condizionate

X1 X1 X1 X1 X2 X2 X2 X2X1 1 2 3 4 X2 1 2 3 4M(Y|X1) 40 45 42 46 M(Y|X2) 43.3 43.8 44 43.6Var(Y|X1) 2 2.5 0.6667 5.75 Var(Y|X2) 23.1875 10.16 6 2.64n(Y|X1) 5 4 3 8 n(Y|X2) 4 5 6 5

medie condizionate diverse - elevata variabilità distribuzioni condizionate medie condizionate simili - elevata variabilità distribuzioni condizionate

X1 X1 X1 X1 X2 X2 X2 X2X1 1 2 3 4 X2 1 2 3 4M(Z|X1) 40 45 42 46 M(W|X2) 43.3 43.8 44 43.6Var(Z|X1) 8 10 2.6667 23 Var(W|X2) 92.75 40.64 24 10.56n(Z|X1) 5 4 3 8 n(W|X2) 4 5 6 5

M(Y)=MX1[M(Y|X1)] 43.7 M(Y)=MX2[M(Y|X2)] 43.7MX1[M(Y2|X1)] 1916 MX2[M(Y2|X2)] 1909.763

varianza spiegata VarX1[M(Y|X1)] 6.31 VarX2[M(Y|X2)] 0.0725 varianza spiegatavarianza residua MX1[Var(Y|X1)] 3.4 MX2[Var(Y|X2)] 9.6375 varianza residua

Var(Y)=var.spieg.+var.res. 9.71 Var(Y)=var.spieg.+var.res. 9.71rapporto di correlazione 0.649846 rapporto di correlazione 0.007467

M(Z)=MX1[M(Z|X1)] 43.7 M(W)=MX2[M(W|X2)] 43.7MX1[M(Z2|X1)] 1916 MX2[M(W2|X2)] 1909.763

varianza spiegata VarX1[M(Z|X1)] 6.31 VarX2[M(W|X2)] 0.0725 varianza spiegatavarianza residua MX1[Var(Z|X1)] 13.6 MX2[Var(W|X2)] 38.55 varianza residua

Var(Z)=var.spieg.+var.res. 19.91 Var(W)=var.spieg.+var.res. 38.6225rapporto di correlazione 0.316926 rapporto di correlazione 0.001877

A

B

C

D

A

B

C

D

30

35

40

45

50

55

60

0 1 2 3 4 530

35

40

45

50

55

60

0 1 2 3 4 5

30

35

40

45

50

55

60

0 1 2 3 4 530

35

40

45

50

55

60

0 1 2 3 4 5

A 1a situazione di riferimento C 2a situazione di riferimento(medie condizionate diverse e rappresentative) (medie condizionate simili e poco rappresentative)

B aumento variabilità distribuzioni condizionate D aumento variabilità distribuzioni condizionate

16.20

8 Relazione tra indipendenza stocastica e indipenden-za in media

Relazione tra indipendenza stocastica e indipendenza in mediaindipendenza stocastica

Y |xi ∼ Y ↔ X |y j ∼ X

↓ ↑\/ ↓ ↑\/

M(Y |xi) = M(Y ) M(X |y j) = M(X)i = 1,2, . . . ,h j = 1,2, . . . ,k

l lη2

Y |X = 0 η2X |Y = 0

indipendenza in media

Nella parte in basso a destra della precedente relazione si è assunto che anche X sia ditipo quantitativo.

234

Page 236: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Osservazioneη2

Y |X e η2X |Y possono anche essere molto differenti

16.21Indipendenza in media (biettiva) ma non indipendenza stocastica

X \ Y y2−b y2 y2 +bx2− c 0 20 0

x2 10 30 10x2 + c 0 20 0

abbiamo

x

y

y

x

µY (x1) = µY (x2) = µY (x3) = y2 e µX (y1) = µX (y2) = µX (y3) = x2

η2Y |X = 0 η2

X |Y = 0

16.22

Indipendenza in media in una direzione (di X da Y ) e non indipendenza in media nell’altra

X \ Y y1 y2 y3x2− c 0 20 10

x2 10 30 0x2 + c 0 20 10

abbiamo

x

y

y

x

µY (x1) = µY (x3)> µY (x2) e µX (y1) = µX (y2) = µX (y3) = x2

η2Y |X > 0 η2

X |Y = 0

16.23

235

Page 237: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

9 EserciziEsercizio 3. Si completino, se possibile, le seguenti tabelle a doppia entrata con le opportunefrequenze congiunte relative in modo tale che:

a) le variabili X e Y siano stocasticamente indipendentiX \ Y y1 y2 y3

x1 0.4x2 0.6

0.2 0.6 0.2 1

b) sussista dipendenza funzionale di Y da XX \ Y y1 y2 y3

x1 0.4x2 0.6

0.2 0.6 0.2 1

c) sussista dipendenza funzionale di X da YX \ Y y1 y2 y3

x1 0.4x2 0.6

0.2 0.6 0.2 116.24

Esercizio 4 (continuazione). Si completino, se possibile, le seguenti tabelle a doppia entrata conle opportune frequenze congiunte relative in modo tale che:

d) sussistano contemporaneamente:dipendenza funzionale di X da Yindipendenza in media di Y da X

X \ Y y1 y2 y3x1 0.4x2 0.6

0.2 0.6 0.2 1

e) si realizzino contemporaneamente le seguenti condizioni:indipendenza in media di Y da Xnon ci sia dipendenza funzionale di X da YX e Y non siano stocasticamente indipendenti

X \ Y y1 y2 y3x1 0.4x2 0.6

0.2 0.6 0.2 116.25

Esercizio 5 (T 253, 03.09.2009, 2). Si consideri la seguente tabella delle frequenze congiuntedel carattere quantitativo X e del carattere qualitativo ordinato Y

X \ Y y1 y2 y3 ni•1 2 n12 n13 n1•x2 n21 n22 n23 n2•

n•1 n•2 n•3 14

1. Si completi la tabella (modalità e frequenze) in modo che contemporaneamente ci sia indi-pendenza in media di X da Y e la moda di Y sia y2.-

16.26

236

Page 238: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 6 (T 250, 04.06.2009, 2). Si completi la seguente tabella in modo che siano soddi-sfatte, se possibile, le condizioni indicate:

X \ Y y1 y2 y3x1 19x2 8x3 3

1. η2X |Y = 0 e η2

Y |X 6= 0 -

16.27

Esercizio 7 (T 256, 28.01.2010, 5). Si indichi, senza effettuare calcoli e motivando le risposte,il valore (o l’intervallo di valori) assunto dagli indici η2

Y |X , η2X |Y e χ2

N .

X \ Y 1 2 34 9 0 06 0 8 6

-

16.28

Esercizio 8 (T 264-3, 07.07.2011, 4). Si completi se possibile la seguente tabella, riportandomodalità e frequenze e motivando teoricamente la risposta, in modo tale che:

X \ Y 1 2 32 2 55 2 0 28

1. η2Y |X < η2

X |Y < 1

2. η2Y |X = η2

X |Y -

16.29

Esercizio 9 (T 267, 26.01.2012, 5). Se possibile e giustificando teoricamente le risposte, sicompleti la seguente tabella in modo da soddisfare le condizioni sotto indicate.

X \ Y 10 305 1 610 5

1. η2X |Y = 1, η2

Y |X = 0

2. η2X |Y = 0, χ2 = 0

3. η2X |Y = 1, η2

Y |X = 1 -

16.30

Esercizio 10 (T 269-2, 28.06.2012, 4). Dati due caratteri Z e W , indicare che valore assumel’indice η2

Z|W nelle seguenti ipotesi:

1. l’indice di connessione χ2 assume valore zero;

2. la media delle varianze condizionate è pari a 3 volte la varianza delle medie condizionate;

3. la distribuzione delle medie condizionate e delle varianze condizionate è la seguentew1 w2 w3

M(Z|W ) 2 4 6σ2

Z|W 7 7 7frequenze marginali di W 20 10 20

-

16.31

Esercizio 11 (T 270-1, 20.09.2012, 4). Se possibile e giustificando teoricamente le risposte, sicompleti la seguente tabella in modo da soddisfare le condizioni sotto indicate.

X \ Y 3 92 2

26

1. η2Y |X = η2

X |Y -

16.32

237

Page 239: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 240: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 17Studio della dipendenza seentrambe le variabili sono di tipoquantitativo (1)

17.1

Indice

1 Introduzione 239

2 Funzioni delle componenti di una variabile statistica doppia 239

3 Media di una funzione di una variabile statistica doppia 240

4 La Covarianza 242

5 Interpretazione della Covarianza 242

6 Media di una combinazione lineare 248

7 Varianza di una combinazione lineare 249

8 Covarianza tra trasformazioni lineari 250 17.2

1 Introduzione

Si premettono alcuni complementi sulla variabile statistica doppia

• funzioni delle componenti di una variabile statistica doppia• media di una funzione delle componenti di una variabile statistica doppia• covarianza• media di una combinazione lineare delle componenti di una variabile statistica

doppia• varianza di una combinazione lineare delle componenti di una variabile statistica

doppia• covarianza tra trasformazioni lineari

17.3

2 Funzioni delle componenti di una variabile statisticadoppia

W = f (X ,Y ) = X +Y

239

Page 241: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

• reddito coniugi→ reddito familiare• peso veicolo + peso carico = peso lordo

X \ Y y1 = 5 y2 = 15 y3 = 25 ni•x1 = 15 3 9 18 30x2 = 25 2 6 12 20x3 = 35 5 15 30 50

n• j 10 30 60 100

wk nk20 330 2+940 5+6+1850 15+1260 30

100

f−1(30) = (25,5),(15,15)

nk = ∑(xi,y j): f (xi,y j)=wk

ni j = ∑(xi,y j):xi+y j=wk

ni j = ∑(xi,y j)= f−1(wk)

ni j

17.4

3 Media di una funzione di una variabile statistica dop-pia

Definizione 1 (Media di una funzione di una variabile statistica doppia). L’operatoremedia aritmetica assume la seguente struttura

M(W ) = M f (X ,Y )= 1n

h

∑i=1

k

∑j=1

f (xi,y j)ni j

in presenza di una variabile statistica doppia (tabella a doppia entrata)•

M(W ) = M f (X ,Y )= 1n

n

∑i=1

f (xi,yi)

quando si considerano le coppie di valori(ciascuna coppia figura una sola volta)

17.5

Esempio 2 (W = X +Y , tabella doppia). Riprendendo l’esempio iniziale, possiamo cal-colare la media sulla variabile W (dopo averla ricostruita)

wk nk wknk20 3 6030 11 33040 29 116050 27 135060 30 1800

100 4700

M(W ) =1n

k

∑i=1

wknk = 47

oppure applicare la formula dell’operatore media alla serie statistica doppia (X ,Y )

(xi + y j)ni j y1 = 5 y2 = 15 y3 = 25x1 = 15 (15+5) ·3 = 60 (15+15) ·9 = 270 (15+25) ·18 = 720x2 = 25 (25+5) ·2 = 60 (25+15) ·6 = 240 (25+25) ·12 = 600x3 = 35 (35+5) ·5 = 200 (35+15) ·15 = 750 (35+25) ·30 = 1800

4700

240

Page 242: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

M(X +Y ) =1n

h

∑i=1

k

∑j=1

(xi + y j)ni j =1

1004700 = 47 = M(X)+M(Y ) = 27+20

17.6

Esempio 3 (W = X +Y , coppie valori). Si considerino le seguenti coppie di informazionirelative alle variabili X e Y

xi 3 2 1 4 2yi 6 4 4 6 5

l’applicazione della formula dell’operatore media consiste nel calcolare la media dellavariabile somma

xi yi wi = xi + yi3 6 92 4 61 4 54 6 102 5 7

∑ 12 25 37M = ∑/n 2.4 5 7.4

M(X) M(Y ) M(X +Y )

Oppure, ricordando che l’operatore media è lineare

M(X +Y ) = 7.4 = M(X)+M(Y ) = 2.4+517.7

Esempio 4 (W = X ·Y , tabella doppia). Riprendendo l’esempio iniziale, possiamo calco-lare la media sulla variabile W (dopo averla ricostruita)

wk nk wknk75 3 225

125 2 250175 5 875225 9 2025375 6 2250525 15 7875375 18 6750625 12 7500875 30 26250

100 54000

M(W ) =1n

k

∑i=1

wknk = 540

oppure possiamo applicare direttamente la formula dell’operatore media alla serie stati-stica doppia (X ,Y )

xiy jni j y1 = 5 y2 = 15 y3 = 25x1 = 15 15 ·5 ·3 = 225 15 ·15 ·9 = 2025 15 ·25 ·18 = 6750x2 = 25 25 ·5 ·2 = 250 25 ·15 ·6 = 2250 25 ·25 ·12 = 7500x3 = 35 35 ·5 ·5 = 875 35 ·15 ·15 = 7875 35 ·25 ·30 = 26250

54000

M(X ·Y ) = 1n

h

∑i=1

k

∑j=1

(xi · y j)ni j =1

10054000 = 540

17.8

Esempio 5 (W = X ·Y , coppie valori). Si considerino le seguenti coppie di informazionirelative alle variabili X e Y

xi 3 2 1 4 2yi 6 4 4 6 5

241

Page 243: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

xi yi xiyi3 6 182 4 81 4 44 6 242 5 10

∑ 12 25 64M = ∑/n 2.4 5 12.8

M(X) M(Y ) M(XY )

Si osserva comeM(XY ) = 12.8 6= M(X)M(Y ) = 2.4 ·5 = 12

17.9

4 La Covarianza

Definizione 6 (Covarianza).

Cov(X ,Y ) = M[(X−µX )(Y −µY )] = σXY

conµX = M(X) µY = M(Y )

Applicando la proprietà dell’operatore media aritmetica come operatore lineare

Cov(X ,Y ) = M[(X−µX )(Y −µY )] =

= M(XY −XµY −µXY +µX µY ) =

= M(XY )−µY M(X)−µX M(Y )+µX µY =

= M(XY )−µX µY −µX µY +µX µY =

= M(XY )−µX µY

si ottiene la seguente formula operativa

Cov(X ,Y ) = M(XY )−M(X)M(Y )

17.10

Con riferimento ai due esempi precedenti:• tabella a doppia entrata

Cov(X ,Y ) = M(XY )−µX µY = 540−27 ·20 = 540−540 = 0

• coppie valori

Cov(X ,Y ) = M(XY )−µX µY = 12.8−2.4 ·5 = 12.8−12 = 0.817.11

5 Interpretazione della Covarianza

Si riprende la definizione di covarianza

Cov(X ,Y ) = M[(X−µX )(Y −µY )]

la cui scrittura estesa, nel caso di coppie di osservazioni, risulta

Cov(X ,Y ) =1n

n

∑i=1

(xi−µX )(yi−µY )

Implica, quindi, il calcolo

242

Page 244: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1. delle medie (marginali) µX e µY di X e Y2. degli scarti dalle medie (xi−µX ) e (yi−µY )3. della media del prodotto di tali scarti

Il segno della covarianza dipende dal segno degli addendi (xi−µX )(yi−µY ) che figuranonella sommatoria 17.12

Si consideri la rappresentazione grafica delle seguenti coppie di osservazioni (xi,yi)

xi yi3.5 63 41 3.54 62 5.53 53 72 32 61 2

17.13

0 1 2 3 4 5

01

23

45

67

possiamo identificare sul grafico le medie di X e Y :µX = 2.45, µY = 4.8 17.14

243

Page 245: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

0 1 2 3 4 5

01

23

45

67

µX

µY

tracciare le 2 rette perpendicolari in corrispondenza di µX = 2.45 e µY = 4.8 17.15

0 1 2 3 4 5

01

23

45

67

µX

µY

e qualificare il contributo alla covarianza dato dai punti nei quattro quadranti 17.16

244

Page 246: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

0 1 2 3 4 5

01

23

45

67

µX

µY

(+) (+) = (+)

i punti nel quadrante in alto a destra hanno coordinatexi > µX e yi > µY → danno contributo positivo 17.17

0 1 2 3 4 5

01

23

45

67

µX

µY

(+) (+) = (+)

(+) (−) = (−)

i punti nel quadrante in basso a destra hanno coordinatexi > µX e yi < µY → danno contributo negativo 17.18

245

Page 247: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

0 1 2 3 4 5

01

23

45

67

µX

µY

(+) (+) = (+)

(+) (−) = (−)

(−) (−) = (+)

i punti nel quadrante in basso a sinistra hanno coordinatexi < µX e yi < µY → danno contributo positivo 17.19

0 1 2 3 4 5

01

23

45

67

µX

µY

(+) (+) = (+)

(+) (−) = (−)

(−) (−) = (+)

(−) (+) = (−)

i punti nel quadrante in alto a sinistra hanno coordinatexi < µX e yi > µY → danno contributo negativo 17.20

246

Page 248: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

conclusione (1)

0 1 2 3 4 5

01

23

45

67

µX

µY

Cov(X, Y) > 0

se sono più frequenti i punti nelle regioni in alto a destra e in basso a sinistra potremoaspettarci un valore positivo della covarianza 17.21

conclusione (2)

0 1 2 3 4 5

01

23

45

67

µX

µY

Cov(X, Y) < 0

se sono più frequenti i punti nelle regioni in basso a destra e in alto a sinistra potremoaspettarci un valore negativo della covarianza 17.22

Interpretazione della CovarianzaLa covarianza fornisce, quindi, informazioni sulla tipologia di relazione esistente tra ledue variabili

• se sussiste una dipendenza di tipo diretto

Cov(X ,Y )> 0

a valori elevati della X corrispondono valori elevati della Ya valori piccoli della X corrispondono valori piccoli della Y

247

Page 249: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

• se sussiste una dipendenza di tipo inverso

Cov(X ,Y )< 0

a valori elevati della X corrispondono valori piccoli della Ya valori piccoli della X corrispondono valori elevati della Y

Esempio 7. Dalle nozioni di Economia Politica

• relazione tra X = prezzo e Y = domanda: Cov(X ,Y )< 0• relazione tra X = prezzo e Y = offerta: Cov(X ,Y )> 0

17.23

Esempio 8. Con riferimento ai dati seguenti

xi yi xi · yi3.5 6 213 4 121 3.5 3.54 6 242 5.5 113 5 153 7 212 3 62 6 121 2 2

∑ 24.5 48 127.5∑/n 2.45 4.8 12.75

M(X) M(Y ) M(XY )

Cov(X ,Y ) = M(XY )−µX µY

= 12.75−2.45 ·4.8 = 12.75−11.76 = 0.9917.24

6 Media di una combinazione lineare

Teorema 9 (Media di una combinazione lineare). Siano X e Y due variabili statistichecon medie µX e µY e sia

W = a+bX + cY

con a,b,c ∈ℜ. AlloraM(W ) = a+bM(X)+ cM(Y ).

Dimostrazione.

M(W ) = M(a+bX + cY ) = a+bM(X)+ cM(Y )

ricordando che la media è un operatore lineare.17.25

248

Page 250: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Dimostrazione. La dimostrazione può anche essere svolta considerando la definizionedell’operatore media aritmetica per una variabile statistica doppia

M(a+bX + cY ) =1n

h

∑i=1

k

∑j=1

(a+bxi + cy j)ni j

=h

∑i=1

k

∑j=1

(a+bxi + cy j) fi j

=h

∑i=1

k

∑j=1

a fi j +h

∑i=1

k

∑j=1

bxi fi j +h

∑i=1

k

∑j=1

cy j fi j

= ah

∑i=1

k

∑j=1

fi j +bh

∑i=1

xi

k

∑j=1

fi j + ck

∑j=1

y j

h

∑i=1

fi j

= a ·1+bh

∑i=1

xi fi•+ ck

∑j=1

y j f• j =

= a+bµX + cµY .

17.26

7 Varianza di una combinazione lineare

Teorema 10 (Varianza di una combinazione lineare). Siano X e Y due variabili statistichecon medie µX , µY , varianze σ2

X , σ2Y e covarianza Cov(X ,Y ) = σXY .

Si definiscaW = a+bX + cY

con a,b,c ∈ℜ. Allora

Var(W ) = b2Var(X)+ c2Var(Y )+2bcCov(X ,Y ).

Esempio 11.µX = 5,µY = 10,σ2

X = 4,σ2Y = 5,σXY = 4.5

SeW = 10−5X +2Y

alloraa = 10,b =−5,c =+2

Var(W ) = (−5)2 ·4+22 ·5+2 · (−5) ·2 ·4.5 = 100+20−90 = 3017.27

249

Page 251: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Dimostrazione.

Var(W ) = M[W −M(W )]2

= M

[a+bX + cY −M(a+bX + cY )]2

= M

[a+bX + cY −a−bµX − cµY )]

2= M

[bX + cY −bµX − cµY )]

2= M

[b(X−µX )+ c(Y −µY )]

2

= M[b2(X−µX )

2 + c2(Y −µY )2+

+2bc(X−µX )(Y −µY )]

= b2M[(X−µX )

2]+ c2M[(Y −µY )

2]++2bcM [(X−µX )(Y −µY )]

= b2Var(X)+ c2Var(Y )+2bcCov(X ,Y )

= b2σ

2X + c2

σ2Y +2bcσXY

17.28

8 Covarianza tra trasformazioni lineari

Teorema 12 (Covarianza tra trasformazioni lineari). Siano X e Y due variabili statistichecon medie µX , µY , varianze σ2

X , σ2Y e covarianza Cov(X ,Y ).

Si definiscanoW = a+bX

eT = c+dY

con a,b,c,d ∈ℜ. AlloraCov(W,T ) = bdCov(X ,Y ).

17.29

Dimostrazione.

Cov(W,T ) = M [W −M(W )][T −M(T )]= M [a+bX−M(a+bX)][c+dY −M(c+dY )]= M [a+bX−a−bµX )][c+dY − c−dµY )]= M [bX−bµX )][dY −dµY )]= M bd[X−µX )][Y −µY )]= bd M [X−µX )][Y −µY )]= bdCov(X ,Y )

17.30

250

Page 252: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 18Studio della dipendenza seentrambe le variabili sono di tipoquantitativo (2)

18.1

Indice

1 La dipendenza e le sue misure 251

2 I modelli di regressione 252

3 Il criterio dei minimi quadrati 254

4 Bontà di adattamento di un modello 254

5 Soluzione del problema: la funzione di Regressione 255

6 Origine del termine regressione 257

7 Adattamento e dipendenza 259

8 I polinomi di regressione 260

9 Residuo quadratico medio di un modello polinomiale 261 18.2

1 La dipendenza e le sue misure

Come si è visto nelle sezioni precedenti lo studio della dipendenza passa attraverso lostudio delle distribuzioni condizionate:

studio condizionate→ studio connessione

• condizionate somiglianti = indipendenza stocastica• condizionate diverse = dipendenza• condizionate degeneri = dipendenza funzionale

In più, data una v.s. doppia (X ,Y ), quando la variabile dipendente (Y ) è quantitativa ci sipropone di descrivere al meglio l’andamento (la dinamica) del livello di Y al variare di X .

18.3

251

Page 253: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 1 (la scaltra commessa del negozio di scarpe). Per prevedere la lunghezza delpiede del cliente considera le informazioni relative a un campione di soggetti

Y = lunghezza piede di 90 maschi adultiy j 37 38 39 40 41 42 43 44 45 46n j 3 5 8 12 16 21 13 8 3 1 90

M(Y ) = 41.3667, Var(Y ) = 3.81

Ipotizzando che il campione estratto sia rappresentativo dei clienti del negozio, preso acaso un maschio adulto possiamo affermare che la lunghezza del suo piede è in media tra41 e 42.

Più correttamente applicando la diseguaglianza di Tchebychev

• con t = 2 una frazione degli individui almeno pari al 75% avrà lunghezza del piedenell’intervallo 41.4±2 ·

√3.8 = [37.5,45.3]

• con t = 3 una frazione degli individui almeno pari al 89% avrà lunghezza del piedenell’intervallo 41.4±3 ·

√3.8 = [35.5,47.2]

18.4La commessa osserva, però, anche l’altezza del cliente prima di suggerire un articolo.Con riferimento al campione abbiamo (X = altezza in cm)

Y \ X 160 170 180 19037 2 1 338 3 2 539 3 4 1 840 4 6 2 1241 3 7 6 1642 2 9 9 1 2143 6 6 1 1344 2 4 2 845 1 2 346 1 1

17 37 29 7 90

medie 39.5294 41.0811 42.1379 44.1429 41.3667varianze 2.3668 2.8853 1.843 1.551 3.81

Considerato un individuo di altezza 160 possiamo dire che Y è in media tra 39 e 40 (conmaggior precisione!)

Var(Y |X = 160) = 2.3668 <Var(Y ) = 3.81

18.5

I limiti degli intervalli definiti con la diseguaglianza di Tchebychev per t = 2 risultano

X 160 170 180 190limin f 36.5 37.7 39.4 41.7 37.5limsup 42.6 44.5 44.9 46.6 45.3

I limiti degli intervalli definiti con la diseguaglianza di Tchebychev per t = 3 risultano

X 160 170 180 190limin f 34.9 36 38.1 40.4 35.5limsup 44.1 46.2 46.2 47.9 47.2

18.6

252

Page 254: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 I modelli di regressione

Definizione 2 (I modelli di regressione). Sono funzioni che descrivono il legame tra Y eX(studio della dipendenza)vengono così definiti dei modelli teorici del tipo

Y ∗ = g(X)

che vengono utilizzati per descrivere in maniera approssimata la relazione tra la variabilestatistica dipendente Y e la variabile statistica esplicativa X secondo la relazione

Y = g(X)+E

dove E, detta anche componente di errore, riassume gli scostamenti di Y da Y ∗ = g(X)(residui) dovuti alla incapacità del modello a riprodurre fedelmente i valori osservati.Tra le singole osservazioni risultano, quindi, definite le seguenti relazioni

yi = g(xi)+ ei in presenza di coppie di osservazioniy j = g(xi)+ ei j se i dati sono raccolti in tabella

18.7Nella seguente tabella sono riassunte le informazioni relative alle variabili X e Y per 10unità statistiche

X\Y 37 43 50 ni•1 1 1 0 22 0 1 1 23 1 1 0 24 0 2 2 4

n• j 2 5 3 10

Si riportano, nel seguente prospetto, le medesime informazioni con riferimento allecoppie di valori (xi,yi) rilevati in corrispondenza di ciascuna delle 10 unità statistiche

i xi yi1 1 372 1 433 2 504 2 435 3 376 3 437 4 438 4 509 4 50

10 4 43

0 1 2 3 4 5

3540

4550

55

18.8Si supponga di interpretare la variabile Y secondo una generica funzione della variabile

X , ad esempio: Y ∗ = g1(X) =

41 se x = 145 se x = 242 se x = 347 se x = 4

i xi yi g1(xi) ei = yi−g1(xi)1 1 37 41 37−41 =−42 1 43 41 43−41 = 23 2 50 45 50−45 = 54 2 43 45 43−45 =−25 3 37 42 37−42 =−56 3 43 42 43−42 = 17 4 43 47 43−47 =−48 4 50 47 50−47 = 39 4 50 47 50−47 = 3

10 4 43 47 43−47 =−4

0 1 2 3 4 5

3540

4550

55

253

Page 255: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

valeY = Y ∗+E = g1(X)+E

dove le componenti della variabile E (residuo) sono gli scarti tra i valori di Y e i valoriassegnati dal modello Y ∗ = g1(X)

• ei = yi−g1(xi) in presenza di coppie dei valori (xi,yi)• ei j = y j−g1(xi) in presenza di valori riclassificati in tabella

18.9Al fine di definire un criterio per scegliere la funzione g mediante la quale interpretarela variabile Y in funzione della variabile X occorre introdurre - come si è visto anche nelcontesto del ’criterio di scelta della media per minimizzazione del danno’ - una opportunapenalizzazione degli scarti.Si può considerare a tal fine la funzione di perdita quadratica1

e2i = [yi−g1(xi)]

2 e2i j = [y j−g1(xi)]

2

i xi yi g1(xi) ei e2i

1 1 37 41 −4 162 1 43 41 2 43 2 50 45 5 254 2 43 45 −2 45 3 37 42 −5 256 3 43 42 1 17 4 43 47 −4 168 4 50 47 3 99 4 50 47 3 910 4 43 47 −4 16

0 1 2 3 4 5

3540

4550

55

18.10

3 Il criterio dei minimi quadrati

Definizione 3 (Il criterio dei minimi quadrati). Si cerca la funzione g(x) ∈ G , insiemedelle funzioni che assumono valore reale, che rende minima la seguente funzione criterio(che riassume il danno globale):

• in presenza di coppie di valori:

M(E2) =1n

n

∑i=1

e2i =

1n

n

∑i=1

[yi−g(xi)]2 = M

[Y −g(X)]2

,

• oppure, in presenza di dati raccolti in una tabella a doppia entrata

M(E2) =1n

h

∑i=1

k

∑j=1

e2i jni j =

1n

h

∑i=1

k

∑j=1

[y j−g(xi)]2ni j = M

[Y −g(X)]2

.

18.11

4 Bontà di adattamento di un modello

La quantità M(E2) fornisce una misura della bontà di adattamento di un modello g(·), eindica il danno globale/medio valutato secondo la funzione di perdita quadratica.

Definizione 4 (Residuo quadratico medio). La quantità M(E2), media del quadrato del-la variabile errore/scarti/residui, è denominata Residuo Quadratico Medio, in ingleseResidual Mean Square (RMS).

1Come si è visto nella Sezione 6 esistono anche altre funzioni di perdita, ad esempio |ei|= |yi−g1(xi)|

254

Page 256: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

OsservazionePuò essere, indifferentemente, utilizzata quale funzione criterio anche la somma dei qua-drati dei residui n ·M(E2), denominata in inglese Residual Sum of Squares (RSS).

OsservazioneSe la variabile residuo ha media nulla, M(E) = 0, allora

M(E2) =Var(E).

InfattiVar(E) = M

[(E−µE)

2]= M[(E−0)2]= M(E2).

18.12

Y ∗ = g1(X) =

41 se x = 145 se x = 242 se x = 347 se x = 4

i xi yi g1(xi) ei e2i

1 1 37 41 −4 162 1 43 41 2 43 2 50 45 5 254 2 43 45 −2 45 3 37 42 −5 256 3 43 42 1 17 4 43 47 −4 168 4 50 47 3 99 4 50 47 3 9

10 4 43 47 −4 16Somma −5 125Media −0.5 12.5

In corrispondenza della funzione g1(x) il residuo quadratico medio risulta M(E2) = 12.5.18.13

A ogni funzione g(x) è associato un diverso valore del residuo quadratico medio.Nel seguente caso g2(x) è preferibile a g1(x).

Y ∗ = g1(X) =

41 se x = 145 se x = 242 se x = 347 se x = 4

i xi yi g1(xi) ei e2i

1 1 37 41 −4 162 1 43 41 2 43 2 50 45 5 254 2 43 45 −2 45 3 37 42 −5 256 3 43 42 1 17 4 43 47 −4 168 4 50 47 3 99 4 50 47 3 9

10 4 43 47 −4 16Somma −5 125Media −0.5 12.5

Y ∗ = g2(X) =

38.5 se x = 146 se x = 241 se x = 347 se x = 4

i xi yi g2(xi) ei e2i

1 1 37 38.5 −1.5 2.252 1 43 38.5 4.5 20.253 2 50 46 4 164 2 43 46 −3 95 3 37 41 −4 166 3 43 41 2 47 4 43 47 −4 168 4 50 47 3 99 4 50 47 3 9

10 4 43 47 −4 16Somma 0 117.5Media 0 11.75

g2(x) è anche caratterizzata dal fatto che M(E) = 0, di conseguenza non genera residuisistematici.M(E) = 0 rappresenta una caratteristica auspicabile per un modello di regressione. 18.14

255

Page 257: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 Soluzione del problema: la funzione di Regressione

Teorema 5. In presenza di una variabile statistica doppia (X ,Y )

M(E2) =1n

h

∑i=1

k

∑j=1

e2i jni j =

1n

h

∑i=1

k

∑j=1

[y j−g(xi)]2ni j = M

[Y −g(X)]2

con g ∈ G , insieme delle funzioni che assumono valore reale, risulta minimo se

g(x) = M(Y |X).18.15

Dimostrazione. La dimostrazione è riferita a una v.s. doppia con dati raccolti in unatabella a doppia entrata.

M(E2) = M[Y −g(X)]2

=

1n

h

∑i=1

k

∑j=1

[y j−g(xi)]2 ni j =

=1n

h

∑i=1

ni•ni•

k

∑j=1

[y j−g(xi)]2ni j =

1n

h

∑i=1

ni•k

∑j=1

[y j−g(xi)]2 ni j

ni•=

=1n

h

∑i=1

ni•

k

∑j=1

[y j−g(xi)]2 ni j

ni•

Si osserva come ciascuna espressione in parentesi graffe è non negativa ed è riferita alladistribuzione condizionata Y |xi.Minimizzando tutte queste espressioni si otterrà il minimo globale.Si è riformulato il problema iniziale in un insieme di h problemi di minimo.Quindi, con riferimento a ciascuna delle distribuzioni condizionate Y |xi, occorre determi-nare il valore α = g(xi) che rende minima

k

∑j=1

[y j−α]2ni j

ni•ovvero M

[(Y −α)2∣∣X = xi

].

In base al criterio di scelta della media per minimizzazione del danno la soluzione risultaα = g(xi) = M(Y |xi) = µY (xi).

18.16

Definizione 6 (Funzione di Regressione). Si definisce Funzione di Regressione una qual-siasi funzione che associa a ogni xi la media di Y condizionata a xi.

M(E2) risulta, quindi, minimo in corrispondenza della funzione di regressione.

Y ∗ = M(Y |X) =

40 se x = 146.5 se x = 240 se x = 346.5 se x = 4

i xi yi M(Y |xi) ei e2i

1 1 37 40 −3 92 1 43 40 3 93 2 50 46.5 3.5 12.254 2 43 46.5 −3.5 12.255 3 37 40 −3 96 3 43 40 3 97 4 43 46.5 −3.5 12.258 4 50 46.5 3.5 12.259 4 50 46.5 3.5 12.25

10 4 43 46.5 −3.5 12.25Somma 0 109.5Media 0 10.95

0 1 2 3 4 5

3540

4550

55

256

Page 258: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

18.17

Yyi y2

i37 136943 184950 250043 184937 136943 184943 184950 250050 250043 1849

∑ 439 19483M 43.9 1948.3

v.s. medie condizionatexi M(Y |xi) ni• M(Y |xi) ·ni• [M(Y |xi)]

2 ·ni•1 40 2 80 3200.02 46.5 2 93 4324.53 40 2 80 3200.04 46.5 4 186 8649.0

10 439 19373.5

v.s. varianze condizionatexi Var(Y |xi) ni• Var(Y |xi) ·ni•1 9 2 182 12.25 2 24.53 9 2 184 12.25 4 49

10 109.5

M(Y ) = MX [M(Y |X)] = 43.9

M(Y 2) = 1948.3

Var(Y ) = 1948.3−43.92 = 21.09

varianza spiegata =VarX [M(Y |X)] = 1937.35−43.92 = 10.14

varianza residua = MX [Var(Y |X)] = 10.95

Var(Y ) = var. sp.+var. res. = 10.14+10.95 = 21.09

rapporto di correlazione η2Y |X =

VarX [M(Y |X)]

Var(Y )= 0.4808

18.18

OsservazioneNel caso della funzione di regressione vale M(Y ) = MX [M(Y |X)], quindi

M(E) = M(Y )−MX [M(Y |X)] = 0.

Pertanto il residuo quadratico medio coincide con la varianza dei residui

M(E2) = M(E2−0) =Var(E).18.19

6 Origine del termine regressione

Galton F.R.S., Regression towards Mediocrity in Hereditary Stature, Journal of the AnthropologicalInstitute, 15, 246-263 (1886)

Plants data:’It appeared from these experiments that the offspring did not tend to resemble their parentseeds in size, but to be always more mediocre than they—to be smaller than the parents,if the parents were large; to be larger than the parents, if the parents were very small.’

Humans data:’The child inherits partly from his parents, partly from his ancestry. ... Their mean staturewill then be the same as that of the race; in other words, it will be mediocre. Or, to putthe same fact into another form, the most probable value of the mid-ancestral deviates inany remote generation is zero.’’The average regression of the offspring to a constant fraction of their respective mid-parental deviations, which was first observed in the diameters of seeds, and then confirmedby observations on human stature, is now shown to be a perfectly reasonable law whichmight have been deductively foreseen.’ 18.20

257

Page 259: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Righe: Heights of the Midparents in inchesColonne: Heights of the Adult Children in inches

61.7 62.2 63.2 64.2 65.2 66.2 67.2 68.2 69.2 70.2 71.2 72.2 73.2 73.773 0 0 0 0 0 0 0 0 0 0 0 1 3 0

72.5 0 0 0 0 0 0 0 1 2 1 2 7 2 471.5 0 0 0 0 1 3 4 3 5 10 4 9 2 270.5 1 0 1 0 1 1 3 12 18 14 7 4 3 369.5 0 0 1 16 4 17 27 20 33 25 20 11 4 568.5 1 0 7 11 16 25 31 34 48 21 18 4 3 067.5 0 3 5 14 15 36 38 28 38 19 11 4 0 066.5 0 3 3 5 2 17 17 14 13 4 0 0 0 065.5 1 0 9 5 7 11 11 7 7 5 2 1 0 064.5 1 1 4 4 1 5 5 0 2 0 0 0 0 0

64 1 0 2 4 1 2 2 1 1 0 0 0 0 018.21

Heights of the Midparents in inches

Hei

ghts

of t

he A

dult

Chi

ldre

n in

inch

es

62 64 66 68 70 72 74

6264

6668

7072

74

Si può osservare come la linea tratteggiata che ’approssima’ (interpola) le medie dell’al-tezza dei figli da adulti condizionate all’altezza mediana dei genitori abbia una pendenzainferiore alla bisettrice (linea continua).Galton conclude che vi è una tendenza delle medie condizionate (che descrivono l’altezzamedia dei figli da adulti) a ritornare (’regredire’) verso la media generale che caratterizzala specie umana. 18.22

18.23

18.24

258

Page 260: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Adattamento e dipendenza

La funzione di regressione consente di descrivere il legame in media, quindi si ha:• adattamento buono se:

– punti sperimentali vicini alla funzione di regressione g(x) = M(Y |X)

– bassa variabilità attorno alle medie condizionate

• dipendenza nulla se:

– medie condizionate tutte eguali

• dipendenza massima se:

– medie condizionate differenti– variabilità nulla attorno alle medie condizionate

La varianza della variabile statistica medie condizionate

VarXM(Y |X)

costituisce un indice di dipendenza (assoluto). 18.25

Con riferimento al modello funzione di regressione le quantità

M(E2) =1n

n

∑i=1

e2i =

1n

n

∑i=1

[yi−M(Y |xi)]2 = M

[Y −M(Y |X)]2

definita in presenza di coppie di valori, oppure

M(E2) =1n

h

∑i=1

k

∑j=1

e2i jni j =

1n

h

∑i=1

k

∑j=1

[y j−M(Y |xi)]2ni j = M[Y −M(Y |X)]2

definita per una tabella a doppia entrata, coincidono con il termine varianza residua nelrisultato di scomposizione della varianza. 18.26

Infatti, se i dati sono classificati in una tabella a doppia entrata, M(E2) può essere riscrittacome:

M(E2) =1n

h

∑i=1

ni•ni•

k

∑j=1

[y j−M(Y |xi)]2ni j =

=1n

h

∑i=1

ni•

k

∑j=1

[y j−M(Y |xi)]2 ni j

ni•

=

= MX

[M[Y −M(Y |X)]2

∣∣∣X]= MX [Var(Y |X)] = varianza residua

18.27

Definizione 7 (Scomposizione della varianza in corrispondenza del modello funzione diregressione).

Var(Y ) = VarX [M(Y |X)]+MX [Var(Y |X)]

= varianza spiegata+varianza residua

Una misura della bontà di adattamento del modello è costituita dalla quota di varianzaspiegata.

Definizione 8 (Rapporto di correlazione).

η2Y |X =

VarX [M(Y |X)]

Var(Y )18.28

259

Page 261: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 I polinomi di regressione

Si è introdotta la funzione di regressione come una qualsiasi funzione passante per le hmedie condizionate.Tra le infinite funzioni che soddisfano tale definizione figura anche il polinomio di grado(h−1)

y∗ = a0 +a1x+a2x2 + . . .+ah−1xh−1

che unisce le medie senza soluzione di continuità.Per determinare i coefficienti a0,a1,a2, . . . ,ah−1 di tale polinomio, occorre risolvere ilseguente sistema di h equazioni lineari

M(Y |x1) = a0 +a1x1 +a2x21 + . . .+ah−1xh−1

1...M(Y |xh) = a0 +a1xh +a2x2

h + . . .+ah−1xh−1h

18.29

Si osserva però come il modello descritto dal polinomio di grado (h− 1) sia troppocomplesso nelle applicazioni pratiche.

Si pensi ad esempio al polinomio interpolante una serie storica di lunghezza h.

Comunemente si fa, quindi, ricorso a modelli più semplici:polinomi di grado inferiore a (h−1) 18.30

Si considerano dei modelli polinomiali completi di grado r

0≤ r ≤ h−1

g G =spazio funzioniche assumonovalore reale

L0 L1 . . . Lh−1 L0 ⊂L1 ⊂ . . .⊂Lh−1 ⊂ G

Y = Y ∗+E = λ (x) = a0 +a1X +a2X2 + . . .+arX r +E

si tratta di modelli lineari nei parametri. 18.31

I parametri ai (i = 0,1, . . . ,r) possono essere determinati applicando ai dati il criterio deiminimi quadrati, che va a ricercare la soluzione che rende minimo il residuo quadraticomedio

M(E2) = M[Y −λ (X)]2

= M

[(Y −a0−a1X−a2X2− . . .−arX r)2]

OsservazioneSi dimostra che, in base al criterio dei minimi quadrati, il modello che meglio approssimai dati è lo stesso che meglio approssima la funzione di regressione.

18.32

Definizione 9 (Varianza residua). Se M(E) = 0, allora

M(E2) =Var(E)

è denominato varianza residua.

260

Page 262: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

OsservazioneLa relazione M(E) = 0 risulta verificata se il parametro a0 (denominato costante o inter-cetta) non è vincolato.

18.33

Definizione 10 (Scomposizione della varianza). Si dimostra che se in un modello poli-nomiale il parametro a0 (denominato costante o intercetta) non è vincolato, allora vale laseguente scomposizione della varianza di Y .

Var(Y ) = varianza spiegatamodello +varianza residuamodello

= varianza spiegatamodello +M(E2)

Definizione 11 (Indice di adattamento). Se M(E) = 0, allora, è possibile definire laseguente misura normalizzata

R2 = 1− M(E2)

Var(Y )= 1− Var(E)

Var(Y )

detta indice di adattamento.

OsservazioneL’indice di adattamento R2 può essere interpretato come la quota di varianza spiegata dalmodello.

18.34

9 Residuo quadratico medio di un modello polinomiale

Si supponga di avere ottenuto, in base al criterio dei minimi quadrati, le stime dei coeffi-cienti a0, a1, . . . , ar del seguente modello polinomiale:

Y = a0 +a1X + . . .+arX r +E

Il residuo quadratico medio

M(E2) = M(Y − a0− a1X− . . .− arX r)2

può essere ottenuto applicando la seguente formula operativa

M(E2) = M Y (Y −modello polinomiale)= M Y (Y − a0− a1X− . . .− arX r)= M(Y 2)− a0M(Y )− a1M (Y X)− . . .− arM (Y X r)

L’espressione vale anche se alcuni coefficienti sono nulli e, quindi, anche se manca l’in-tercetta o qualche potenza della variabile X . 18.35

261

Page 263: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 264: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 19Modelli polinomiali

19.1

Indice

1 Il modello costante Y = a0 +E 2641.1 Residuo Quadratico Medio e Indice di adattamento . . . . . . . . . . . . 264

2 Il modello retta Y = a+bX +E 2652.1 Scomposizione della varianza totale . . . . . . . . . . . . . . . . . . . . 2662.2 Indice adattamento retta . . . . . . . . . . . . . . . . . . . . . . . . . . . 2672.3 Residuo Quadratico Medio retta di regressione . . . . . . . . . . . . . . . 2672.4 Una ulteriore scomposizione della varianza residua del modello retta . . . 2682.5 Retta di regressione e covarianza . . . . . . . . . . . . . . . . . . . . . . 2682.6 Relazione tra indipendenza stocastica, indipendenza in media e indipen-

denza lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2692.7 Il coefficiente di correlazione lineare . . . . . . . . . . . . . . . . . . . . 2702.8 Confronto tra η2 e ρ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272

3 Esercizi 2743.1 Esercizi sul confronto tra ρ2 e η2 . . . . . . . . . . . . . . . . . . . . . . 2743.2 Esercizi di carattere teorico . . . . . . . . . . . . . . . . . . . . . . . . . 280

4 Modello Y = bX +E 283 19.2

263

Page 265: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1 Il modello costante Y = a0 +E

Si tratta del polinomio di grado r = 0.La ricerca del minimo viene condotta all’interno della classe dei polinomi λ (x) ∈L0

a0 = arg mina0∈ℜ

M[E2] = arg mina0∈ℜ

M[(Y −a0)

2]= M(Y ) = µY

(per le proprietà della media aritmetica: cfr. criterio di scelta della media per minimizza-zione del danno 1)

0 1 2 3 4 5

01

23

45

µY

19.3

1.1 Residuo Quadratico Medio e Indice di adattamento

Il residuo quadratico medio risulta:

M(E2) = M[(Y −µY )

2]=Var(Y )

Dal momento che M(E) = M(Y − µY ) = 0 il residuo quadratico medio coincide con lavarianza residua.

L’indice di adattamento R2 (quota di varianza spiegata) assume valore nullo:

1− M(E2)

Var(Y )= 1− Var(Y )

Var(Y )= 0.

Osservazioni

• Non passa necessariamente per le medie condizionate• È il modello più semplice, però è decisamente scarso:

anche se i dati presentano trend non ne tiene conto!19.4

1Occorre risolvere la seguente equazione

d M[(Y −a0)

2]d a0

= 0

M [2(Y −a0)(−1)] = 0

−2M(Y −a0) = 0

M(Y −a0) = M(E) = 0

M(Y )−a0 = 0

a0 = M(Y ).

264

Page 266: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Il modello retta Y = a+bX +E

Esprime la dinamica in modo solo proporzionale.La ricerca del minimo viene condotta all’interno della classe dei polinomi λ (x) ∈L1

(a, b) = argmina,b

M[E2] = argmina,b

M[(Y −a−bX)2]

Si ottiene:

b =Cov(X ,Y )

Var(X)a = M(Y )− bM(X)

0 1 2 3 4 5

01

23

45

19.5

Dimostrazione. Occorre risolvere il seguente sistema di equazioni lineari (denominateequazioni normali)

∂M[(Y−a−bX)2]∂a = 0

∂M[(Y−a−bX)2]∂b = 0

M [2(Y −a−bX)(−1)] = 0M [2(Y −a−bX)(−X)] = 0−2M(Y −a−bX) = 0−2M [(Y −a−bX)X ] = 0

M(Y −a−bX) = 0M [(Y −a−bX)X ] = 0

Si osserva come, in corrispondenza dei valori (a,b) soluzione del sistema, dalla primaequazione segue che M(E) = 0.Dalla seconda equazione, sempre in corrispondenza dei valori (a,b) soluzione del siste-ma, abbiamo M(EX) = 0. La seconda equazione impone, quindi, l’ortogonalità tra E eX , da cui la denominazione di sistema delle equazioni normali.

Dal momento che M è un operatore lineare, dalla prima equazione si ottiene

M(Y )−a−bM(X) = 0

a = M(Y )−bM(X) = µY −bµX

che può essere sostituito nella seconda equazione del sistema

M [Y − (µY −bµX )−bX ]X= 0

M(XY −µY X +bµX X−bX2)= 0

M(XY )−µY M(X)+bµX M(X)−bM(X2)= 0

M(XY )−µX µY +b(µX )2−bM

(X2)= 0

265

Page 267: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

[M(XY )−µX µY ]−b[M(X2)− (µX )

2]= 0

b =M(XY )−µX µY

M (X2)− (µX )2 =

Cov(X ,Y )Var(X)

.

19.6

In definitiva:

b =Cov(X ,Y )

Var(X)a = M(Y )− bM(X)

OsservazioneSi dimostra che la retta interpolante tutti i dati osservati è equivalente alla retta approssi-mante le medie condizionate.

19.7

2.1 Scomposizione della varianza totale

Definizione 1 (Scomposizione della varianza totale). Data la retta di regressione

Y = a+ bX +E = Y ∗+E

dove a e b sono i valori dei coefficienti a e b del modello retta Y = a+ bX +E, ottenutisecondo il criterio dei minimi quadrati, vale la seguente scomposizione

Var(Y ) = varianza spiegataretta +varianza residuaretta

= Var(Y ∗)+Var(E)

= Var(Y ∗)+M(E2)

con

varianza spiegataretta = Var(Y ∗) =Var(a+ bX) = b2Var(X) =

=

(Cov(X ,Y )

Var(X)

)2

Var(X) =[Cov(X ,Y )]2

Var(X)

varianza residuaretta = M(E2) = M[(Y −Y ∗)2

].

Il residuo quadratico medio coincide con Var(E), varianza dei residui, (M(E) = 0).19.8

Dimostrazione. Dalla prima equazione del sistema delle equazioni normali, cfr. dimo-strazione che ha portato alle formule dei coefficienti a e b, si è ottenuto

M(E) = M(Y −Y ∗) = 0

quindiM(Y ∗) = M(Y ) = µY .

Si considera ora la varianza di Y

Var(Y ) = M[(Y −µY )

2]= M

[(Y −Y ∗+Y ∗−µY )

2]

= M[(Y −Y ∗)+(Y ∗−µY )]

2

= M[(Y −Y ∗)2

]+M

[(Y ∗−µY )

2]+M [2(Y −Y ∗)(Y ∗−µY )]

= M(E2)+M

[(Y ∗−µY )

2]+2M [(Y −Y ∗)(Y ∗−µY )]

266

Page 268: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

• Il residuo quadratico medio al primo addendo coincide con la varianza della varia-bile residuo (residual), dal momento che M(E) = 0.

• Il secondo addendo misura la variabilità dei valori teorici del modello (punti sullaretta) rispetto alla media di Y e rappresenta la parte della variabilità di Y che ilmodello retta è in grado di spiegare.

• Il terzo addendo, 2 volte la covarianza tra E = (Y −Y ∗) e (Y ∗−µY ), risulta nullo:

M [E (Y ∗−µY )] = M[E(a+ bX− a− bµX

)]= M

[E(bX− bµX

)]= M

(bEX− bµX E

)= bM (EX)− bµX M (E) = b ·0− bµX ·0 = 0

essendo M (EX) = M [(Y −Y ∗)X ] = 0 in base alla seconda equazione del sistemadelle equazioni normali.

Quindi

Var(Y ) =Var(E)+Var(Y ∗) = varianza residuaretta +varianza spiegataretta.

19.9

2.2 Indice adattamento retta

Definizione 2 (Indice di adattamento della retta di regressione). Dal momento che vale lascomposizione

Var(Y ) = varianza spiegataretta +varianza residuaretta

possiamo definire, analogamente al modello funzione di regressione, un indice di adatta-mento come

R2 =varianza spiegataretta

Var(Y )= 1− varianza residuaretta

Var(Y )= 1− M(E2)

Var(Y )

=

[Cov(X ,Y )]2

Var(X)

Var(Y )=

[Cov(X ,Y )]2

Var(X)Var(Y )= ρ

2.

L’indice di adattamento del modello retta viene anche indicato con il simbolo ρ2.19.10

2.3 Residuo Quadratico Medio retta di regressione

OsservazioneÈ possibile ricavare il residuo quadratico medio, o varianza residua, del modello rettacome

M(E2) = varianza residuaretta =(1−ρ

2)Var(Y )

• ρ2 rappresenta la quota di varianza spiegata dal modello retta•(1−ρ2

)rappresenta la quota di varianza non spiegata (residua)

• varianza residuaretta è l’ammontare di varianza non spiegata19.11

267

Page 269: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.4 Una ulteriore scomposizione della varianza residua del model-lo retta

La retta (secondo i minimi quadrati) e la funzione di regressione sono state ottenute comele funzioni che rendono minimo il residuo quadratico medio rispettivamente nelle classi:

• L1, delle rette,• G , delle funzioni che assumono valore reale.

Dal momento che L1⊂G vale la seguente relazione tra i residui quadratici medi (varianzeresidue) dei due modelli

M(E2

funzione di regressione)≤M

(E2

retta).

L’indice di adattamento della retta assumerà, di conseguenza, un valore inferiore a quellodella funzione di regressione:

ρ2 ≤ η

2Y |X .

19.12

Segue l’ulteriore scomposizione della varianza residua del modello retta

varianza residuaretta = MX [Var(Y |X)]+∆2retta, funzione di regressione

dove

• MX [Var(Y |X)] = MX

M [Y −M(Y |X)]2

= var. residuafunzione di regressione

• ∆2retta, funzione di regressione = MX

[(a+ bX

)−M(Y |X)

]2è la media degli scosta-

menti, elevati al quadrato, tra i valori teorici secondo il modello retta e le mediecondizionate (valori teorici secondo la funzione di regressione).

La varianza residua della funzione di regressione viene anche detta varianza irriducibile,in quanto coincide con il valore minimo che può assumere il residuo quadratico medio diun modello scelto con il criterio dei minimi quadrati. 19.13

2.5 Retta di regressione e covarianza

Si è visto come la formula del coefficiente angolare della retta di regressione secondo iminimi quadrati e l’indice di adattamento del modello retta dipendono dalla covarianza

b =Cov(X ,Y )

Var(X), ρ

2 =[Cov(X ,Y )]2

Var(X)Var(Y ).

È, quindi, possibile identificare la covarianza come indicatore fondamentale della dipen-denza lineare.

Definizione 3 (indipendenza lineare). Si ha indipendenza lineare se

Cov(X ,Y ) =Cov(Y,X) = 0↔ b = 0↔ ρ2 = 0.

Definizione 4 (perfetta dipendenza lineare). Si ha perfetta dipendenza lineare se

ρ2 = 1.

In questa situazione vale η2Y |X = η2

X |Y = 1.19.14

268

Page 270: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.6 Relazione tra indipendenza stocastica, indipendenza in mediae indipendenza lineare

y

x

\/

indipendenza stocastica

Y |xi ∼ Y ↔ X |y j ∼ X

↓ ↑\/ ↓ ↑\/

M(Y |xi) = M(Y ) ↔\/ M(X |y j) = M(X)i = 1,2, . . . ,h j = 1,2, . . . ,k

l lη2

Y |X = 0 indipendenza η2X |Y = 0

in media↓ ↑\/ ↓ ↑\/

Cov(X ,Y ) =Cov(Y,X) = 0indipendenza lineare(

se le medie condizionate sono tra loro egualila retta che le interpola ha coefficiente angolare nullo

)

y

x

\/

19.15

OsservazionePossono sussistere contemporaneamente le situazioni di indipendenza lineare e dipenden-za funzionale; si consideri, al riguardo, il seguente esempio

X \Y 8 23 29 ni•1 0 0 k k2 k 0 0 k5 0 k 0 k

n• j k k k n = 3k

Le distribuzioni condizionate Y |xi e X |y j sono degeneri; sussiste, quindi, dipendenzafunzionale bijettiva, ma Cov(X ,Y ) = 0.

M(XY ) =13k

(1 ·29k+2 ·8k+5 ·23k) =13k

(29k+16k+115k) =160k3k

=1603

µX =13k

(1k+2k+5k) =8k3k

=83

µY =13k

(8k+23k+29k) =60k3k

= 20

Cov(X ,Y ) = M(XY )−µX µY =160

3− 8

320 =

1603− 160

3= 0

0 1 2 3 4 5

05

1015

2025

3035

19.16

269

Page 271: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.7 Il coefficiente di correlazione lineare

Definizione 5 (Il coefficiente di correlazione lineare). Si definisce coefficiente di cor-relazione lineare tra X e Y , ρXY , anche indicato con il simbolo ρ , la covarianza tra lecorrispondenti variabili standardizzate

ρ =Cov(

X−µX

σX,Y −µY

σY

)=

Cov(X ,Y )σX σY

dove µX , µY , σX , σY sono rispettivamente le medie e gli scarti quadratici medi.

Teorema 6.−1≤ ρ ≤ 1

19.17

Dimostrazione. Il quadrato del coefficiente di correlazione lineare

ρ =Cov(X ,Y )

σX σY

coincide con l’indice di adattamento del modello retta, ρ2 = [Cov(X ,Y )]2

Var(X)Var(Y ) , quota di varian-za spiegata dal modello retta; vale quindi:

0≤ ρ2 ≤ 1

da cui segue la tesi.19.18

Dimostrazione. Si ricorda che una variabile standardizzata Z è caratterizzata da medianulla e varianza unitaria, quindi:

M(

X−µXσX

)= M

(Y−µY

σY

)= 0 Var

(X−µX

σX

)=Var

(Y−µY

σY

)= 1

Si considerano le varianze delle variabili somma e differenza delle variabili X e Y stan-dardizzate. Entrambe le varianze risultano non negative. Var

(X−µX

σX+ Y−µY

σY

)≥ 0

Var(

X−µXσX− Y−µY

σY

)≥ 0 Var

(X−µX

σX

)+Var

(Y−µY

σY

)+2Cov

(X−µX

σX, Y−µY

σY

)≥ 0

Var(

X−µXσX

)+Var

(Y−µY

σY

)−2Cov

(X−µX

σX, Y−µY

σY

)≥ 0

1+1+2ρ ≥ 01+1−2ρ ≥ 0

2+2ρ ≥ 02−2ρ ≥ 01+ρ ≥ 01−ρ ≥ 0

da cui segue la tesi −1≤ ρ ≤ 1.

270

Page 272: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

19.19

ρ ed equazione retta di regressione

b =Cov(X ,Y )

σ2X

ρ =Cov(X ,Y )

σX σY→ b = ρ

σY

σX

da cui

Y ∗ = a+ bX = µY − bµX + bX = µY + b(X−µX ) = µY +ρσY

σX(X−µX )

retta di regressione al variare di ρ

0 1 2 3 4 5

01

23

45

µX

µY

0 1 2 3 4 5

01

23

45

µX

µY

0 1 2 3 4 5

01

23

45

µX

µY

−1 < ρ < 0 ρ ' 0 0 < ρ <+1

19.20

retta di regressione al variare di ρ

0 1 2 3 4 5

01

23

45

µX

µY

0 1 2 3 4 5

01

23

45

µX

µY

ρ =−1 ρ =+119.21

271

Page 273: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.8 Confronto tra η2 e ρ2

Si ipotizza di studiare la dipendenza di Y da X

0≤ ρ2 ≤ η

2Y |X ≤ 1

η2Y |X = 0 0 < η2

Y |X < 1 η2Y |X = 1

ρ2 = 0

0 2 4 6 8

01

23

45

0 2 4 6 8

01

23

45

0 2 4 6 8

01

23

45

0 < ρ2 < 1 no

0 2 4 6 8

01

23

45

0 2 4 6 8

01

23

45

ρ2 = 1 no no

0 2 4 6 8

01

23

45

19.22

η2Y |X = 0

Se η2Y |X = 0 anche ρ2 = 0 in quanto le medie condizionate M(Y |xi) sono uguali a M(Y ).

0 2 4 6 8

01

23

45

19.23

272

Page 274: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

η2Y |X = 1

Se η2Y |X = 1 sussiste dipendenza funzionale di Y da X in quanto le distribuzioni condizio-

nate (Y |xi) sono degeneri.

η2Y |X = 1

ρ2 = 0

0 2 4 6 8

01

23

45

i dati hanno una configurazione tale chela retta interpolante risulta piatta

0 < ρ2 < 1

0 2 4 6 8

01

23

45

ρ2 = 1

0 2 4 6 8

01

23

45

ρ2 = η2Y |X = 1

sussiste perfetta dipendenza lineare

19.24

0 < η2Y |X < 1

Come la situazione precedente, ma è presente la nuvola dei punti in quanto le distribuzionicondizionate (Y |xi) non sono tutte degeneri.

19.25

0 < ρ2 = η2Y |X < 1

Se ρ2 = η2Y |X il modello funzione di regressione e il modello retta coincidono (hanno lo

stesso residuo quadratico medio); di conseguenza le medie condizionate sono allineate.

retta di regressione al variare di ρ

0 2 4 6 8

01

23

45

0 2 4 6 8

01

23

45

ρ < 0 ρ > 0

19.26

273

Page 275: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Esercizi

I seguenti esercizi sono articolati in 2 gruppi

• esercizi sul confronto tra ρ2 e η2,• esercizi di carattere teorico.

La presente sezione ha carattere integrativo rispetto agli esercizi che presuppongono unosviluppo numerico. 19.27

3.1 Esercizi sul confronto tra ρ2 e η2

Esercizio 7 (T 246, 18.09.2008, 4). Si indichi, per ognuna delle seguenti tabelle a doppiaentrata, il valore assunto dagli indici sotto indicati, motivando le risposte.

1.

X \ Y 4 5 61 10 0 02 0 8 03 0 0 6

η2X |Y , η2

Y |X , ρ2

2.

X \ Y 4 51 10 02 0 83 10 0

η2X |Y , η2

Y |X , χ2 -

19.28

Esercizio 8 (T 239, 10.01.2008, 4). Completare la tabella, esplicitando anche i valori possibiliper x2 e y2, in modo tale ρ2 = 0 e η2

X |Y = 1:

X \ Y 1 y2 35x2 1

-

19.29

Esercizio 9 (T 243, 19.06.2008, 2). Completare la seguente tabella, motivando le risposte, inmodo tale che:

1. η2Y |X = 0 e ρ2 = 1;

2. ρ2 = 0 e χ2N = 1;

3. η2Y |X = χ2

N .

X \ Y 10 15 203 85 4

3 6 3 12

-

19.30

Esercizio 10 (T 251, 18.06.2009, 2). Data la seguente tabella a doppia entrata si determinino ivalori delle frequenze n21 ed n22 in modo tale che risulti:

1. η2Y |X = ρ2 = 1

2. 0 < η2Y |X = ρ2 < 1

3. η2Y |X 6= ρ2

274

Page 276: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

X \ Y 1 2 310 2 0 011 112 0 0 2

-

19.31

Esercizio 11 (T 255, 14.01.2010, 5). Si completino ove possibile le seguenti tabelle, motivandola risposta, in modo tale che:

1.

X \ Y 2 4 81 0 02 0 05 0 0

4

ρ2 = η2Y |X = 1

2.

X \ Y 2 4 61 03 0 0

5

η2Y |X = 0 e contemporaneamente η2

X |Y > 0 -

19.32

Esercizio 12 (T 257, 11.02.2010, 5). Se possibile e giustificando teoricamente le risposte,completare le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.

X \ Y 3 4 ?4 0 8 ?7 12 0 ?

1. χ2N = 1 ρ = 0

2. η2Y |X = η2

X |Y = 1

3. ρ2 = η2Y |X = η2

X |Y = 0 -

19.33

Esercizio 13 (T 261, 13.01.2011, 4). Si completi ove possibile la seguente tabella, motivandola risposta, in modo tale che:

X \ Y 1 510 020

095

1. 0 < ρ2 = η2Y |X < 1

2. χ2 = 95

3. ρ2 = 0 -19.34

Esercizio 14 (T 262, 03.02.2011, 4). Si completi se possibile la seguente tabella, motivando larisposta, in modo tale che:

X \ Y 1 2 31 13 1

6

1. η2Y |X = 0 e ρ2 = 1

2. ρ2 = 0 -19.35

275

Page 277: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 15 (T 266, 12.01.2012, 4). La tabella seguente riporta le osservazioni della variabileY in corrispondenza di 5 valori della X :

xi 8 8 10 12 12yi 4 6 y3 8 10

Si indichi un valore da assegnare a y3 affinché ρ2 < η2Y |X e η2

X |Y = 1. -

19.36

Esercizio 16 (T 263, 17.02.2011, 4). Si completino se possibile le seguenti tabelle, riportandomodalità e frequenze e motivando teoricamente la risposta, in modo tale che:

1.

X \ Y 2 y291011

η2Y |X = 1, η2

X |Y = 0 e ρ > 0

2.

X \ Y 2 y2910 4 011 0 712

η2Y |X = 1 e ρ < 0 -

19.37

Esercizio 17 (T 264-1, 09.06.2011, 5). Si completino se possibile le seguenti tabelle, riportan-do modalità e frequenze e motivando teoricamente la risposta, in modo tale che:

1.X \ Y 2 5 8x1 2 4 2x2 4 4

η2Y |X = 0, η2

X |Y > 0

2.X \ Y y1 y2 y3x1 2 4 2x2 4 4

ρ2 = 0 -19.38

Esercizio 18 (T 265, 08.09.2011, 4). Si completino se possibile le seguenti tabelle, motivandoteoricamente la risposta, in modo tale che:

1.X \ Y 10 20 301 0 112 0

η2Y |X = ρ2 = 0

2.X \ Y 10 20 301 11 02 0 9

η2Y |X = ρ2 6= 0 -

19.39

Esercizio 19 (T 265-1, 22.09.2011, 4). Si completino se possibile le seguenti tabelle, motivan-do teoricamente la risposta, in modo tale che:

1.

X \ Y 10 20 301 0 122 04 0

η2X |Y = ρ2 = 0

276

Page 278: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.

X \ Y 10 20 301 12 02 0 93 12

η2Y |X = ρ2 6= 0 -

19.40

Esercizio 20 (T 268, 09.02.2012, 4). Se possibile e giustificando teoricamente le risposte, sicompletino le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.

1.

X \ Y 3 92 3

36

0 < ρ2 = η2X |Y < 1

2.

X \ Y 20 4010 3

20 1

χ2 = 30 e η2Y |X = 1 -

19.41

Esercizio 21 (T 269-1, 07.06.2012, 4). Se possibile e giustificando teoricamente le risposte, sicompletino le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.

1.

X \ Y 3 92 3

36

0 < ρ2 < η2X |Y < 1

2.

X \ Y 20 4010 3

20 1

ρ =−30 e η2Y |X = 0 -

19.42

Esercizio 22 (T 269-3, 12.07.2012, 4). Se possibile e giustificando teoricamente le risposte, sicompleti la seguente tabella in modo da soddisfare le condizioni sotto indicate.

X \ Y 3 92 8

8

1. ρ2 = η2X |Y

2. ρ2 = η2Y |X -

19.43

Esercizio 23 (T 240, 31.01.2008, 4). Con riferimento ai dati della seguente tabella:X \ Y 10 200 4 1 512 1 4 5

5 5 10

1. Rappresentare, mediante un grafico bubble diagram, le coppie di dati e la funzione di regres-sione per lo studio di Y |X .

2. Si stimino, attraverso il criterio dei minimi quadrati, i parametri del modello Y ∗ = a+bX

3. Calcolare ρ2.

277

Page 279: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4. Calcolare i valori di η2Y |X ed η2

X |Y . -

19.44

Esercizio 24 (T 207, 15.01.2004, 4). Con riferimento a n = 50 unità statistiche si sono raccoltialcuni dati, relativi alle variabili (X ,Y ) nella seguente tabella:

Y \ X 1 2 310 8 1 020 8 4 a30 0 1 b

1. Determinare i valori (interi) da assegnare alle costanti a e b affinché η2Y |X = ρ2.

2. Calcolare il valore del coefficiente di correlazione lineare.19.45

Esercizio 25 (T 270-1, 20.09.2012, 4). Se possibile e giustificando teoricamente le risposte, sicompleti la seguente tabella in modo da soddisfare le condizioni sotto indicate.

X \ Y 20 4010 2x2

1. ρ = 1 e χ2 = 0 -19.46

Esercizio 26 (T 271, 10.01.2013, 4). Si completino, giustificando opportunamente la risposta,le seguenti tabelle in modo tale che:

1.y1 = 2 y2 = y3 = 12

x1 = 2 3x2 = 4 5 5

ρ2 = 1 e η2X |Y = 0

2.y1 = 2 y2 = y3 = 12

x1 = 2 3x2 = 4 5 5

ρ2 = η2Y |X = 0 e η2

X |Y = 1 -

19.47

Esercizio 27 (T 272, 24.01.2012, 4). Si completi la tabella, giustificando opportunamente larisposta, in modo che ρ2 < η2

Y |X .

y1 = 2 y2 = y3 = 12x1 = 2 3x2 = 4 5 5

-

19.48

Esercizio 28 (T 273, 07.02.2013, 4). Si completino le seguenti tabelle, giustificando opportu-namente la risposta, in modo tale che:

1.

y1 = 2 y2 = 4 y3 = 6x1 = 1 7x2 = 2 0 0x3 = 3 0

n = 31

χ2 = 62 e M(X) = 2

2.

y1 = 2 y2 = 4 y3 = 6x1 = 1 7x2 = 2x3 = 3

n =

χ2 = 0 e M(Y ) = 4 -

278

Page 280: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

19.49

Esercizio 29 (T 274-1, 06.06.2013, 4). Si completi la seguente tabella, giustificando opportu-namente la risposta, in modo che χ2 = ρ2 = η2

Y |X .

y1 = 2 y2 = 4 y3 = 6x1 = 1 7x2 = 2x3 = 3

n = 120

-

19.50

Esercizio 30 (T 274-2, 11.07.2013, 4). Si completino le seguenti tabelle, giustificando oppor-tunamente la risposta, in modo tale che:

1.

y1 = 2 y2 = 4 y3 = 6x1 = 1 7x2 = 2

n = 120

ρ2 = 1 e η2Y |X = 0

2.

y1 = 2 y2 = 4 y3 = 6x1 = 1 7x2 = 2

n = 120

η2X |Y = 1 e η2

Y |X = 0 -

19.51

Esercizio 31 (T 275, 05.09.2013, 4). Si completi la seguente tabella, giustificando opportuna-mente la risposta, in modo tale che χ2 = 44 e ρ2 = 0

x1 = 12 x2 = x3 = 18y1 = 2 20y2 = 4

n = 44

-

19.52

Esercizio 32 (T 275-1, 16.09.2013, 4). Si completi la seguente tabella, giustificando opportu-namente la risposta, in modo tale che χ2 = 44 e ρ2 = 1

x1 = 12 x2 = 15 x3 = 18y1 = 2y2 = 4 20y2 = 5

n = 44

-

19.53

Esercizio 33 (T 276, 16.01.2014, 4). Si completino le seguenti tabelle, giustificando la risposta,in modo che siano soddisfatte le condizioni indicate.

1.y1 = 10 y2 = 15

x1 = 1 11x2 = 2 10

η2Y |X = ρ2 > 0

2.y1 = 10 y2 = 15

x1 = 1 11x2 = 2 5

χ2 = 0

279

Page 281: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3.y1 = 10 y2 = 15

x1 = 1 11x2 = 2

ρ =−1 -19.54

Esercizio 34 (T 277, 30.01.2014, 4). Si completino le seguenti tabelle, giustificando la risposta,in modo che siano soddisfatte le condizioni indicate.

1.y1 = 10 y2 = 20 y3 = 30

x1 = 1 0 11x2 = 2 0

η2X |Y = 1,ρ2 = 0

2.y1 = 10 y2 = 20 y3 = 30

x1 = 1 11x2 = 2 11

η2Y |X = ρ2 6= 0 -

19.55

Esercizio 35 (T 228, 13.07.2006, 2). Con riferimento alla seguente tabella a doppia entrata sidica, motivando teoricamente la risposta, che valore assume

Y \ X 1 2 38 0 a c

10 0 1 012 b a 0

1. η2Y |X sapendo che ρ =−0.85 e che a,b,c sono valori interi strettamente positivi;

2. η2Y |X e ρ nell’ipotesi in cui a = 0. Si definisca, per questo caso, l’espressione analitica della

funzione di regressione.

3. Indicare l’intervallo di valori che può assumere il rapporto di correlazione η2X |Y .

19.56

3.2 Esercizi di carattere teoricoEsercizio 36 (T 212, 15.07.2004, 1). Con riferimento alla seguente tabella a doppia entratariferita a una rilevazione campionaria su 200 unità statistiche, posto che il rapporto di correlazioneη2

Y |X assume valore nullo e che la media marginale di Y è pari a 25:

X \ Y 15 25 35x1 25 50 n13x2 n21 80 10

1. si determinino i valori delle frequenze assolute n13 e n21 e si rappresenti graficamente ladistribuzione cumulata Y |X = x1;

2. si riassumano con opportuni indici di posizione e di variabilità le distribuzioni condizionateY |X = xi, i = 1,2;

3. sulla base di un opportuno indice verificare se si può ritenere che esista connessione tra levariabili X e Y ;

4. confrontare le due distribuzioni condizionate Y |X = xi, i = 1,2, con un opportuno indice diasimmetria;

5. supponendo che x1 = 1 e x2 = 2x1 si calcoli il valore del coefficiente di correlazione linearetra X e Y .

19.57

280

Page 282: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 37 (T 212, 15.07.2004, 2). Dato il seguente grafico della serie storica Y del fatturato(in milioni di e) di un’azienda negli ultimi 7 mesi (t = 1,2, . . . ,7),

0 2 4 6 8

1. sapendo che M(Y ) = 4, Var(Y ) = 9, e che ρ2 = 0.64 calcolare i parametri della retta diregressione Y ∗ = a+bt;

2. indicare i valori assunti dalle varianze spiegate dei modelli I) Y ∗ = a+ bt e II) funzione diregressione M(Y |t).

19.58

Esercizio 38 (T 227, 29.06.2006, 3). Date due v.s. X e Y , la funzione di regressione di Y |X èM(Y |X) = 2+3X2. Sapendo che la distribuzione marginale di X è la seguente:

xi 1 2 3 4fi 0.2 0.3 0.4 0.1

e sapendo che η2Y |X = 0.5, determinare il valore della varianza residua di Y .

19.59

Esercizio 39 (T 157, 30.09.1999, 3). Data la seguente distribuzione del carattere W :

wi 2 7 12ni 3 4 3

sapendo che i parametri del seguente modello di regressione: T ∗ = a + bW assumono i valoriseguenti: a = −4 e b = 2, e che l’indice di adattamento di tale modello è pari al rapporto dicorrelazione, ossia ρ2 = η2

T |W , calcolare:

1. le medie condizionate M(T |W ) del carattere T ;

2. il valore di η2T |W sapendo che la varianza di T è pari a 100;

3. il valore della covarianza tra W e T .19.60

Esercizio 40 (T 179, 20.07.2000, 5). A un insieme di dati si è adattato un modello di regressionelineare Y ∗ = a+bX e si sono conservati soltanto i seguenti valori: b = 0.7; σ2

X = 5 e M(Y 2) = 2.2.Si vogliono determinare le seguenti quantità:

1. ρ2: indice di adattamento;

2. σXY (covarianza);

3. la varianza residua;

4. la varianza spiegata;

5. l’intercetta a.

Si calcolino, ove possibile, i valori numerici delle quantità sopra indicate e, in caso di impossibilità,si indichino quali ulteriori informazioni sarebbero necessarie.

19.61

Esercizio 41 (T 189, 27.09.2001, 5). Siano date le due variabili statistiche X e Y . Sapendoche il coefficiente angolare (b) della retta di regressione Y = a+bX è pari a 1.5 e il coefficiente dicorrelazione lineare tra X e Y è pari a 0.7, si determini il valore:

1. del coefficiente angolare della seconda retta di regressione X = γ +δY ;

2. l’indice di adattamento ρ2.

Sapendo inoltre che σ2X = 56 si calcoli il valore:

281

Page 283: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1. della varianza spiegata della prima retta di regressione Y = a+bX ;

2. della covarianza.19.62

Esercizio 42 (T 191, 31.01.2002, 4). In una classe di 20 studenti di un liceo scientifico si sonorilevati il voto di matematica (X) ed il voto di fisica (Y ). Il coefficiente di correlazione lineare èrisultato essere pari a 0.8. Per descrivere l’eventuale legame esistente fra le due variabili sono statiusati i seguenti modelli lineari: Y = a+ bX ed X = c+ dY , i cui parametri sono stati determinaticol metodo dei minimi quadrati.Dire, motivando la risposta, se le seguenti affermazioni sono vere.

1. b =−0.6 e d =−1.0667;

2. l’80% della variabilità di Y è spiegata attraverso il legame lineare con X ;

3. esiste perfetta relazione lineare tra X e Y .19.63

Esercizio 43 (T 203, 26.06.2003, 3). Siano M(Y |x1) = 2, M(Y |x2) = 4 e M(Y |x3) = 6 le mediecondizionate di una variabile Y alle tre modalità di una variabile X così distribuita:

X nia 10b 20c 10

1. Sapendo che la media delle varianze condizionate di Y a X è 20, calcolare la varianza di Y .

2. Si determini il valore di η2Y |X .

3. Posto a = 1, b = 2 e c = 3, si determini il segno del coefficiente di correlazione lineare tra Xe Y .

19.64

Esercizio 44 (T 211, 01.07.2004, 3). Siano X e Y due variabili statistiche. Sapendo che ilcoefficiente b della retta di regressione X = a+ bY è pari a 0.7 e il coefficiente di correlazionelineare tra X e Y è pari a 0.5, determinare:

1. il coefficiente angolare della retta di regressione Y = c+dX

2. le varianze residua e spiegata della retta di regressione X = a+bY sapendo che σ2Y = 7

3. il valore della covarianza tra X e Y .19.65

Esercizio 45 (T 238, 20.09.2007, 3). Siano X e Y due caratteri quantitativi tali che la funzionedi regressione di Y su X sia M(Y |X) = 2+4

√xi. Sapendo che la distribuzione del carattere X è la

seguente:xi 4 9 16 25 36fi 0.2 0.15 0.3 0.15 0.2

e che la varianza del carattere Y è pari a 45.6

1. si calcoli la media della variabile Y .

2. Si calcoli il valore dell’indice η2Y |X .

3. Si indichi l’intervallo dei valori che può assumere il coefficiente di correlazione lineare ρ trale variabili X e Y .

19.66

Esercizio 46 (T 152, .., 5). Siano X1, X2 e X3 tre variabili statistiche tra loro non correlate, conmedie aritmetiche µi e varianze σ2

i ; sia Z un’altra variabile definita come Z = X1 +X2. Trovarel’espressione analitica dei parametri e della varianza residua del modello di regressione lineare di Zcon X3.

19.67

282

Page 284: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Modello Y = bX +E

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b

b = argminb

M[E2]= argmin

bM[(Y −bX)2

]dM[(Y −bX)2

]db

= 0

M

[d (Y −bX)2

db

]= 0

M [2(Y −bX)(−X)] = 0

M(−XY +bX2)= 0

−M (XY )+bM(X2)= 0

da cui segue

b =M (XY )M (X2)

.

19.68

Il residuo quadratico medio risulta

M(E2) = M

[(Y − bX

)2]= M

[(Y − bX

)(Y − bX

)]= M

[(Y − bX

)Y]− bM

[(Y − bX

)X]

ma, nella dimostrazione precedente si è visto che, per b = b, si ha M[(

Y − bX)

X]= 0

per cui:M(E2)= M

[(Y − bX

)Y].

La formula coincide con quella generale relativa ai polinomi

M(E2)= M

[Y(Y − bX

)]= M

(Y 2)− bM (XY ) .

Si osserva come, mancando l’intercetta (è stata vincolata a 0), non vale il risultato discomposizione della varianza e non è quindi possibile calcolare l’indice di adattamento(normalizzato). 19.69

283

Page 285: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 286: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 20Modelli riconducibili al modelloretta

20.1

Indice

1 Linearizzazioni 285

2 Valutazione di modelli alternativi 2862.1 Modelli completi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2862.2 Modelli incompleti e linearizzati . . . . . . . . . . . . . . . . . . . . . . 286

3 Indice di miglioramento 288

4 Interpretazione del coefficiente b per alcuni modelli di regressione 2884.1 Relazione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2894.2 Trasformata logaritmica della variabile esplicativa . . . . . . . . . . . . . 2894.3 Trasformata logaritmica della variabile dipendente . . . . . . . . . . . . 2894.4 Trasformata logaritmica della variabile dipendente e variabile esplicativa

di tipo dummy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2904.5 Trasformata logaritmica sia della variabile dipendente che della variabile

esplicativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290

5 Estensione del modello lineare bivariato 292 20.2

1 Linearizzazioni

Sebbene qualsiasi funzione continua può essere approssimata, mediante uno sviluppo inserie di Taylor, da una funzione polinomiale di grado opportuno, a volte per interpretare almeglio il legame esistente tra la variabile Y e la variabile X risulta opportuno fare ricorsoa una relazione di tipo non lineare. Alcune di queste sono riconducibili al modello retta(linearizzazione) tramite una opportuna trasformazione.

forma non lineare forma linearizzata1 Y ∗ = aXb (lnY ∗) = (lna)+b(lnX)2 Y ∗ = aebX (lnY ∗) = (lna)+bX3 Y ∗ = abX (lnY ∗) = (lna)+(lnb)X4 Y ∗ = a+ b

X Y ∗ = a+b 1X

5 Y ∗ = 1a+bX

1Y ∗ = a+bX

6 Y ∗ = Xa+bX

1Y ∗ = b+a 1

X4) iperbole 5) reciproco retta 6) reciproco iperbole

20.3

285

Page 287: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Il precedente prospetto contiene dei particolari modelli che nelle variabili trasformatedivengono lineari di 1 grado e risulta, quindi, possibile fare ricorso alle usuali formuledel modello retta per ottenere le stime dei parametri

dipendente = intercetta+ pendenza · esplicativa

pendenza =Cov(dipendente,esplicativa)

Var(esplicativa)intercetta = M(dipendente)− pendenza ·M(esplicativa)

Le stime ottenute coincidono con quelle che si otterrebbero risolvendo il problema diminimo in base al criterio dei minimi quadrati applicato ai residui della forma non lineare.Ad esempio, con riferimento ai coefficienti a e b del primo modello:

(a, b) = argmin(a,b)

M(

Y −aebX)2

.

Per scegliere tra diversi modelli alternativi si confrontano i valori assunti dai residui qua-dratici medi M(E2) associati a tali modelli. Il modello migliore sarà quello con residuoquadratico medio minimo.L’indice di adattamento non risulta, in genere, definito in quanto la variabile E può nonavere media nulla. 20.4

2 Valutazione di modelli alternativi

In presenza di due o più modelli è possibile individuare il modello che si ’adatta’ meglioai dati, vale a dire interpreta meglio la relazione di dipendenza tra la variabile dipendenteY e la variabile esplicativa X , confrontando i residui quadratici medi dei modelli in gioco.Il modello ’migliore’ è quello caratterizzato da residuo quadratico medio, M(E2), mini-mo.

Nel caso, per ciascuno dei modelli in gioco M(E) = 0 e, quindi, vale il risultato di scom-posizione della varianza è anche possibile, in alternativa al confronto dei residui quadraticimedi, effettuare il confronto tra gli indici di adattamento.Il modello ’migliore’ è quello caratterizzato dall’indice di adattamento (quota di varianzaspiegata) più elevato. 20.5

2.1 Modelli completi

Con riferimento ai modelli completi (modelli polinomiali nei quali figura l’intercettacome parametro libero) si è visto che la media del residuo è nulla

M(E) = 0

quindi, il residuo quadratico medio coincide con la varianza residua del modello

M(E2) =Var(E)

e vale la scomposizione della varianza come

σ2Y = σ

2spiegata +σ

2residua

dove• σ2

spiegata = varianza dei punti di regressione• σ2

residua = attorno ai punti di regressione =Var(E) = M(E2)20.6

286

Page 288: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.2 Modelli incompleti e linearizzati

Nei modelli incompleti e in quelli non lineari, se per ricondursi alla forma linearizzatasi opera una trasformazione della variabile dipendente, non vale la scomposizione dellavarianza e può, anche, accadere che

M(E2)> σ2Y .

Di conseguenza, dovendo scegliere, tra diversi modelli, quale è più opportuno utilizzareper interpretare la variabile Y si dovranno confrontare i residui quadratici medi quando:

• in qualcuno dei modelli in gioco manca l’intercetta,• l’intercetta è vincolata,• il modello è non lineare e si è operata una trasformazione che coinvolge la variabile

dipendente per ricondursi alla forma linearizzata.

In questi casi non ha senso calcolare l’indice di adattamento. 20.7

Esempio 1 (vincolo: retta passante in (0,a0)).

Y ∗ = a0 +bX (a≡ a0 = 10)

0 2 4 6 8

02

46

810

x

y

20.8

Esempio 2 (trasformazione: modello Y = a+ bX2). È possibile ricondursi al modelloretta, considerando X2 come variabile esplicativa.Nella prima delle seguenti rappresentazioni grafiche si stima il modello quadratico in X ;nella seconda il modello lineare in X2; si osserva come la struttura di variabilità della Yrimane immutata.I residui del primo modello sono identici a quelli del secondo, avendo operato una tra-sformazione solo della variabile esplicativa.Quindi il residuo quadratico medio assume lo stesso valore in entrambe le situazioni.

0 2 4 6 8

02

46

810

x

y

0 10 20 30 40 50

02

46

810

x2

y

20.9

Esempio 3 (trasformazione: modello Y = aXb). È possibile ricondursi al modello retta,operando la linearizzazione

ln(Y ) = lna+b ln(X)

287

Page 289: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Nella prima delle seguenti rappresentazioni grafiche si stima il modello non lineare in X ;nella seconda il modello linearizzato in lnX e lnY .Si osserva come in questo caso la struttura di variabilità della Y cambia.Non si possono, quindi, utilizzare i residui e, tantomeno, l’indice di adattamento delsecondo modello per valutare la bontà del primo.Occorre calcolare il residuo quadratico medio basandosi sui residui della prima figura.

0 2 4 6 8

020

4060

8010

0

x

y

0.0 0.5 1.0 1.5 2.0 2.5

01

23

45

ln(x)

ln(y)

20.10

3 Indice di miglioramento

Dati due modelli possiamo classificare come ’migliore’ il modello che ha associato ilresiduo quadratico medio più piccolo e come ’peggiore’ quello che ha associato il residuoquadratico medio più grande.

Definizione 4. Si definisce indice di miglioramento la riduzione relativa del residuoquadratico medio che si ottiene passando dal modello peggiore al modello migliore.

pegg,miglρ2 =

RMSpegg−RMSmigl

RMSpegg

20.11

4 Interpretazione del coefficiente b per alcuni modellidi regressione

I risultati seguenti valgono anche con riferimento ai modelli di regressione multipla (cheverranno presentati in una Sezione successiva), ceteris paribus, ossia supponendo cherimanga immutato il livello di tutte le altre variabili eventualmente presenti nel modelloe nell’ipotesi teorica che vi sia assenza di correlazione tra la componente di errore e iregressori.Si considerano le seguenti tipologie di relazioni lineari:

• relazione lineare con trasformata logaritmica della variabile esplicativa• relazione lineare con trasformata logaritmica della variabile dipendente• relazione lineare con trasformata logaritmica della variabile dipendente e variabile

esplicativa di tipo dummy• relazione lineare con trasformata logaritmica sia della variabile dipendente che

della variabile esplicativa20.12

288

Page 290: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4.1 Relazione lineare

Y ∗ = a+bX

Sex0→ x0 +∆x

consegue chey∗0 = a+bx0→ a+bx0 +b∆x = y∗0 +b∆x,

quindi

∆y∗ = y∗0 +b∆x− y∗0 = b∆x e∆y∗

∆x= b.

b è la variazione assoluta di y∗ che consegue a una variazione assoluta unitaria di x. 20.13

4.2 Trasformata logaritmica della variabile esplicativa

Y ∗ = a+b ln(X)

Sex0→ x1 = x0 +∆x = x0 + cx0 = (1+ c)x0

consegue che

y∗0→ a+b ln[(1+ c)x0] = a+b ln(x0)+b ln(1+ c) = y∗0 +b ln(1+ c),

quindi∆y∗ = b ln(1+ c).

Si osserva che il rapporto tra il nuovo valore di x, x1 = (1+c)x0 e il valore iniziale x0 puòessere interpretato come un valore relativo e risulta pari a 1+ c:

x1

x0= (1+ c)

da cui consegue una variazione relativa di x pari a c.Si consideri lo sviluppo in serie di Taylor di ln(1+ c), vale:

ln(1+ c)' c.

Per valori ’piccoli’ di c si può interpretare b ln(1+ c) ' bc come la variazione assolutadi y∗ che consegue a una variazione relativa di x pari a 100c%. 20.14

4.3 Trasformata logaritmica della variabile dipendente

ln(Y ∗) = a+bX

Sex0→ x1 = x0 +∆x

consegue cheln(y∗0)→ a+bx0 +b∆x = ln(y∗0)+b∆x.

Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = expln(y∗0)+ b∆x e ilvalore iniziale y∗0:

y∗1y∗0

=expln(y∗0)+b∆x

expln(y∗0)=

exp

ln(y∗0)+ lneb∆x

y∗0=

=exp

ln(y∗0 · eb∆x

)y∗0

=y∗0 · eb∆x

y∗0= eb∆x.

Considerando lo sviluppo in serie di Taylor di eb∆x, abbiamo che eb∆x ' (1+b∆x).Quindi, per valori piccoli di b e di ∆x si può interpretare b∆x come la variazione relativadi y∗ che consegue a una variazione assoluta ∆x di x. 20.15

289

Page 291: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4.4 Trasformata logaritmica della variabile dipendente e variabileesplicativa di tipo dummy

Si particolarizza il caso precedente tenendo presente che x può assumere solo i valori 0 e1, rispettivamente nelle situazioni di assenza e presenza del carattere di cui è indicatrice.1

ln(Y ∗) = a+bX

Sex0 = 0→ x1 = 1

consegue cheln(y∗0) = a→ ln(y∗1) = a+b = ln(y∗0)+b.

Il rapporto (valore relativo) tra il nuovo valore y∗1 = expln(y∗0)+b e il valore iniziale y∗0risulta:

y∗1y∗0

=expln(y∗0)+b

expln(y∗0)=

exp

ln(y∗0)+ lneb

y∗0=

exp

ln(y∗0eb

)y∗0

=y∗0eb

y∗0= eb.

Quindi, dal momento che eb ' (1+b) per valori piccoli di b, il coefficiente b può essereinterpretato come la variazione relativa di y∗ che consegue al passaggio della variabileindicatrice x dallo stato 0 allo stato 1.Ad esempio l’incremento percentuale, ceteris paribus, del salario di un soggetto di generemaschile, x = 1, rispetto allo stipendio di un soggetto di genere femminile, x = 0. 20.16

4.5 Trasformata logaritmica sia della variabile dipendente che del-la variabile esplicativa

ln(Y ∗) = a+b ln(X)

Sex0→ x1 = x0 +∆x = x0 + cx0 = (1+ c)x0

consegue che

ln(y∗0) = a+b ln(x0)→ ln(y∗1) = a+b ln[(1+ c)x0] =

= a+b ln(x0)+b ln(1+ c) = ln(y∗0)+b ln(1+ c).

Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = expln(y∗0)+b ln(1+c)e il valore iniziale y∗0:

y∗1y∗0

=expln(y∗0)+b ln(1+ c)

expln(y∗0)=

expln(y∗0)+ ln(1+ c)by∗0

=

=expln[y∗0(1+ c)b]

y∗0=

y∗0(1+ c)b

y∗0= (1+ c)b.

1Se, ad esempio, si è rilevato il genere G di 4 soggetti, la variabile X =maschio assume valore 1 per i soggettimaschi e 0 per le femmine

soggetto G X1 m 12 f 03 f 04 m 15 f 0

290

Page 292: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si osservi come(1+ c)b ' (1+bc),

per valori piccoli di b e c; infatti

(1+ c)b = exp[ln(1+ c)b] = exp[b ln(1+ c)];

inoltreln(1+ c)' c

e, infine,exp(bc)' (1+bc).

20.17

A una variazione relativa di x, pari ac

(si ricordi che x1/x0 = 1+ c) consegue, quindi, una variazione relativa di y∗ pari a circa

bc

(infatti, y∗1/y∗0 ' 1+bc).Dal momento che si considerano valori ’sufficientemente piccoli’ di b e c le variazionirelative di x e y∗ possono rispettivamente indicarsi (nel continuo) con dx

x e dy∗y∗ , da cui il

rapportody∗y∗

dxx

' bcc

= b

noto anche come elasticità di y∗ rispetto a x.Si osserva che la presente relazione corrisponde alla versione ’linearizzata’ di Y ∗

Y ∗ = αXb.

20.18

Prospetto riepilogativo• Y ∗ = a+bX

b è la variazione assoluta di Y ∗ conseguente a una variazione assoluta di X =+1.• Y ∗ = a+b lnX

bc è la variazione assoluta di Y ∗ conseguente a una variazione relativa di X pari ac = 100c%;se X aumenta dell’1% (variazione relativa di X = 0.01 =+1%) allora la variazioneassoluta di Y ∗ è 0.01b.

• lnY ∗ = a+bXb= 100b% è la variazione relativa (percentuale) di Y ∗ conseguente a una variazioneassoluta di X =+1.

• lnY ∗ = a+b lnXb è la variazione relativa percentuale di Y ∗ conseguente a una variazione relativa diX ;se X aumenta dell’1% (variazione relativa di X = 0.01 =+1%) allora la variazionerelativa di Y ∗ è 0.01b = 100 ·0.01b% = b%. 20.19

Se X è una variabile indicatrice (dummy) abbiamo:• Y ∗ = a+bX

b è la variazione assoluta di Y ∗ conseguente al passaggio di X dallo stato 0 allostato 1.

• lnY ∗ = a+bXb = 100b% è la variazione relativa (percentuale) di Y ∗ conseguente al passaggio diX dallo stato 0 allo stato 1. 20.20

291

Page 293: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 Estensione del modello lineare bivariato

• se ρ2 η2Y |X → il modello è migliorabile

(ad esempio aumentando il grado del polinomio)• se ρ2 ' η2

Y |X → il modello non è migliorabile20.21

Esempio 5. Si riprenda l’esempio relativo alla lunghezza piede (Y ) e all’altezza (X)

xi 160 170 180 190fi• 0.189 0.411 0.322 0.078

µY (xi) 39.43 41.04 42.14 44.14σ2

Y (xi) 2.37 2.83 1.84 1.55

M(X) = 172.89 Var(X) = 73.88M(Y ) = 41.37 Var(Y ) = 3.81

Cov(X ,Y ) = M(XY )−µX µY = 10.56

avendo espresso M(XY ) come segue

M(XY ) =h

∑i=1

k

∑j=1

xiy j fi j =h

∑i=1

fi•k

∑j=1

xiy jfi j

fi•

=h

∑i=1

fi•xi

k

∑j=1

y jfi j

fi•=

h

∑i=1

fi•xiM(Y |xi) =h

∑i=1

xiµY (xi) fi•

media varianze condizionate = 2.32varianza medie condizionate = 1.54

η2Y = 0.399 ρ

2 = 0.39120.22

Soluzione

aggiungere variabili esplicative→ analisi multivariata

ad esempio:lunghezza piede = f (altezza, peso)

20.23

292

Page 294: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 21Esempio stima modelli inpresenza di tabella a doppiaentrata

21.1

Indice

1 Funzione di regressione 2941.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 295

2 Modello Y ∗ = a+bX 296

3 Modello Y ∗ = a+bX2 296

4 Modello Y ∗ = bX 297

5 Modello Y ∗ = bX2 297

6 Modello Y ∗ = aXb 298

7 Modello Y ∗ = aebX 299

8 Modello Y ∗ = abX 300

9 Modello Y ∗ = 5+bX 300

10 Modello Y ∗ = 5+bX2 301

11 Schema riassuntivo 302 21.2

Con riferimento ai dati raccolti nella tabella a doppia entrata

X \ Y 5 15 261 0 0 4 42 0 8 3 113 9 1 0 10

9 9 7 25

si stimano i parametri e il residuo quadratico medio di alcuni modelli di regressione. 21.3

293

Page 295: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si considerano le distribuzioni condizionate Y |X per il calcolo di medie e varianze condi-zionate

Y |x = 1 n1 j5 0

15 026 4

4

M(Y |x = 1) = 26Var(Y |x = 1) = 0

Y |x = 2 n2 j Y |x = 2 ·n2 j5 0 0

15 8 12026 3 78

11 198

M(Y |x = 2) = 18Var(Y |x = 2) = 24

Y |x = 3 n3 j Y |x = 3 ·n3 j5 9 45

15 1 1526 0 0

10 60

M(Y |x = 3) = 6Var(Y |x = 3) = 9

21.4

1 Funzione di regressione

Rappresentazione grafica mediante bubble diagram con aggiunta delle medie condiziona-te M(Y |X)

0 1 2 3 4

05

1015

2025

30

21.5

Variabile statistica medie condizionate M(Y |X)

xi M(Y |xi) ni M(Y |X)ni M(Y |X)2ni1 26 4 104 27042 18 11 198 35643 6 10 60 360

Somma 25 362 6628modalità frequenze calcolo calcolo

media momentosecondo

media delle medie condizionate

MXM(Y |X)= 36225

= 14.48

294

Page 296: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

varianza delle medie condizionate

VarXM(Y |X)= 662825−14.482 = 55.4496 (varianza spiegata)

21.6

Variabile statistica varianze condizionate Var(Y |X)

xi Var(Y |xi) ni Var(Y |xi)ni1 0 4 02 24 11 2643 9 10 90

Somma 25 354modalità frequenze calcolo

media

media varianze condizionate

MXVar(Y |X)= 35425

= 14.16 (varianza residua)

Calcolo media e varianza di Y

y j n j y jn j y2jn j

5 9 45 22515 9 135 202526 7 182 4732

25 362 6982

M(Y ) = 362/25 = 14.48M(Y 2)= 6982/25 = 279.28

Var(Y ) = 279.28−14.482 = 69.6096

21.7

1.1 Rapporto di correlazione

Dai calcoli effettuati nelle pagine precedenti si ha che

M(Y ) = MXM(Y |X)= 14.48

Var(Y ) = VarXM(Y |X) + MXVar(Y |X)Var(Y ) = (varianza spiegata) + (varianza residua)69.6096 = 55.4496 + 14.16

η2Y |X =

varianza spiegata funzione regressioneVar(Y )

η2Y |X =

VarXM(Y |X)Var(Y )

=55.449669.6096

= 0.7967

21.8

295

Page 297: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Modello Y ∗ = a+bX

b =Cov(X ,Y )

Var(X)=

M(XY )−M(X)M(Y )M (X2)− [M(X)]2

=27.2−2.24 ·14.48

5.52−5.0176=−5.23520.5024

=−10.4204

a = M(Y )− bM(X) = 14.48+10.4204 ·2.24 = 37.8217

ρ2 =

[Cov(X ,Y )]2

Var(X)Var(Y )=

27.40730.5024 ·69.6096

= 0.7837

ρ = −0.8853

M(E2) =Var(E) = varianza residua = 15.0568 = σ2Y (1−ρ

2)

21.9

Osservazione

•dipendente = a+b · esplicativa

b =Cov(esplicativa,dipendente)

Var(esplicativa)

a = M(dipendente)− bM(esplicativa)

• Nel caso in esame la variabile residuo, E =Y −Y ∗, è caratterizzata da media nulla,quindi M(E2) = Var(E), vale a dire il residuo quadratico medio coincide con lavarianza dei residui.

21.10

3 Modello Y ∗ = a+bX2

È possibile ricondursi al modello retta

dipendente = a+b · esplicativa

b =Cov

(X2,Y

)Var (X2)

=M(X2Y

)−M

(X2)

M(Y )M (X4)− [M (X2)]2

=57.44−5.52 ·14.48

39.6−5.522 =−22.4896

9.1296=−2.4634

a = M(Y )− bM(X) = 14.48+2.4634 ·5.52 = 28.078

ρ2 =

[Cov

(X2,Y

)]2Var (X2)Var(Y )

=505.7821

9.1296 ·69.6096= 0.7958

ρ = −0.8921

M(E2) =Var(E) = varianza residua = 14.2113 = σ2Y (1−ρ

2)

Anche nel caso in esame M(E) = 0 quindi M(E2) =Var(E). 21.11

296

Page 298: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Modello Y ∗ = bX

b =M (XY )M (X2)

=27.25.52

= 4.9275.

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi

M(E2) = M[Y(Y − bX

)]= M

(Y 2)− bM(XY ) = 279.28−4.9275 ·27.2 = 145.252

Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della va-rianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 21.12

5 Modello Y ∗ = bX2

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b

b = argminb

M[(

Y −bX2)2]

dM[(

Y −bX2)2]

db= 0

M

[d(Y −bX2

)2

db

]= 0

M[2(Y −bX2)(−X2)]= 0

M(−X2Y +bX4)= 0

−M(X2Y

)+bM

(X4)= 0

da cui segue

b =M(X2Y

)M (X4)

=57.4439.6

= 1.4505.

21.13

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi

M(E2) = M[Y(Y − bX2)]= M

(Y 2)− bM

(X2Y

)= 279.28−1.4505 ·57.44 = 195.9633

Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della va-rianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 21.14

297

Page 299: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 Modello Y ∗ = aXb

È possibile linearizzare il modello

lnY ∗ = lna+b lnX

e ricondursi al modello retta

dipendente = lna+b · esplicativa

dove dipendente = lnY e esplicativa = lnX .Per calcolare i parametri conviene riferirsi alle variabili trasformate

lnX \ lnY 1.6094 2.7081 3.25810 0 0 4 4

0.6931 0 8 3 111.0986 9 1 0 10

9 9 7 25

M(lnX) = 0.744 M(lnY ) = 2.4666M[(lnX)2

]= 0.6942 M[(lnY )2] = 1.6272

Var(lnX) = 0.14 Cov(lnX , lnY ) = M(lnX lnY )−M(lnX)M(lnY ) == 1.6272−0.744 ·2.4666 =−0.2090

b =Cov(lnX , lnY )

Var(lnX)=

M(lnX lnY )−M(lnX)M(lnY )M [(lnX)2]− [M(lnX)]2

=−0.2090

0.14=−1.4929

ln(a) = M(lnY )− bM(lnX) = 3.578 → a = e3.578 = 35.8019.

21.15

Per il calcolo del residuo quadratico medio occorre, in primo luogo, determinare i valoriassunti dal modello Y ∗ = 35.8019X−1.4929 con x = 1,2,3.

Y ∗(1) = 35.80, Y ∗(2) = 12.72, Y ∗(3) = 6.94

quindi, applicando la definizione di residuo quadratico medio

M(E2) = M(

Y −35.8019X−1.4929)2=

1n

h

∑i=1

k

∑j=1

(y j−35.8019x−1.4929

i)2

ni j

calcolare la corrispondente media di una funzione di una variabile statistica doppia

(y j−35.8019x−1.4929

i

)2ni j y1 = 5 y2 = 15 y3 = 26

x1 = 1 (5−35.80)2 ·0 (15−35.80)2 ·0 (26−35.80)2 ·4x2 = 2 (5−12.72)2 ·0 (15−12.72)2 ·8 (26−12.72)2 ·3x3 = 3 (5−6.94)2 ·9 (15−6.94)2 ·1 (26−6.94)2 ·0

1053.75

da cuiM(E2) =

1053.7525

= 42.15.

21.16

298

Page 300: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Modello Y ∗ = aebX

È possibile linearizzare il modello

lnY ∗ = lna+bX

e ricondursi al modello retta

dipendente = lna+b · esplicativa

dove dipendente = lnY e esplicativa = X .Per calcolare i parametri conviene riferirsi alle variabili trasformate

X \ lnY 1.6094 2.7081 3.25811 0 0 4 42 0 8 3 113 9 1 0 10

9 9 7 25

M(X) = 2.24 M(lnY ) = 2.4666M[X2] = 5.52 M(X lnY ) = 5.0995Var(X) = 0.5024 Cov(X , lnY ) = 5.0995−2.24 ·2.4666 =−0.4256

b =Cov(X , lnY )

Var(X)=

M(X lnY )−M(X)M(lnY )M (X2)− [M(X)]2

=−0.42560.5024

=−0.8470

ln(a) = M(lnY )− bM(X) = 4.3639 → a = e4.3639 = 78.5648.

21.17

Per il calcolo del residuo quadratico medio occorre, in primo luogo, determinare i valoriassunti dal modello Y ∗ = 78.5648e−0.8470X con x = 1,2,3.

Y ∗(1) = 33.68, Y ∗(2) = 14.44, Y ∗(3) = 6.19

quindi, applicando la definizione di residuo quadratico medio

M(E2) = M(

Y −78.5648e−0.8470X)2=

1n

h

∑i=1

k

∑j=1

(y j−78.5648e−0.8470xi

)2ni j

e calcolando la corrispondente media di una funzione di una variabile statistica doppia

(y j−78.5786e−0.8471xi

)2 ni j y1 = 5 y2 = 15 y3 = 26x1 = 1 (5−33.68)2 ·0 (15−33.68)2 ·0 (26−33.68)2 ·4x2 = 2 (5−14.44)2 ·0 (15−14.44)2 ·8 (26−14.44)2 ·3x3 = 3 (5−6.19)2 ·9 (15−6.19)2 ·1 (26−6.19)2 ·0

729.83

da cuiM(E2) =

729.8325

= 29.19.

21.18

299

Page 301: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 Modello Y ∗ = abX

È possibile linearizzare il modello

lnY ∗ = lna+(lnb)X

Si lascia per esercizio la stima dei parametri e del residuo quadratico medio

ln(b)

=Cov(X , lnY )

Var(X)=−0.42560.5024

=−0.8470 → b = e−0.8470 = 0.4287

ln(a) = M(lnY )− ln(b)

M(X) = 4.3639 → a = e4.3639 = 78.5648

M(E2) = M(

Y −78.5648 ·0.4287X)2=

729.8325

= 29.19.

Il modello in esame è equivalente a quello precedentemente stimato; vale infatti

abX = aelnbX= aeX lnb = ae(lnb)X = aecX .

21.19

9 Modello Y ∗ = 5+bX

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b

b = argminb

M[(Y −5−bX)2

]dM[(Y −5−bX)2

]db

= 0

M

[d (Y −5−bX)2

db

]= 0

M [2(Y −5−bX)(−X)] = 0

(è utile considerare Y −5 come termine unico)

M[−X (Y −5)+bX2]= 0

−M [X (Y −5)]+bM(X2)= 0

da cui segue

b =M [X (Y −5)]

M (X2)=

165.52

= 2.8986.

X \ Y −5 0 10 211 0 0 4 42 0 8 3 113 9 1 0 10

9 9 7 25

M[X2] = 5.52M[X(Y −5)] = 16M[(Y −5)2] = 159.48

21.20

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi con-siderando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si èalterata la struttura di variabilità della Y ).

M(E2) = M[(Y −5)

(Y −5− bX

)]= M

[(Y −5)2]− bM[X(Y −5)] = 159.48−2.8986 ·16 = 113.1024.

Si osserva come, essendo l’intercetta vincolata, non vale il risultato di scomposizionedella varianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 21.21

300

Page 302: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

10 Modello Y ∗ = 5+bX2

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b

b = argminb

M[(

Y −5−bX2)2]

dM[(

Y −5−bX2)2]

db= 0

M

[d(Y −5−bX2

)2

db

]= 0

M[2(Y −5−bX2)(−X2)]= 0

(è utile considerare Y −5 come termine unico)

M[−X2 (Y −5)+bX4]= 0

−M[X2 (Y −5)

]+bM

(X4)= 0

da cui segue

b =M[X2 (Y −5)

]M (X4)

=29.8439.6

= 0.7535.

X \ (Y −5) 0 10 211 0 0 4 42 0 8 3 113 9 1 0 10

9 9 7 25

M[X4] = 39.6M[X2(Y −5)] = 29.84M[(Y −5)2] = 159.48

21.22

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi con-siderando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si èalterata la struttura di variabilità della Y ).

M(E2) = M[(Y −5)

(Y −5− bX2)]

= M[(Y −5)2]− bM[X2(Y −5)] = 159.48−0.7535 ·29.84 = 136.9956.

Si osserva come, essendo l’intercetta vincolata, non vale il risultato di scomposizionedella varianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 21.23

301

Page 303: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

11 Schema riassuntivomodello I II III IV V V I V II V III IX XY ∗ = f .regress. a+bX a+bX2 bX bX2 aXb aebX abX 5+bX 5+ cX2

M(E2) 14.16 15.0568 14.2113 145.25 195.96 42.15 29.19 29.19 113.10 136.996indice 0.7967 0.7837 0.7958 non vale il teorema di scomposizione della varianzaadatt. in quanto M(E) 6= 0

21.24

Il seguente prospetto riporta gli indici di miglioramento

pegg,miglρ2 =

RMSpegg−RMSmigl

RMSpegg

per i modelli considerati

riga,colonnaρ2 I II III IV V V I V II V III IX XY ∗ = f .regress. a+bX a+bX2 bX bX2 aXb aebX abX 5+bX 5+ cX2

III 0.0596 0.0562III 0.0036IV 0.9025 0.8963 0.9022 0.7098 0.7990 0.7990 0.2213 0.0568V 0.9277 0.9232 0.9275 0.7849 0.8510 0.8510 0.4228 0.3009V I 0.6641 0.6428 0.6628 0.3075 0.3075V II 0.5149 0.4842 0.5131 0.0000V III 0.5149 0.4842 0.5131 0.0000IX 0.8748 0.8669 0.8743 0.6273 0.7419 0.7419X 0.8966 0.8901 0.8963 0.6923 0.7869 0.7869 0.1744

21.25

302

Page 304: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 22Esempio stima modelli inpresenza di coppie di dati

22.1

Indice

1 Funzione di regressione 3041.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 305

2 Modello Y ∗ = a+bX 306

3 Modello Y ∗ = a+bX2 307

4 Modello Y ∗ = bX 308

5 Modello Y ∗ = bX2 308

6 Modello Y ∗ = aXb 309

7 Modello Y ∗ = aebX 310

8 Modello Y ∗ = abX 311

9 Modelli Y ∗ = 5+bX e Y ∗ = 5+ cX2 312

10 Schema riassuntivo 312 22.2

Con riferimento alle coppie di dati

xi 3 2 1 4 2yi 6 4 4 6 5

si stimano i parametri e il residuo quadratico medio dei seguenti modelli

• funzione di regressione• Y ∗ = a+bX• Y ∗ = a+bX2

• Y ∗ = bX• Y ∗ = bX2

• Y ∗ = aXb

• Y ∗ = aebX

• Y ∗ = abX

• Y ∗ = 5+bX• Y ∗ = 5+ cX2

22.3

303

Page 305: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1 Funzione di regressione

i xi yi1 3 62 2 43 1 44 4 65 2 5

Somma 12 25Media 2.4 5

Rappresentazione grafica punti e medie condizionate M(Y |X)

0 1 2 3 4 5

01

23

45

67

22.4

Variabile statistica medie condizionate M(Y |X)

xi M(Y |xi) ni M(Y |X)ni M(Y |X)2ni1 4 1 4 162 4.5 2 9 40.53 6 1 6 364 6 1 6 36

Somma 5 25 128.5modalità frequenze calcolo calcolo

media momentosecondo

media delle medie condizionate

MXM(Y |X)= 255

= 5

varianza delle medie condizionate

VarXM(Y |X)= 128.55−52 = 0.7 (varianza spiegata)

22.5

304

Page 306: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Variabile statistica varianze condizionate Var(Y |X)

xi Var(Y |xi) ni Var(Y |xi)ni1 0 1 02 0.25 2 0.53 0 1 04 0 1 0

Somma 5 0.5modalità frequenze calcolo

media

media varianze condizionate

MXVar(Y |X)= 0.55

= 0.1 (varianza residua)

22.6

1.1 Rapporto di correlazione

Dai calcoli effettuati nelle pagine precedenti si ha che

M(Y ) = 5 = MXM(Y |X)

Var(Y ) = VarXM(Y |X) + MXVar(Y |X)Var(Y ) = (varianza spiegata) + (varianza residua)

0.8 = 0.7 + 0.1

η2Y |X =

varianza spiegata funzione regressioneVar(Y )

η2Y |X =

VarXM(Y |X)Var(Y )

=0.70.8

= 0.875

22.7

305

Page 307: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Modello Y ∗ = a+bX

b =Cov(X ,Y )

Var(X)=

0.81.04

= 0.7692

a = M(Y )− bM(X) = 3.1538

ρ2 =

[Cov(X ,Y )]2

Var(X)Var(Y )=

0.641.04 ·0.8

= 0.7692

M(E2) =Var(E) = varianza residua = σ2Y (1−ρ

2) = 0.1846

i xi yi xiyi x2i y2

i1 3 6 18 9 362 2 4 8 4 163 1 4 4 1 164 4 6 24 16 365 2 5 10 4 25

Somma 12 25 64 34 129Media 2.4 5 12.8 6.8 25.8

M(X) M(Y ) M(XY ) M(X2)

M(Y 2)

Var(X) = M(X2)− [M(X)]2 = 1.04 Var(Y ) = M

(Y 2)− [M(Y )]2 = 0.8

Cov(X ,Y ) = M(XY )−M(X)M(Y ) = 0.822.8

Osservazione

•dipendente = a+b · esplicativa

b =Cov(esplicativa,dipendente)

Var(esplicativa)

a = M(dipendente)− bM(esplicativa)

• Nel caso in esame la variabile residuo E = Y −Y ∗ è caratterizzata da media nulla,quindi M(E2) = Var(E), vale a dire il residuo quadratico medio coincide con lavarianza dei residui.

22.9

306

Page 308: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Modello Y ∗ = a+bX2

È possibile ricondursi al modello retta

dipendente = a+b · esplicativa

b =Cov

(X2,Y

)Var (X2)

=M(X2Y

)−M

(X2)

M(Y )M (X4)− [M (X2)]2

=4

27.76= 0.1441

a = M(Y )− bM(X2)= 4.0202

ρ2 =

[Cov

(X2,Y

)]2Var (X2)Var(Y )

= 0.7205

M(E2) =Var(E) = varianza residua = σ2Y (1−ρ

2) = 0.2236

Anche nel caso in esame M(E) = 0 quindi M(E2) =Var(E).

i xi yi x2i x2

i yi x4i y2

i1 3 6 9 54 81 362 2 4 4 16 16 163 1 4 1 4 1 164 4 6 16 96 256 365 2 5 4 20 16 25

Somma 25 34 190 370 129Media 5 6.8 38 74 25.8

M(Y ) M(X2)

M(X2Y

)M(X4)

M(Y 2)

Var(X2)= M

(X4)− [M

(X2)]2 = 27.76 Var(Y ) = M

(Y 2)− [M(Y )]2 = 0.8

Cov(X2,Y

)= M

(X2Y

)−M

(X2)

M(Y ) = 422.10

307

Page 309: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 Modello Y ∗ = bX

b =M(XY )M (X2)

=12.86.8

= 1.8824

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi

M(E2) = M[Y (Y − bX)] = M(Y 2)− bM(XY ) = 25.8−1.8824 ·12.8 = 1.7059

i xi yi xiyi x2i y2

i1 3 6 18 9 362 2 4 8 4 163 1 4 4 1 164 4 6 24 16 365 2 5 10 4 25

Somma 64 34 129Media 12.8 6.8 25.8

M(XY ) M(X2)

M(Y 2)

22.11

5 Modello Y ∗ = bX2

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b

b = argminb

M[(

Y −bX2)2]

dM[(

Y −bX2)2]

db= 0

M

[d(Y −bX2

)2

db

]= 0

M[2(Y −bX2)(−X2)]= 0

M(−X2Y +bX4)= 0

−M(X2Y

)+bM

(X4)= 0

da cui segue

b =M(X2Y

)M (X4)

=3874

= 0.5135.

22.12

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi

M(E2) = M[Y(Y − bX2)]= M

(Y 2)− bM

(X2Y

)= 25.8−0.5135 ·38 = 6.287.

i xi yi x2i x2

i yi x4i y2

i1 3 6 9 54 81 362 2 4 4 16 16 163 1 4 1 4 1 164 4 6 16 96 256 365 2 5 4 20 16 25

Somma 190 370 129Media 38 74 25.8

M(X2Y

)M(X4)

M(Y 2)

22.13

308

Page 310: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 Modello Y ∗ = aXb

È possibile linearizzare il modello

lnY ∗ = lna+b lnX

e ricondursi al modello retta

dipendente = lna+b · esplicativa

Per calcolare i parametri conviene riferirsi alle variabili trasformate

b =Cov(lnX , lnY )

Var(lnX)=

M(lnX lnY )−M(lnX)M(lnY )M [(lnX)2]− [M(lnX)]2

= 0.3310

ln a = M(lnY )− bM(lnX) = 1.3368 → a = eln a = e1.3368 = 3.8070

i xi yi lnxi lnyi lnxi lnyi [lnxi]2

1 3 6 1.0986 1.7918 1.9684 1.20692 2 4 0.6931 1.3863 0.9609 0.48053 1 4 0.0000 1.3863 0.0000 0.00004 4 6 1.3863 1.7918 2.4839 1.92185 2 5 0.6931 1.6094 1.1156 0.4805

Somma 3.8712 7.9655 6.5288 4.0897Media 0.7742 1.5931 1.3058 0.8179

M(lnX) M(lnY ) M(lnX lnY ) M[(lnX)2

]Var(lnX) = M

[(lnX)2

]− [M(lnX)]2 = 0.2185

Cov(lnX , lnY ) = M(lnX lnY )−M(lnX)M(lnY ) = 0.072322.14

Per calcolare il residuo quadratico medio

M(E2) = M[(

Y − Y)2]=

1n

n

∑i=1

(yi− yi)2

occorre determinare i valori assunti dal modello yi = 3.8070 · x0.3310i

i xi yi yi (yi− yi)2

1 3 6 5.4766 0.27402 2 4 4.7887 0.62213 1 4 3.8070 0.03734 4 6 6.0237 0.00065 2 5 4.7887 0.0446

Somma 0.9786Residuo Quadratico Medio = Media 0.1957

22.15

309

Page 311: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Modello Y ∗ = aebX

È possibile linearizzare il modello

lnY ∗ = lna+bX

e ricondursi al modello retta

dipendente = lna+b · esplicativa

Per calcolare i parametri conviene riferirsi alle variabili trasformate

b =Cov(X , lnY )

Var(X)=

M(X lnY )−M(X)M(lnY )M[X2]− [M(X)]2

= 0.1544

ln a = M(lnY )− bM(X) = 1.2226a = eln a = e1.2226 = 3.3960

i xi yi lnyi xi lnyi x2i

1 3 6 1.7918 5.3753 92 2 4 1.3863 2.7726 43 1 4 1.3863 1.3863 14 4 6 1.7918 7.1670 165 2 5 1.6094 3.2189 4

Somma 12 7.9655 19.9201 34Media 2.4 1.5931 3.9840 6.8

M(X) M(lnY ) M(X lnY ) M(X2)

Var(X) = M(X2− [M(X)]2 = 1.04Cov(X , lnY ) = M(X lnY )−M(X)M(lnY ) = 0.1606

22.16

Per calcolare il residuo quadratico medio

M(E2) = M[(

Y − Y)2]=

1n

n

∑i=1

(yi− yi)2

occorre determinare i valori assunti dal modello yi = 3.3960 · e0.1544xi

i xi yi yi (yi− yi)2

1 3 6 5.3964 0.36432 2 4 4.6245 0.38993 1 4 3.9629 0.00144 4 6 6.2973 0.08845 2 5 4.6244 0.1410

Somma 0.9850Residuo Quadratico Medio = Media 0.1970

22.17

310

Page 312: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 Modello Y ∗ = abX

È possibile linearizzare il modello

lnY ∗ = lna+ lnbX

e ricondursi al modello retta

dipendente = lna+ lnb · esplicativa

Per calcolare i parametri conviene riferirsi alle variabili trasformate

ln b =Cov(X , lnY )

Var(X)=

M(X lnY )−M(X)M(lnY )M[X2]− [M(X)]2

= 0.1544

b = eln b = e0.1544 = 1.1669ln a = M(lnY )− ln bM(X) = 1.2226

a = eln a = e1.2226 = 3.3960

i xi yi lnyi xi lnyi x2i

1 3 6 1.7918 5.3753 92 2 4 1.3863 2.7726 43 1 4 1.3863 1.3863 14 4 6 1.7918 7.1670 165 2 5 1.6094 3.2189 4

Somma 12 7.9655 19.9201 34Media 2.4 1.5931 3.9840 6.8

M(X) M(lnY ) M(X lnY ) M(X2)

Var(X) = M(X2− [M(X)]2 = 1.04Cov(X , lnY ) = M(X lnY )−M(X)M(lnY ) = 0.1606

22.18

Per calcolare il residuo quadratico medio

M(E2) = M[(

Y − Y)2]=

1n

n

∑i=1

(yi− yi)2

occorre determinare i valori assunti dal modello yi = 3.3960 ·1.1669xi

i xi yi yi (yi− yi)2

1 3 6 5.3964 0.36432 2 4 4.6245 0.38993 1 4 3.9629 0.00144 4 6 6.2973 0.08845 2 5 4.6245 0.1410

Somma 0.9850Residuo Quadratico Medio = Media 0.1970

Il modello in esame è equivalente a quello precedentemente stimato; vale infatti

abX = aelnbX

= aeX lnb

= ae(lnb)X

= aecX .

22.19

311

Page 313: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

9 Modelli Y ∗ = 5+bX e Y ∗ = 5+ cX2

Si applica il criterio dei minimi quadrati per determinare l’espressione del coefficienteincognito, cfr. Sezione 21 anche per la formula del residuo quadratico medio.

b =M [X (Y −5)]

M (X2)=

0.86.8

= 0.1176

M(E2) = M[(Y −5)

(Y −5− bX

)]= M

[(Y −5)2]− bM[X(Y −5)] = 0.8−0.1176 ·0.8 = 0.7059

c =M[X2 (Y −5)

]M (X4)

=474

= 0.0541

M(E2) = M[(Y −5)

(Y −5− cX2)]

= M[(Y −5)2]− cM[X2(Y −5)] = 0.8−0.0541 ·4 = 0.5836.

Si osserva come, in entrambi i casi, essendo l’intercetta vincolata, non vale il risultato discomposizione della varianza. Non ha senso calcolare l’indice di adattamento.

i xi yi yi−5 xi(yi−5) x2i (yi−5)2 x2

i (yi−5) x4i

1 3 6 1 3 9 1 9 812 2 4 −1 −2 4 1 −4 163 1 4 −1 −1 1 1 −1 14 4 6 1 4 16 1 16 2565 2 5 0 0 4 0 0 16

Somma 12 25 0 4 34 4 20 370Media 2.4 5 0 0.8 6.8 0.8 4 74

M(X) M(Y ) M(Y −5) M[X(Y −5)] M(X2) M

[(Y −5)2] M

[X2(Y −5)

]M[X4]

22.20

10 Schema riassuntivomodello I II III IV V V I V II V III IX XY ∗ = f .regress. a+bX a+bX2 bX bX aXb aebX abX 5+bX 5+bX2

M(E2) 0.1 0.1846 0.2236 1.7059 6.287 0.1957 0.1970 0.1970 0.7059 0.5836indice 0.875 0.7692 0.7205 non vale il teorema di scomposizione della varianzaadatt. in quanto M(E) 6= 0

22.21

Il seguente prospetto riporta gli indici di miglioramento

pegg,miglρ2 =

RMSpegg−RMSmigl

RMSpegg

per i modelli considerati.

riga,colonnaρ2 I II III IV V V I V II V III IX XY ∗ = f .regress. a+bX a+bX2 bX bX2 aXb aebX abX 5+bX 5+bX2

III 0.4583III 0.5528 0.1744 0.1248 0.1190 0.1190IV 0.9414 0.8918 0.8689 0.8853 0.8845 0.8845 0.5862 0.6579V 0.9841 0.9706 0.9644 0.7287 0.9689 0.9687 0.9687 0.8877 0.9072V I 0.4890 0.0567V II 0.4924 0.0629 0.0066 0.0000V III 0.4924 0.0629 0.0066 0.0000IX 0.8583 0.7385 0.6832 0.7228 0.7209 0.7209 0.1733X 0.8286 0.6837 0.6169 0.6647 0.6624 0.6624

22.22

312

Page 314: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 23Regressione lineare multipla

23.1

Indice

1 Modello lineare multivariato 313

2 Modello di riferimento 314

3 Ricerca di a con il metodo dei minimi quadrati 315

4 Esempio 315

5 Interpretazione dei coefficienti 316

6 Coefficienti standardizzati 317

7 Ulteriori ipotesi sul modello lineare 317

8 Modelli di regressione lineare multipla con presenza di variabili indicatrici 318

9 Esempio 318 23.2

1 Modello lineare multivariato

Y = a0 +a1X1 +a2X2 + . . .+akXk +E

lineare nei parametri a j ( j = 0,1, . . . ,k)Esempio:

X1 = X

X2 = X2

X3 = X3

...

313

Page 315: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

oppure:

Y = prezzo di mercato

X1 = costo di produzioneX2 = quantità prodotteX3 = quantità a magazzinoX4 = grado sfruttamento impiantiX5 = prezzo periodo precedente

...

23.3

Variabili generatriciY X1 X2 . . . Xk

Matrice delle osservazioni

i y x1 x2 . . . xk1 y1 x11 x12 . . . x1k2 y2 x21 x22 . . . x2k...

......

......

i yi xi1 x12 . . . xik...

......

......

n yn xn1 xn2 . . . xnk

23.4

2 Modello di riferimento

Posto, per definizioneX0 ≡ 1

Definizione 1 (Modello di regressione multipla lineare).

Y = a0X0 +a1X1 + . . .+akXk +E

ovvero, per il soggetto i-esimo (i = 1,2, . . . ,n)

yi = a0xi0 +a1xi1 + . . .+akxik + ei.23.5

Definizione 2 (Notazione matriciale modello di regressione multipla lineare sulle osser-vazioni).

y =

y1y2...

yn

a =

a0...

ak

X =

1 x11 . . . x1k1 x21 . . . x2k...

......

1 xn1 . . . xnk

e =

e1e2...

en

y = Xa+ e

dove gli ei = yi−y∗i rappresentano gli scostamenti delle osservazioni dal modello teorico.23.6

314

Page 316: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Ricerca di a con il metodo dei minimi quadrati

Ricerca di a con il metodo dei minimi quadrati

a =

a ∈ℜk+1 : M

(Y −

k

∑j=0

a jX j

)2

= min

Con ovvie estensioni formali delle proprietà dell’operatore media al caso multivariato. 23.7

4 Esempio

Esempio 3 (Consumi settimanali pro-capite di gelato).

Y X1 X2n consumo kg prezzo/hg temp max F1 0.386 0.230 412 0.374 0.240 563 0.393 0.235 634 0.425 0.238 685 0.406 0.231 696 0.344 0.262 657 0.327 0.275 618 0.288 0.307 479 0.269 0.305 32

10 0.256 0.319 2411 0.286 0.324 2812 0.298 0.311 2613 0.329 0.272 3214 0.318 0.287 4015 0.381 0.249 5516 0.381 0.258 6317 0.470 0.252 7218 0.443 0.249 7219 0.386 0.277 6720 0.342 0.277 6021 0.319 0.292 4422 0.307 0.287 4023 0.284 0.332 3224 0.326 0.285 2725 0.309 0.282 2826 0.359 0.265 3327 0.376 0.265 4128 0.416 0.225 5229 0.437 0.228 6430 0.548 0.221 71

media 0.359 0.269 49.10sqm 0.065 0.031 16.146

23.8elaborazione con EXCEL

Y = a0 +a1X1 +a2X2 +E

315

Page 317: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

OUTPUT RIEPILOGO

Statistica della regressioneR multiplo 0.8929R2 0.7972R2 corretto 0.7822Errore std 0.0307Osservazioni 30

ANALISI VARIANZAgdl SQ MQ F Significatività F

Regressione 2 0.1001 0.0500 53.0725 4.41599E-10Residuo 27 0.0255 0.0009Totale 29 0.1255

Coefficienti Errore std Stat t Signif Inf 95% Sup 95%Intercetta 0.6435 0.0874 7.3612 0.0000 0.4641 0.8228prezzo −1.2999 0.2547 −5.1035 0.0000 −1.8225 −0.7773temp 0.0013 0.0005 2.7472 0.0106 0.0003 0.0023

23.9

5 Interpretazione dei coefficienti

Y = a0 +a1X1 +a2X2 + · · ·+akXk +E

il coefficiente ai, i = 1,2, . . . ,k rappresenta la variazione (media) attesa nella variabilerisposta Y conseguente a un incremento unitario della corrispondente variabile Xi, ceterisparibus, ossia supponendo che rimanga immutato il livello di tutte le altre variabili X j,j 6= i, e che vi sia assenza di correlazione lineare tra la componente stocastica di errore Ee i regressori Xi, i = 1,2, . . . ,k. 23.10

Con riferimento all’esempio sul consumo di gelato il parametro a1 = −1.2999 nel mo-dello:

Y ∗ = 0.6435−1.2999 ·X1 +0.0013 ·X2

dove:

• Y ∗ = consumo teorico di gelato• X1 = prezzo/hg• X2 = temperatura

indica che, supponendo che non si modifichi il livello della temperatura (X2), una varia-zione positiva di una unità del prezzo implica un calo nei consumi individuali di 1.2999.

23.11

Una variabile esplicativa Xi ha, quindi, influenza sulla variabile dipendente Y solo se ilcorrispondente coefficiente ai risulta diverso da 0.Secondo un approccio di carattere inferenziale i valori ai costituiscono le migliori ap-prossimazioni, secondo il criterio dei minimi quadrati, dei coefficienti incogniti ai. Talicoefficienti si ritengono significativamente diversi da 0 solo se il valore indicato nellacolonna Signif è piccolo (in genere < 0.05 = 5% o < 0.01 = 1%).Tale valore, denominato p-value, indica la probabilità di commettere un errore affermandoche il coefficiente ai è diverso da zero. 23.12

316

Page 318: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 Coefficienti standardizzati

Per confrontare i coefficienti (se il modello è completo):

Coeff std = βi = aiσi

σY

doveσi = sqm(Xi) mentre β0 = 0

Y std = β1X std1 +β2X std

2 +Estd

Coeff stdIntercetta 0prezzo −0.6238temp 0.3358

Il coefficiente standardizzato βi corrisponde alla variazione di Y dovuta a una variazionedi Xi pari a σi, mentre il coefficiente ai corrisponde alla variazione di Y dovuta a unavariazione unitaria di Xi. 23.13

7 Ulteriori ipotesi sul modello lineare

Le ipotesi, generalmente imposte al modello lineare, sono piuttosto forti. Presuppongono,infatti, anche che:

• la correlazione tra Xi e tutte le altre X j sia trascurabile,• il contributo dato dalle componenti non considerate esplicitamente nel modello, in

quanto riassunte dalla componente di errore E, sia in media nullo,• altre considerazioni sulla variabile di errore ai fini inferenziali;

cfr. Statistica inferenziale. 23.14

317

Page 319: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 Modelli di regressione lineare multipla con presenzadi variabili indicatrici

È possibile tenere conto in un modello di regressione (lineare) anche della presenza dieventuali variabili esplicative di tipo qualitativo?

Ad esempio formulare un modello per interpretare la variabile dipendente Y = ’salario’ infunzione della variabile esplicativa G = ’genere’, o in funzione della variabile L = ’livellodi istruzione’?

La risposta immediata è di ricorrere alla costruzione della funzione di regressione consi-derando la variabile G o la variabile L (ed eventualmente l’interazione tra le stesse) comevariabile di raggruppamento.

Esistono però anche delle soluzioni alternative. 23.15

9 Esempio

Esempio 4. Il presente esempio numerico considera 1472 osservazioni dall’indagine sulcomportamento delle famiglie condotta dall’Unione Europea (anno 1994, Belgio). (Ver-beek M, 2008, A Guide to Modern Econometrics John Wiley)

Variabili presenti nel database:

• wage: salario lordo orario in Euro• educ: livello di istruzione da 1 [basso] a 5 [alto]• exper: anni di esperienza• male: dummy, 1 se maschio

Si desidera studiare la variabile wage in funzione delle altre variabili23.16

318

Page 320: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

GenereSi definisca una nuova variabile M a partire da G, ponendo in corrispondenza della imaunità statistica:

mi =

1 se gi = maschio0 se gi = femmina

Si consideri il seguente modello di regressione lineare per interpretare la variabile Y infunzione della variabile indicatrice (chiamata variabile dummy) M:

Y ∗ = a+bM

23.17

Interpretazione dei coefficientib è la differenza tra lo stipendio medio dei maschi (variabile indicatrice che figura nelmodello) e lo stipendio medio delle femmine, riassunto dalla costante a.I seguenti prospetti danno, quindi, informazioni coerenti.

Funzione di regressione M(Y |gi)

indwages$MALE: 0[1] 10.26154----------------------------------------------indwages$MALE: 1[1] 11.56223

Modello lineare

Call:lm(formula = WAGE ~ MALE, data = indwages)

Residuals:Min 1Q Median 3Q Max

-8.095 -2.864 -0.999 1.818 36.013

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 10.2615 0.1831 56.036 < 2e-16 ***MALE 1.3007 0.2351 5.532 3.74e-08 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 4.406 on 1470 degrees of freedomMultiple R-squared: 0.0204, Adjusted R-squared: 0.01973F-statistic: 30.61 on 1 and 1470 DF, p-value: 3.737e-08

Nella presente situazione dal momento che la variabile esplicativa nel modello lineare(M = MALE) è una variabile indicatrice consegue che:

Multiple R-squared = η2Y |M

23.18

319

Page 321: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Livello di istruzioneLa variabile L è stata codificata con i valori interi da 1 a 5.Si può, in primo luogo, osservare come non sia opportuno considerare il seguente modellodi regressione lineare:

Y ∗ = a+bL

Call:lm(formula = WAGE ~ EDUC, data = indwages)

Residuals:Min 1Q Median 3Q Max

-10.569 -2.731 -0.615 1.907 34.190

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 6.18513 0.31830 19.43 <2e-16 ***EDUC 1.44018 0.08875 16.23 <2e-16 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 4.1 on 1470 degrees of freedomMultiple R-squared: 0.1519, Adjusted R-squared: 0.1514F-statistic: 263.3 on 1 and 1470 DF, p-value: < 2.2e-16

23.19Il coefficiente b dovrebbe essere interpretato, ceteris paribus, come la variazione nellavariabile risposta (stima di Y ) conseguente a variazioni unitarie della variabile esplicativaL (passaggi da un livello di istruzione al successivo).

Non è verosimile che l’incremento sia costante!

È opportuno costruire alcune (4) nuove variabili indicatrici LL2, LL3, LL4, LL5 con laseguente struttura per la generica unità statistica:

ll2i =

1 se li = 20 se li 6= 2 . . . ll5i =

1 se li = 50 se li 6= 5

Si osservi come il numero di variabili indicatrici che sono state costruite e che verrannoutilizzate nelle analisi successive è inferiore di una unità al numero di categorie distintedella variabile che si è ricodificata. 23.20

Ciascuna variabile indicatrice dà informazioni sulla presenza, o meno, della generica cate-goria della variabile ricodificata: se, ad esempio, ll3i = 1 la iesima unità statistica possiedeil terzo livello di istruzione; conseguentemente, in corrispondenza a tale unità statistica,si avrà che ll2i = ll4i = ll5i = 0.

Si considera quindi il seguente modello di regressione lineare per interpretare la variabileY in funzione del livello di istruzione:

Y ∗ = a+b2LL2 +b3LL3 +b4LL4 +b5LL5

23.21

Interpretazione del generico coefficiente biVariazione media nello stipendio che si ottiene passando dal livello di istruzione, che nonè stato considerato nella costruzione delle variabili indicatrici (nel caso presente L = 1),al livello di istruzione ricodificato mediante la variabile LLi.

320

Page 322: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si osserva che la costante a nel modello di regressione riassume la media della variabilerisposta per le unità statistiche con livello di istruzione L = 1. 23.22

I seguenti prospetti danno, quindi, informazioni equivalenti.

Funzione di Regressione M(Y |li)

indwages$EDUC: 1[1] 8.429049----------------------------------------------indwages$EDUC: 2[1] 9.21519----------------------------------------------indwages$EDUC: 3[1] 10.2032----------------------------------------------indwages$EDUC: 4[1] 11.43112----------------------------------------------indwages$EDUC: 5[1] 13.96139

Modello Lineare

Call:lm(formula = WAGE ~ -1 + L, data = indwages)

Residuals:Min 1Q Median 3Q Max

-11.144 -2.547 -0.572 1.769 33.614

Coefficients:Estimate Std. Error t value Pr(>|t|)

L(Intercept) 8.4290 0.4099 20.566 < 2e-16 ***LL2 0.7861 0.4804 1.637 0.101933LL3 1.7742 0.4556 3.894 0.000103 ***LL4 3.0021 0.4634 6.479 1.26e-10 ***LL5 5.5323 0.4670 11.847 < 2e-16 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 4.078 on 1467 degrees of freedomMultiple R-squared: 0.8832, Adjusted R-squared: 0.8828F-statistic: 2219 on 5 and 1467 DF, p-value: < 2.2e-16

23.23Anche in questo caso le variabili esplicative nel modello lineare (LLi, i = 2, . . . ,5) sonosolo variabili indicatrici; consegue che:

Multiple R-squared = η2Y |L

23.24

321

Page 323: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Box & Whiskers Plots

0 1

1020

3040

1 2 3 4 5

1020

3040

0 1 0 2 0 3 0 4 0 5 1 1 1 2 1 3 1 4 1 5

1020

3040

Dall’alto:

• salario in funzione del genere (G);• salario in funzione del livello di istruzione (L);• salario in funzione delle interazioni tra genere e livello di istruzione (G : L).

23.25Genere e Livello di istruzione

Funzione di Regressione M(Y |gi, l j)

paste(indwages$MALE, indwages$EDUC): 0 1[1] 6.60001----------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 2[1] 8.152744----------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 3[1] 9.34604----------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 4[1] 10.71929----------------------------------------------paste(indwages$MALE, indwages$EDUC): 0 5[1] 12.47561----------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 1[1] 8.982574

322

Page 324: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

----------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 2[1] 9.596581----------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 3[1] 10.74142----------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 4[1] 12.26449----------------------------------------------paste(indwages$MALE, indwages$EDUC): 1 5[1] 14.942

23.26

Modello Lineare

Call:lm(formula = indwages$WAGE ~ -1 + i)

Residuals:Min 1Q Median 3Q Max

-10.059 -2.405 -0.532 1.820 32.634

Coefficients:Estimate Std. Error t value Pr(>|t|)

i(Intercept) 6.60001 0.83243 7.929 4.36e-15 ***iMALE 2.38256 0.95008 2.508 0.01226 *iL2 1.55273 0.95949 1.618 0.10582iL3 2.74603 0.88956 3.087 0.00206 **iL4 4.11928 0.88088 4.676 3.19e-06 ***iL5 5.87560 0.90204 6.514 1.01e-10 ***iMALE:L2 -0.93873 1.10093 -0.853 0.39398iMALE:L3 -0.98718 1.03092 -0.958 0.33844iMALE:L4 -0.83736 1.04059 -0.805 0.42113iMALE:L5 0.08384 1.05027 0.080 0.93639---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 3.992 on 1462 degrees of freedomMultiple R-squared: 0.8885, Adjusted R-squared: 0.8877F-statistic: 1164 on 10 and 1462 DF, p-value: < 2.2e-16

23.27

Y ∗ = a+gM+b2LL2 +b3LL3 +b4LL4 +b5LL5 + c12M ·LL2 + c13M ·LL3 +

+c14M ·LL4 + c15M ·LL5

La previsione del salario per un soggetto maschio (M = 1) con livello di istruzione 4(LL4 = 1) risulta 6.60001+2.38256+4.11928−0.83736 = 12.26449.Per una femmina con livello di istruzione 5 abbiamo 6.60001+5.87560 = 12.47561.Anche in questo caso dal momento che le variabili esplicative nel modello lineare (LLi, i=2, . . . ,5) sono variabili indicatrici o variabili ottenute dal prodotto di variabili indicatriciconsegue che:

Multiple R-squared = η2Y |M∗L

23.28

323

Page 325: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Genere e Livello di istruzione e anni di esperienza

Y ∗ = a+gM+b2LL2 +b3LL3 +b4LL4 +b5LL5 +

+c12M ·LL2 + c13M ·LL3 + c14M ·LL4 + c15M ·LL5 +dExper

Modello Lineare

Call:lm(formula = WAGE ~ -1 + i + EXPER, data = indwages)

Residuals:Min 1Q Median 3Q Max

-13.9128 -1.8688 -0.3153 1.5982 30.3096

Coefficients:Estimate Std. Error t value Pr(>|t|)

i(Intercept) 2.094466 0.773842 2.707 0.00688 **iMALE 1.808870 0.844576 2.142 0.03238 *iL2 1.958518 0.852688 2.297 0.02177 *iL3 4.377753 0.794609 5.509 4.25e-08 ***iL4 5.974984 0.788205 7.580 6.09e-14 ***iL5 7.970928 0.808374 9.860 < 2e-16 ***iMALE:L2 -0.169567 0.978878 -0.173 0.86250iMALE:L3 -1.034530 0.915907 -1.130 0.25887iMALE:L4 -0.709085 0.924519 -0.767 0.44322iMALE:L5 0.038260 0.933099 0.041 0.96730EXPER 0.191195 0.009666 19.780 < 2e-16 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 3.547 on 1461 degrees of freedomMultiple R-squared: 0.912, Adjusted R-squared: 0.9114F-statistic: 1377 on 11 and 1461 DF, p-value: < 2.2e-16

23.29Si osservi che nella presente situazione la variabile

Exper = numero di anni di esperienza

figura come variabile quantitativa e non è conveniente costruire la funzione di regressionedal momento che Exper assume parecchi valori distinti.

Multiple R-squared esprime la quota di varianza di Y spiegata dal modello diregressione lineare riportato all’inizio della pagina.

Non è inoltre ragionevole assumere che l’effetto dell’esperienza sul salario sia diretta-mente proporzionale al numero di anni (interpretazione del coefficiente d).

Si potrebbe ovviare a tale inconveniente ricodificando anche la variabile esperienza conopportune variabili indicatrici che identifichino livelli bassi, medi e alti di esperienza.

Una soluzione alternativa è quella di effettuare una trasformazione non lineare dellavariabile Exper. 23.30

324

Page 326: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Y ∗ = a+gM+b2LL2 +b3LL3 +b4LL4 +b5LL5 +

+c12M ·LL2 + c13M ·LL3 + c14M ·LL4 + c15M ·LL5 +d ln(Exper)

Call:lm(formula = WAGE ~ -1 + i + LNEXPER, data = indwages)

Residuals:Min 1Q Median 3Q Max

-12.8419 -1.9742 -0.2711 1.4507 30.5102

Coefficients:Estimate Std. Error t value Pr(>|t|)

i(Intercept) -1.73580 0.83950 -2.068 0.0388 *iMALE 1.90487 0.83817 2.273 0.0232 *iL2 1.79639 0.84623 2.123 0.0339 *iL3 4.15723 0.78750 5.279 1.49e-07 ***iL4 5.72400 0.78077 7.331 3.76e-13 ***iL5 7.86340 0.80139 9.812 < 2e-16 ***iMALE:L2 -0.20095 0.97155 -0.207 0.8362iMALE:L3 -1.10739 0.90916 -1.218 0.2234iMALE:L4 -0.78301 0.91767 -0.853 0.3937iMALE:L5 -0.08071 0.92624 -0.087 0.9306LNEXPER 2.70650 0.13223 20.468 < 2e-16 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 3.521 on 1461 degrees of freedomMultiple R-squared: 0.9133, Adjusted R-squared: 0.9127F-statistic: 1399 on 11 and 1461 DF, p-value: < 2.2e-16

23.31La presente formulazione, considerando la trasformata logaritmica del numero di annidi esperienza, può consentire di tenere conto di un effetto non lineare dell’esperienza(si presuppone che gli effetti sulla variabile risposta siano legati in maniera meno cheproporzionale al crescere del numero di anni di esperienza). Infatti:

> 1:7

[1] 1 2 3 4 5 6 7

> diff(1:7)

[1] 1 1 1 1 1 1

> round(log(1:7), 4)

[1] 0.0000 0.6931 1.0986 1.3863 1.6094 1.7918 1.9459

> round(diff(log(1:7)), 4)

[1] 0.6931 0.4055 0.2877 0.2231 0.1823 0.1542

La previsione del salario per un soggetto maschio (M = 1) con livello di istruzione 4(LL4 = 1) e 10 anni di esperienza risulta −1.73580+ 1.90487+ 5.72400− 0.78301+2.70650 · ln(10) = 11.34201. Per una femmina con livello di istruzione 5 e 7 anni diesperienza abbiamo −1.73580+7.86340+2.70650 · ln(7) = 11.39421. 23.32

Per ulteriori approfondimenti si veda Verbeek M (2008) A Guide to Modern EconometricsJohn Wiley, testo da cui sono stati reperiti i dati relativi all’esempio considerato. 23.33

325

Page 327: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 5. Facendo riferimento ai risultati della sezione 20.4 si dia un’interpretazio-ne dei coefficienti nel seguente output relativo a due modelli di regressione utilizzati perinterpretare il prezzo (1987) di un’abitazione, o il suo logaritmo, in funzione di alcunecaratteristiche, Verbeek M (2008) A Guide to Modern Econometrics John Wiley, cap. 3.

Dependent variable:

log(price) price

(1) (2)

Constant 7.745∗∗∗ −4,038.350(0.216) (3,409.471)

log(lot.size.in.sq.feet) 0.303∗∗∗

(0.027)

lot.size.in.sq.feet 3.546∗∗∗

(0.350)

number.of.bedrooms 0.034∗∗ 1,832.003∗

(0.014) (1,047.000)

number.of.full.bathrooms 0.166∗∗∗ 14,335.560∗∗∗

(0.020) (1,489.921)

dummy.there.is.central.air.conditioning 0.166∗∗∗ 12,632.890∗∗∗

(0.021) (1,555.021)

dummy.the.house.has.a.driveway 0.110∗∗∗ 6,687.779∗∗∗

(0.028) (2,045.246)

dummy.the.house.has.a.recreational.room 0.058∗∗ 4,511.284∗∗

(0.026) (1,899.958)

dummy.the.house.has.a.full.finished.basement 0.104∗∗∗ 5,452.386∗∗∗

(0.022) (1,588.024)

dummy.the.house.uses.gas.for.hot.water.heating 0.179∗∗∗ 12,831.410∗∗∗

(0.044) (3,217.597)

number.of.garage.places 0.048∗∗∗ 4,244.829∗∗∗

(0.011) (840.544)

dummy.located.in.the.preferred.neighbourhood.of.the.city 0.132∗∗∗ 9,369.513∗∗∗

(0.023) (1,669.091)

number.of.stories.excluding.basement 0.092∗∗∗ 6,556.946∗∗∗

(0.013) (925.290)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.0123.34

326

Page 328: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 24Calcolo delle probabilità (1)

24.1

Indice

1 La probabilità 327

2 Oggetto della probabilità 328

3 Relazioni tra eventi 329

4 Operazioni elementari 331

5 Funzione di probabilità 332

6 Impostazione assiomatica 333

7 Teoremi calcolo probabilità 333

8 Elicitazione e interpretazione di P(A): altri approcci 3358.1 Approccio classico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3358.2 L’approccio frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . 3378.3 Lo schema della scommessa . . . . . . . . . . . . . . . . . . . . . . . . 338

9 Gioco equo 339 24.2

1 La probabilità

Abbiamo visto

serie e seriazioni

campionarie

Considereremo, ora, i corrispondenti modelli teorici per l’universo/popolazione

xi ϕix1 ϕ1x2 ϕ2...

...xh ϕh

ϕi = frequenze relative teoriche

In corrispondenza:

• mutabili/variabili statistiche

327

Page 329: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

• mutabili/variabili casuali

frequenze→ probabilità

Problema. Come definire la probabilità? 24.3

Definizione 1 (Esperimento deterministico). Si definisce deterministico un esperimentoil cui risultato non è affetto da variabilità accidentale, è prevedibile con certezza.

Definizione 2 (Esperimento aleatorio). Si definisce aleatorio un esperimento il cui risul-tato è casuale, non è prevedibile con certezza.

Un esperimento aleatorio può, quindi, dare luogo a 2 o più risultati.Per descrivere le manifestazioni di un esperimento parleremo di eventi.

Definizione 3 (Probabilità). È la misura del presentarsi di un evento; una valutazione sulfatto che un esperimento aleatorio dia luogo a un certo evento.

ObiettivoCostruire modelli teorici che permettano di calcolare la probabilità di tutti gli eventisperimentabili.

24.4

Probabilità

0 00

1 2 3 ← 4 5 6 ← → 7 8 9 ← 10 11 12 ← 13 14 15 ← → 16 17 18 ← 19 20 21 ← 22 23 24 ← → 25 26 27 ← 28 29 30 ← 31 32 33 ← → 34 35 36 ←

↑ ↑ ↑

1-12 13-24 25-36

1-18 19-36

rosso nero

pari dispari

EVENTI ELEMENTARI

e1,e2,…,ei,… risultati (manifestazioni) possibili del fenomeno aleatorio

1, 2, 3, …, 36, 0, 00 EVENTI GENERICI

A1,A2,…,Ai,… insiemi o famiglie di eventi elementari insiemi di possibili modalità del fenomeno di specifico interesse

ad esempio: pari = 2 ∪ 4 ∪ … ∪ 34 ∪ 36, dispari, rosso, nero, 1-12, 13-24, 25-36, … CLASSI o FAMIGLIE DI EVENTI insiemi di insiemi (eventi) ottenuti con operazioni algebriche su altri eventi

si puntano un gettone sul pari e un gettone sul rosso 2, 4, …, 34, 36 ∪ 1, 3, …, 34, 36

si puntano un gettone su 1-12 e un gettone su dispari i numeri 8, 10, 11 si possono ottenere come intersezione degli insiemi: 7-12 e nero

7, 8, 9, 10, 11, 12 ∩ 2, 4, 6, 8, 10, 11, 13, 15, …, 31, 33, 35 EVENTI PARTICOLARI insieme vuoto ∅ (evento impossibile)

scommessa sul numero 52

spazio degli eventi elementari Ω (evento certo) o spazio campionario dei possibili risultati 1, 2, 3, …, 36, 0, 00

24.5

328

Page 330: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Oggetto della probabilità

Definizione 4 (Eventi elementari).

e1,e2, . . . ,ei, . . .

Risultati (manifestazioni) possibili del fenomeno aleatorio

Ad esempio:1,2,3, . . . ,36,0,00

24.6

Definizione 5 (Eventi generici).

A1,A2, . . . ,Ai, . . .

• Insiemi di eventi elementari• Insiemi di possibili modalità del fenomeno di specifico interesse

Ad esempio:

• nel gioco della roulette

– pari = 2∪4∪ . . .∪34∪36 = 2,4, . . . ,34,36,– dispari, rosso, nero, 1-12, 13-24, 25-36, . . .

– si puntano un gettone sul pari e un gettone sul rosso

2,4, . . . ,34,36∪1,3, . . . ,34,36

– si puntano un gettone su 1-12 e un gettone su dispari

– i numeri 8, 10, 11 si possono ottenere come intersezione degli insiemi: 7-12e nero

7,8,9,10,11,12∩2,4,6,8,10,11,13,15, . . . ,31,33,35

• nel lancio di un dado

– risultato pari = 2,4,6,– risultato dispari = 1,3,5.

24.7

Definizione 6 (Classi o famiglie di eventi). Collezioni di insiemi definite attraverso unaregola di appartenenza

Ad esempio:

• tutti gli eventi su cui è possibile puntare alla roulette24.8

Definizione 7 (Eventi particolari).

• Insieme vuoto ∅ (evento impossibile)• Spazio degli eventi elementari Ω (evento certo) o spazio campionario dei possibili

risultati

Ad esempio:

• scommessa sul numero 52 =∅• Ω = 1,2,3, . . . ,36,0,00.

24.9

329

Page 331: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Relazioni tra eventi

Definizione 8 (Eguaglianza).A = B

A e B hanno gli stessi elementi

Ω

B A

Ω

B A

24.10

Definizione 9 (Appartenenza).A⊂ B

gli elementi di A sono anche elementi di B(ma non necessariamente viceversa)

Ω

BA

24.11

Definizione 10 (Inclusione o contenimento).

A⊃ B

330

Page 332: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Ω

AB

24.12

Definizione 11 (Disgiunzione o Incompatibilità).

A∩B =∅

A e B non hanno elementi in comuneΩ

B A

24.13

4 Operazioni elementari

Definizione 12 (Insieme Unione).A∪B

i cui elementi appartengono ad A oppure a B

Ω

A BA B

331

Page 333: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

24.14

Definizione 13 (Insieme Intersezione).

A∩B = AB

i cui elementi appartengono sia ad A che a B

Ω

A B

Insieme intersezione tra A e B:

area scura comune ad A e B

24.15

Definizione 14 (Insieme Differenza).

A−B

i cui elementi appartengono ad A ma non a B

Ω

A B

A−B= area bianca nell'insieme A

24.16

Definizione 15 (Insieme Complementare). A = Ω−A i cui elementi non appartengonoad A

Ω

A

A

332

Page 334: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

24.17

Esempio 16 (Lancio del dado).

Ω = p , p p, pp p, p pp p, pp pp p, p pp pp pA = dispari= 1,3,5 A = 2,4,6 A∩ A =∅.

24.18

5 Funzione di probabilità

È una funzione di insieme, una legge che permette di calcolare P(A) per ogni eventoA⊂Ω.

Ipotesi di lavoroIndicata con S (Ω) la classe di tutti i sottoinsiemi di Ω

(compresi ∅ e Ω)assiomi del calcolo delle probabilità

+probabilità eventi elementari

↓calcolo di P(A) ∀A ∈S (Ω)

P : S (Ω)→ℜ

(tratteremo solo il caso di Ω finito) 24.19

6 Impostazione assiomatica

Definizione 17 (Impostazione assiomatica di Kolmogorov). Siano Ω lo spazio degli even-ti elementari ed S (Ω) la classe di tutti i sottoinsiemi di Ω.Una funzione P(·) definita su S (Ω) si definisce funzione di probabilità se soddisfa iseguenti assiomi:

1. P(A)≥ 0, ∀A ∈S (Ω)2. P(Ω) = 13. Data una sequenza di eventi A1,A2, . . . ,An a coppie disgiunti (Ai∩A j =∅) vale

P

(n⋃

i=1

Ai

)=

n

∑i=1

P(Ai).

Osservazione1) e 2) vincoli alla funzione misura 3) condizione operativa

24.20

OsservazioneDefinita una legge

P = P(ei) (∀ei ⊂Ω)

che soddisfa gli assiomi possiamo calcolare

P(A) (∀A⊂Ω).

Infatti, ogni evento A è interpretabile come unione di un certo numero di eventi elementari(disgiunti)

A =k⋃

i=1

ei

333

Page 335: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

quindi

P(A) =k

∑i=1

P(ei).

Altre volte risulta più agevole non ricorrere alle P(ei) ma usare dei teoremi che derivanodai postulati. 24.21

7 Teoremi calcolo probabilità

Teorema 18.P(A∪B) = P(A)+P(B)−P(A∩B)

Ω

A BA B

P(A∩B) = 0 solo se A e B sono disgiunti 24.22

Teorema 19.P(A−B) = P(A)−P(A∩B)

Ω

A B

A−B= area bianca nell'insieme A

P(A∩B) = P(B) solo se B⊂ A 24.23

Teorema 20.P(A) = 1−P(A)

334

Page 336: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Ω

A

A

24.24

Dimostrazione. Valgono le seguenti relazioni

A∪ A = Ω e P(A∪ A) = P(Ω).

In base al secondo assioma abbiamo P(Ω) = 1 e, dal momento che A e A sono disgiunti,per il terzo assioma vale

P(A∪ A) = P(A)+P(A).

QuindiP(Ω) = 1 = P(A)+P(A),

da cui segue la tesi.24.25

Teorema 21.P(∅) = 0

Teorema 22. Se A⊂ B allora P(A)≤ P(B) (monotonicità)24.26

OsservazioneSe gli eventi A e B sono incompatibili allora

P(A∪B) = P(A)+P(B).

È il cosiddetto principio delle probabilità totali, postulato base dell’impostazione classicadella probabilità.

OsservazioneDall’ultimo teorema segue che P(A)≤ 1 essendo A⊂Ω

24.27

Esercizio 23 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non siverifichi l’evento B è pari a 0.12.La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichil’evento A.La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68.

1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichil’evento B.

24.28

335

Page 337: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 Elicitazione e interpretazione di P(A): altri approcci

Si considerano i seguenti schemi che consentono l’elicitazione di P(A) e la sua interpre-tazione dal punto di vista operativo:

• approccio classico (Laplace/Pascal)• approccio frequentista (limite del rapporto di frequenze)• schema della scommessa (De Finetti)

24.29

8.1 Approccio classico

Definizione 24 (Formula classica di Laplace/Pascal). Se lo spazio probabilistico Ω

• è costituito da un numero finito n di eventi elementarie

• gli eventi elementari sono ’simmetrici’ (equiprobabili)

la probabilità del generico evento A⊂Ω può essere definita come

P(A) =# casi favorevoli ad A

# casi possibili=

# eventi elementari ∈ An

Possibili applicazioni:

• giochi d’azzardo• lotto e tombola 24.30

Dimostrazione.Ω = e1,e2 . . . ,en

Se gli eventi ei sono simmetrici (equiprobabili) vale

P(ei) = costante = p =?

Per il secondo e terzo postulato

P(Ω) = P

(n⋃

i=1

ei

)=

n

∑i=1

P(ei) =n

∑i=1

p = np = 1

quindi

p =1n

eP(A) = ∑

i:ei∈A

1n=

nA

n.

24.31

Esempio 25. Calcolare la probabilità che estraendo una carta da un mazzo di 52 carte siottenga una carta di fiori.Siamo interessati all’evento

F = carta di fiori

Con riferimento allo spazio probabilistico Ω formato dalle 52 carte

A♥ 2♥ 3♥ 4♥ 5♥ 6♥ 7♥ 8♥ 9♥ 10♥ J♥ Q♥ K♥A♦ 2♦ 3♦ 4♦ 5♦ 6♦ 7♦ 8♦ 9♦ 10♦ J♦ Q♦ K♦A♣ 2♣ 3♣ 4♣ 5♣ 6♣ 7♣ 8♣ 9♣ 10♣ J♣ Q♣ K♣A♠ 2♠ 3♠ 4♠ 5♠ 6♠ 7♠ 8♠ 9♠ 10♠ J♠ Q♠ K♠

336

Page 338: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

P(F) =1352

= 0.25

Con riferimento allo spazio probabilistico Ω formato dai 4 semi (simmetrici, essendociascuno costituito da 13 carte)

♥ ♦ ♣ ♠ P(F) =14= 0.25

24.32

Esempio 26. Calcolare la probabilità che la somma dei punteggi ottenuti nel lancio di 2dadi (equilibrati) sia almeno pari a 11.

Siano D1 e D2 i punteggi ottenuti con i due dadi ed S = D1 +D2 la loro somma.Lo spazio probabilistico Ω è costituito da tutte le possibili coppie di risultati

0 1 2 3 4 5 6 7

01

23

45

67

0 1 2 3 4 5 6 7

01

23

45

67

P(S≥ 11) = P(D1 +D2 ≥ 11) =336

= 0.0833.24.33

L’assegnazione della funzione di probabilità in base all’approccio classico può essereutilizzata se sono verificate le seguenti due assunzioni

• lo spazio probabilistico Ω consta di un numero finito di eventi• simmetria degli eventi elementari

Come è possibile operare se le precedenti ipotesi non sono verificate?Si pensi, ad esempio, alla probabilizzazione dei seguenti eventi:

• evento testa nel caso di una moneta non equilibrata• in una partita di calcio disputata tra le squadre a e b vinca la squadra a

24.34

8.2 L’approccio frequentista

Definizione 27 (Esperimento aleatorio ripetibile). Si definisce ripetibile un esperimentoaleatorio che può essere ripetuto nelle stesse condizioni sperimentali.

Definizione 28 (Legge empirica del caso). In presenza di un esperimento aleatorio ripe-tibile ∀A ∈S (Ω) esiste un valore oggettivo P(A)

limN→∞

NA

N= P(A).

dove

• N è il numero di volte che si è replicato l’esperimento,• NA è il numero di volte che l’esperimento ha dato luogo, nelle N prove, a un risultato

in A.

337

Page 339: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

OsservazioneLa frequenza relativa di successo NA

N (detta anche rapporto di frequenze) soddisfa gliassiomi.P(A) è definito come limite del rapporto di frequenze. Tale limite costituisce un approcciooggettivo alla elicitazione della probabilità.

24.35

Limite in senso matematico

limN→∞ f (N) = p

∀ε > 0, ∃N0(ε) : se N > N0 allora

| f (N)− p|< ε

0.3

0.4

0.5

0.6

0.7

0 200 400 600 800 1000

Limite in senso probabilistico

limN→∞ f (N) = p

∀ε > 0, ∃N0(ε,s) : se N > N0 allora| f (N)− p|< ε

N0 dipende anche dalla successiones di esperimenti.

Probabilità

GIOCO EQUO una scommessa non deve dar luogo a guadagni o perdite certi Esempio 1 lancio di una moneta equilibrata I risultati possibili sono: T = testa e C = croce: in base all’impostazione classica si tratta di eventi elementari simmetrici: P(T) = P(C) = 0.5; in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere, ad esempio, sull’evento “T” 0.5 unità per ricevere 1 (il rapporto tra posta e vincita è di 1 a 2); quindi: xi P(X = xi) xi⋅P(X = xi)

perdita −1 0.5 –0.5 guadagno = vincita − posta 1 0.5 0.5

1 0

il gioco è equo non dà, infatti, luogo a guadagni o perdite certi … in media andamento della convergenza della frequenza di “T” = testa in una successione di 1000 lanci (grafici A) e corrispon-dente evoluzione della situazione patrimoniale di un ipotetico giocatore che scommette su “T” (grafici B)

A B A B

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0 200 400 600 800 1000 -20

-15

-10

-5

0

5

10

15

20

25

30

35

0 200 400 600 800 1000

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0 200 400 600 800 1000 -40

-30

-20

-10

0

10

20

30

0 200 400 600 800 1000

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0 200 400 600 800 1000 -10

0

10

20

30

40

50

60

70

0 200 400 600 800 1000 0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0 200 400 600 800 1000 -80

-70

-60

-50

-40

-30

-20

-10

0

10

0 200 400 600 800 1000

Esempio 2 gioco della roulette I risultati possibili sono i simboli 0, 00, 1, 2, 3, …, 36: in base all’impostazione classica anche in questa situazione si considerano eventi elementari sim-metrici: P(0) = P(00) = P(1) = … = P(36) = 1

38; in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere, ad es., sul generico simbolo 1

38 unità per ricevere 1 (il rapporto tra posta razionale e vincita è di 1 a 38); In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria si ottiene però solo una somma pari a 36 e il guadagno risulta, quindi, pari a 35:

xi P(X = xi) xi⋅P(X = xi) perdita − 1 37

38 – 3738

guadagno = vincita − posta 35 138

3538

1 – 238 = – 0.05263

il gioco NON è equo: ci si deve attendere una perdita certa in media.

24.36

8.3 Lo schema della scommessa

Si tratta di uno approccio soggettivo all’elicitazione della probabilità; può essere applicatoin presenza di esperimenti non necessariamente ripetibili e, inoltre, può dare luogo avalutazioni soggettive differenti. ∀A ∈S (Ω) la probabilità P(A) è quantificata come laposta p che il soggetto è disposto a pagare per riscuotere

• 1 se A si verifica• 0 se A non si verifica

La scommessa deve essere coerente: non deve dar luogo a guadagni (perdite) certi.

Per garantire la coerenza la valutazione non deve cambiare se l’individuo passa da scom-mettitore a banco.

Una valutazione coerente soddisfa gli assiomi. 24.37

338

Page 340: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

9 Gioco equo

Il concetto di Gioco equo è strettamente legato a quello di scommessa coerente.

Definizione 29 (Gioco equo). Un gioco si definisce equo se non dà luogo a guadagni operdite certi, ovvero se il guadagno ’medio’ del giocatore è nullo.

OsservazioneUna scommessa su un evento A, per il quale P(A) = p, corrisponde a un gioco equo sepuntando 1 vinco 1/p ovvero se puntando p vinco 1.

24.38

Esempio 30 (Lancio di una moneta equilibrata). I risultati possibili sono: T = testa e C =croce:

• in base all’impostazione classica si tratta di eventi elementari simmetrici:

P(T ) = P(C) = 0.5;

• in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere,ad esempio, sull’evento T 0.5 unità per ricevere 1 (il rapporto tra posta e vincita èdi 1 a 2, ovvero punto 1 per ricevere 2);

quindi: posta = 1 vincita =

0 se risultato = T2 se risultato = T

risultato xi P(X = xi) xi ·P(X = xi)T −1 0.5 −0.5T 1 0.5 0.5

1 0

dove xi = guadagno = vincita − posta

M(X) = E(X) = 0

Il gioco è equo: non dà, infatti, luogo a guadagni o perdite certi.24.39

• andamento della convergenza della frequenza di T = testa in una successione di1000 lanci (grafici A)

• corrispondente evoluzione della situazione patrimoniale di un ipotetico giocatoreche scommette su T (grafici B)

Probabilità

GIOCO EQUO una scommessa non deve dar luogo a guadagni o perdite certi Esempio 1 lancio di una moneta equilibrata I risultati possibili sono: T = testa e C = croce: in base all’impostazione classica si tratta di eventi elementari simmetrici: P(T) = P(C) = 0.5; in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere, ad esempio, sull’evento “T” 0.5 unità per ricevere 1 (il rapporto tra posta e vincita è di 1 a 2); quindi: xi P(X = xi) xi⋅P(X = xi)

perdita −1 0.5 –0.5 guadagno = vincita − posta 1 0.5 0.5

1 0

il gioco è equo non dà, infatti, luogo a guadagni o perdite certi … in media andamento della convergenza della frequenza di “T” = testa in una successione di 1000 lanci (grafici A) e corrispon-dente evoluzione della situazione patrimoniale di un ipotetico giocatore che scommette su “T” (grafici B)

A B A B

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0 200 400 600 800 1000 -20

-15

-10

-5

0

5

10

15

20

25

30

35

0 200 400 600 800 1000

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0 200 400 600 800 1000 -40

-30

-20

-10

0

10

20

30

0 200 400 600 800 1000

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0 200 400 600 800 1000 -10

0

10

20

30

40

50

60

70

0 200 400 600 800 1000 0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0 200 400 600 800 1000 -80

-70

-60

-50

-40

-30

-20

-10

0

10

0 200 400 600 800 1000

Esempio 2 gioco della roulette I risultati possibili sono i simboli 0, 00, 1, 2, 3, …, 36: in base all’impostazione classica anche in questa situazione si considerano eventi elementari sim-metrici: P(0) = P(00) = P(1) = … = P(36) = 1

38; in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere, ad es., sul generico simbolo 1

38 unità per ricevere 1 (il rapporto tra posta razionale e vincita è di 1 a 38); In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria si ottiene però solo una somma pari a 36 e il guadagno risulta, quindi, pari a 35:

xi P(X = xi) xi⋅P(X = xi) perdita − 1 37

38 – 3738

guadagno = vincita − posta 35 138

3538

1 – 238 = – 0.05263

il gioco NON è equo: ci si deve attendere una perdita certa in media.

24.40

339

Page 341: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 31 (Gioco della roulette). I risultati possibili sono i simboli 0,00,1,2,3, . . . ,36:

• in base all’impostazione classica:

P(0) = P(00) = P(1) = . . .= P(36) =1

38;

• in base all’impostazione soggettiva un soggetto razionale è disposto a scommetteresul generico simbolo 1

38 unità per ricevere 1 (il rapporto tra posta razionale e vincitaè di 1 a 38);

In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria si ottieneperò solo una somma pari a 36 e il guadagno risulta, quindi, pari a 35:

xi = vincita−posta P(X = xi) xi ·P(X = xi)

−1 3738 − 37

3835 1

383538

1 − 238 =−0.05263

M(X) = E(X)< 0

Il gioco non è equo: ci si attende ’in media’ una perdita certa.24.41

340

Page 342: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 25Calcolo delle probabilità (2)

25.1

Indice

1 La probabilità condizionata P(A|B) 341

2 La probabilità composta 343

3 Indipendenza stocastica 3443.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344

4 La probabilità composta (caso generale) 3454.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3454.2 Le permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3464.3 Le combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3474.4 Il coefficiente binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . 3484.5 Combinazioni multiple e coefficiente multinomiale . . . . . . . . . . . . 350

5 Legge delle probabilità totali 3505.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351

6 Formula di Bayes 352

7 I grafi di probabilità 3547.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 25.2

1 La probabilità condizionata P(A|B)In presenza di due eventi A e B

Ω

A B

341

Page 343: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

siamo interessati a calcolare la probabilità dell’evento condizionato A|B, ossia la probabi-lità che si verifichi l’evento A a condizione che B si sia verificato.L’evento B deve potersi verificare: P(B)> 0. 25.3

Si opera una restrizione dello spazio probabilistico Ω al solo evento B, che diventa lospazio di riferimento (Ω∗ = B) su cui definire una nuova legge P∗(A) = P(A|B).È possibile utilizzare la legge P definita su Ω per costruire P∗?

Ω

A B

L’evento A si verifica ora nella sola intersezione con B, quindi

P(A|B) = P(A∩B)P(B)

.

Si osserva come con riferimento allo spazio Ω vale

P(A) =P(A∩Ω)

P(Ω)=

P(A)1

.

25.4

Definizione 1 (Probabilità condizionata).

P(A|B) = P(A∩B)P(B)

, P(B) 6= 0

Esempio 2. Si estragga una carta da un mazzo di 52 carte. Si calcoli la probabilità che siaun asso, condizionatamente al fatto che la carta estratta abbia il seme ’cuori’.

• ottenere un asso all’interno delle cuori (A∩B)• considerando solo le uscite di cuori (B)

A♥ 2♥ 3♥ 4♥ 5♥ 6♥ 7♥ 8♥ 9♥ 10♥ J♥ Q♥ K♥A♦ 2♦ 3♦ 4♦ 5♦ 6♦ 7♦ 8♦ 9♦ 10♦ J♦ Q♦ K♦A♣ 2♣ 3♣ 4♣ 5♣ 6♣ 7♣ 8♣ 9♣ 10♣ J♣ Q♣ K♣A♠ 2♠ 3♠ 4♠ 5♠ 6♠ 7♠ 8♠ 9♠ 10♠ J♠ Q♠ K♠

P(A|B) = P(A∩B)P(B)

=1521352

=1

1325.5

Si osserva come l’ultimo passaggio nella precedente espressione non sia una semplicesemplificazione della formula.Il condizionamento rappresenta, infatti, una restrizione all’insieme condizionante (B).

342

Page 344: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Risulta, quindi, definita una nuova misura di probabilità P∗ riferita allo spazio probabili-stico Ω∗ = B = carte di cuori.

P(A∩B)P(B)

=1521352

=

#AC in Ω

#casi poss. in Ω

#C in Ω

#casi poss. in Ω

=1

13=

#AC in B#casi poss. in B

= P∗(A)

25.6

OsservazioneCon riferimento a particolari sequenze di eventi A1,A2, . . . ,An il terzo postulato del-l’impostazione assiomatica potrebbe applicarsi per P∗ definita su B e non per P definitasu Ω.

Ω

B

A1

A2

A3

A4

A1∩A2 6=∅, A3∩A4 6=∅, (A1|B)∩ (A2|B) = (A3|B)∩ (A4|B) =∅

25.7

2 La probabilità composta

Da

P(B|A) = P(B∩A)P(A)

, P(A) 6= 0

P(A|B) = P(A∩B)P(B)

, P(B) 6= 0

segue la definizione di probabilità composta.

Definizione 3 (Probabilità composta).

P(A∩B) = P(A) ·P(B|A) = P(B) ·P(A|B)25.8

343

Page 345: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 Indipendenza stocastica

Definizione 4 (Indipendenza stocastica). Due eventi A e B si dicono stocasticamenteindipendenti se

P(A∩B) = P(A) ·P(B)Se A e B sono stocasticamente indipendenti, dalla formula della probabilità condizionatasegue che:

P(A|B) = P(A∩B)P(B)

=P(A) ·P(B)

P(B)= P(A)

l’evento B non ha alcuna influenza sulla manifestazione dell’evento A.•

P(B|A) = P(B∩A)P(A)

=P(B) ·P(A)

P(A)= P(B)

l’evento A non ha alcuna influenza sulla manifestazione dell’evento B. 25.9

3.1 Esercizi

Esercizio 5. Due eventi disgiunti sono indipendenti?25.10

Esercizio 6 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non siverifichi l’evento B è pari a 0.12.La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichil’evento A.La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68.

1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichil’evento B.

2. Calcolare la probabilità che si verifichi l’evento A dato che non si è verificatol’evento B.

3. Indicare, giustificando la risposta, se A e il complementare di B sono tra lorostocasticamente indipendenti.

4. Dimostrare che A e B sono tra loro stocasticamente indipendenti.25.11

Esercizio 7 (T 156, 13.09.1997, 4). Dati due eventi tali che P(A) = 0.3, P(B) = 0.4;calcolare P(A∪B) nelle seguenti ipotesi:

1. A e B sono stocasticamente indipendenti;2. A e B sono disgiunti;3. P(A|B) = 0.8.

25.12

Esercizio 8 (T 173, 13.09.1997, 4). Sapendo che la probabilità che si verifichi l’evento Aè pari a 0.4 e che la probabilità che si verifichi l’evento B è pari a 0.9, dire, giustificandola risposta data, se:

1. A e B sono due eventi incompatibili (o disgiunti);2. A e B sono due eventi tra loro stocasticamente indipendenti, sapendo che P(A∪B)=

0.9.25.13

Esercizio 9 (T 231, 11.01.2007, 4). Sapendo che A, B e C sono tre eventi che costituisco-no una partizione dello spazio Ω e che P(A) = 0.2 e P(B) è 2 volte P(C):

1. calcolare P(B∪C), P(A∩C), P(A−B), P(A|B),2. dire se A e C sono stocasticamente indipendenti.

25.14

344

Page 346: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 La probabilità composta (caso generale)

Definizione 10 (Probabilità composta). Si considerino gli eventi A1,A2, . . . ,An. Allora

P(A1∩A2∩ . . .∩An) = P(A1) ·P(A2|A1) ·P(A3|A1∩A2) · . . . ·P(An|A1∩A2∩ . . .∩An−1)

con P(A1∩A2∩ . . .∩An) 6= 0.

Teorema 11. Si considerino gli eventi A1,A2, . . . ,An con P(A1∩A2∩ . . .∩An) 6= 0. Allora

0 < P(A1∩ . . .∩An)≤ P(A1∩ . . .∩An−1)≤ . . .≤ P(A1)

Dimostrazione. Dal momento che

(A1∩ . . .∩An)⊂ (A1∩ . . .∩An−1)⊂ . . .⊂ (A1∩A2)⊂ A1,

la tesi segue applicando il Teorema della monotonicità.25.15

4.1 Esercizi

Esercizio 12 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascunarecante impressa una lettera dell’alfabeto italiano.Calcolare la probabilità che estraendo contemporaneamente 5 palline escano:

1. 5 consonanti;2. le 5 lettere che compongono il sostantivo ombra;

(suggerimento: calcolare le seguenti probabilità: P(o1∩m2∩b3∩ r4∩a5), P(a1∩m2 ∩ b3 ∩ r4 ∩ o5); conteggiare poi il numero di sequenze che possono essere co-struite con le lettere o,m,b,r,a, cfr. il paragrafo successivo ’le permutazioni’).

25.16

345

Page 347: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4.2 Le permutazioniEsempio 13. Quante sequenze si possono costruire con le quattro lettere (elementi distin-ti) r,o,m,a

r o m ar o a mr m o ar m a or a o mr a m oo r m ao r a mo m r ao m a ro a r mo a m rm r o am r a om o r am o a rm a r om a o ra r o ma r m oa o r ma o m ra m r oa m o r

4 3 2 1

In totale 24 sequenze, ottenibili mediante il prodotto

4 ·3 ·2 ·1 = 2425.17

Definizione 14 (Permutazioni). Numero di sequenze che possono essere costruite con nelementi distinti:

n · (n−1) · . . . ·2 ·1Definizione 15 (Fattoriale). Si definisce fattoriale di un numero n il prodotto dei numerida 1 a n

n! = n · (n−1) · . . . ·2 ·1Per definizione vale

0! = 125.18

Esempio 16 (Soluzione Esercizio 12). Abbiamo

P(o1∩m2∩b3∩ r4∩a5) = P(o1) ·P(m2|o1) ·P(b3|o1∩m2) ·P(r4|o1∩m2∩b3) ·

·P(a5|o1∩m2∩b3∩ r4) =1

21· 1

20· 1

19· 1

18· 1

17.

Si osserva come valga

P(a1∩m2∩b3∩ r4∩o5) = P(o1∩m2∩b3∩ r4∩a5)

e come tale probabilità coincida con quella di qualsiasi sequenza che può essere costruitacon le lettere o,m,b,r,a.

346

Page 348: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Il numero di tali sequenze (permutazioni) è pari a 5! = 120, abbiamo quindi:

P(5 lettere o,m,b,r,a) = 5! · 121· 1

20· 1

19· 1

18· 1

17= n. sequenze ·P(generica sequenza).

25.19

Esercizio 17 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascunarecante impressa una lettera dell’alfabeto italiano.Calcolare la probabilità che estraendo contemporaneamente 5 palline escano:

3. le 5 lettere che compongono il sostantivo sasso.4. 3 vocali e 2 consonanti;

(suggerimento: calcolare le seguenti probabilità: P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5), P(c1 ∩c2∩v3∩v4∩v5); conteggiare poi il numero di sequenze che possono essere costrui-te con 3 vocali e 2 consonanti, cfr. il paragrafo successivo ’le combinazioni’).

25.20

4.3 Le combinazioni

Esempio 18. Si considerino 5 elementi dei quali 3 di un tipo e 2 di un secondo tipo (adesempio 3 lettere f e 2 lettere g).Quante sequenze si possono costruire con i 5 elementi?

Ipotizziamo in primo luogo che i 5 elementi siano distinti:

a,b,c,d,e

Il numero delle possibili sequenze è 5! = 5 ·4 ·3 ·2 ·1 = 120

abcde bacde cabde dabce eabcdabced baced cabed dabec eabdcabdce badce cadbe dacbe eacbdabdec badec cadeb daceb eacdbabecd baecd caebd daebc eadbcabedc baedc caedb daecb eadcbacbde bcade cbade dbace ebacdacbed bcaed cbaed dbaec ebadcacdbe bcdae cbdae dbcae ebcadacdeb bcdea cbdea dbcea ebcdaacebd bcead cbead dbeac ebdacacedb bceda cbeda dbeca ebdcaadbce bdace cdabe dcabe ecabdadbec bdaec cdaeb dcaeb ecadbadcbe bdcae cdbae dcbae ecbadadceb bdcea cdbea dcbea ecbdaadebc bdeac cdeab dceab ecdabadecb bdeca cdeba dceba ecdbaaebcd beacd ceabd deabc edabcaebdc beadc ceadb deacb edacbaecbd becad cebad debac edbacaecdb becda cebda debca edbcaaedbc bedac cedab decab edcabaedcb bedca cedba decba edcba

25.21

Si sostituisca alle lettere a,b,c la lettera f .

347

Page 349: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Tutte le sequenze che contengono la coppia (d,e) in posizione prefissata, ad esempio in4a e 5a posizione divengono indistinguibili

abcdebacdecabdeacbdebcadecbade

→ f f f de

Il numero di sequenze distinte (per l’ordine) risulta allora ridotto a

1206

=5!3!

= 20,

essendo 3!, permutazione delle 3 lettere a,b,c, il numero di elementi ’indistinguibili’ cond ed e in posizione prefissata e a,b,c sostituite con f

f f f de f f de f f d f e f d f f f e d f e f ff f f ed f f ed f f e f d f e f f f d e f d f ff f d f e f d f f e f de f f d f f e f de f f ff f e f d f e f f d f ed f f e f f d f ed f f f

25.22

Sostituendo, ora, alle lettere d,e la lettera g, il numero di sequenze distinte (per l’ordine)risulta

5!3! ·2!

=1206 ·2 = 10,

dove 2!, permutazione delle lettere d,e, è il numero di elementi ’indistinguibili’ con a,b,c(o f f f ) in posizione prefissata e d,e sostituite con g

f f f gg f f gg f f g f g f g f f f g g f g f ff f g f g f g f f g f gg f f g f f g f gg f f f

25.23

In conclusione, disponendo di 5 elementi di cui 3 di un primo tipo e 2 di un secondo tipo,è possibile costruire

5!3! ·2!

=1206 ·2 = 10

ordinamenti (sequenze) distinte.

Definizione 19 (Combinazioni). Il numero di sequenze che possono essere costruite conn elementi dei quali k di un primo tipo e n− k di un secondo tipo

•• · · ·•︸ ︷︷ ︸ · · ·︸ ︷︷ ︸k n− k

è pari a:n!

k! · (n− k)!.

25.24

4.4 Il coefficiente binomiale

Definizione 20 (Coefficiente binomiale).(nk

)=

n!k! · (n− k)!

.

348

Page 350: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Per il calcolo del coefficiente binomiale risulta utile la seguente proprietà(nk

)=

n!k! · (n− k)!

=n!

(n− k)! · k!=

(n

n− k

)Inoltre (

nk

)=

n!k! · (n− k)!

=n(n−1) · . . . · (n− k+1)(n− k)!

k! · (n− k)!

=n(n−1) · . . . · (n− k+1)

k(k−1) · . . . ·1

=k fattori decrescenti a partire da n

k fattori (i primi k interi).

25.25

Esempio 21. Si calcolino(80

78

),(70

3

),(70

66

)(

8078

)=

(802

)=

80 ·792 ·1 = 3160;

(703

)=

70 ·69 ·683 ·2 ·1 = 54740;(

7066

)=

(704

)=

70 ·69 ·68 ·674 ·3 ·2 ·1 = 916895.

25.26

Esempio 22 (Soluzione Esercizio 17). Abbiamo

P(v1∩ v2∩ v3∩ c4∩ c5) = P(v1) ·P(v2|v1) ·P(v3|v1∩ v2) ·P(c4|v1∩ v2∩ v3) ·

·P(c5|v1∩ v2∩ v3∩ c4) =5

21· 4

20· 3

19· 16

18· 15

17.

Si osserva come valga

P(v1∩ v2∩ v3∩ c4∩ c5) = P(c1∩ c2∩ v3∩ v4∩ v5)

e come tale probabilità coincida con quella di qualsiasi sequenza che può essere costruitacon 3 vocali e 2 consonanti (o, equivalentemente, con 2 consonanti e 3 vocali).Il numero di tali sequenze (combinazioni) è pari a

(53

)= 20 (equivalente a

(52

)= 20),

abbiamo quindi:

P(3 vocali e 2 consonanti)=(

53

)· 521· 420· 319· 1618· 1517

= n. sequenze ·P(generica sequenza).

25.27

Esercizio 23 (T 121, 26.06.1993, 5). Papà, mamma con i due figli vanno in gelateria esi siedono a un tavolo quadrato a 4 posti; determinare la probabilità che i due figli sianoseduti uno di fronte all’altro, ritenendo equiprobabile ogni configurazione.

25.28

Esercizio 24 (T 158, 24.01.1998, 5). Sia dato un gruppo di n = 12 individui.

1. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, due persone sitrovino vicine.

2. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, tre persone si trovinovicine.

25.29

349

Page 351: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4.5 Combinazioni multiple e coefficiente multinomiale

Esempio 25. Si considerino 7 elementi dei quali 1 di un primo tipo, 3 di un secondo tipo,2 di un terzo tipo e 1 di un quarto tipo (ad esempio ahhhllg). Quante sequenze si possonocostruire?Ipotizziamo in primo luogo che i 7 elementi siano distinti:

a,b,c,d,e, f ,g

Il numero delle possibili sequenze è 7! = 5040.

Si sostituisca alle lettere b,c,d la lettera h e alle lettere e, f la lMolte sequenze divengono indistinguibili, ad esempio

abcde f gabdce f gacbde f gacdbe f gadbce f gadcbe f gabcd f egabdc f egacbd f egacdb f egadbc f egadcb f eg

→ ahhhllg

Il numero totale di sequenze distinte (per l’ordine) risulta

7!1! ·3! ·2! ·1!

= 420

25.30

5 Legge delle probabilità totali

Si consideri una partizione di Ω costituita dagli eventi A1,A2, . . . ,Ak

Ω

A1 A2 . . . Ak

⋃ki=1 Ai = Ω, Ai∩A j =∅ (∀i 6= j) 25.31

Si consideri ora un generico insieme B

Ω

A1 A2 . . . Ak

B

350

Page 352: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Si ha:B = Ω∩B = (A1∪ . . .∪Ak)∩B = (A1∩B)∪ . . .∪ (Ak ∩B)

pertantoP(B) = P(A1∩B)+ . . .+P(Ak ∩B)

e ancheP(B) = P(A1)P(B|A1)+ . . .+P(Ak)P(B|Ak)

25.32

Teorema 26 (Legge delle probabilità totali). Si consideri un insieme B e una partizionedi Ω costituita dagli eventi A1,A2, . . . ,Ak, vale

P(B) = P(A1)P(B|A1)+ . . .+P(Ak)P(B|Ak)

25.33

5.1 Esercizi

Esercizio 27 (T 154, 28.06.1997, 5). Siano date due urne così composte:

• la prima contiene 18 palline bianche, 17 palline rosse e 5 palline verdi,• la seconda contiene 10 palline bianche, 16 palline rosse e 24 palline verdi.

Si proceda allo svolgimento del seguente esperimento casuale: si lanci un dado regolare.Se si ottiene un numero multiplo di 3 si estrae una pallina dalla prima urna contrariamentesi estrae una pallina dalla seconda urna.Determinare la probabilità che la pallina estratta sia bianca.

25.34

Esercizio 28 (T 152, 22.02.1997, 4). Tre scatole contengono rispettivamente:

• due palline bianche e una nera;• due palline nere e una bianca;• tre palline bianche.

Estraendo in modo indipendente una pallina da ciascuna scatola, calcolare la probabilitàdi estrarre due palline bianche e una nera.

25.35

351

Page 353: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 Formula di Bayes

Teorema 29 (Formula di Bayes). Si considerino

• una partizione di Ω costituita dagli eventi A1,A2, . . . ,Ak• un insieme B.

Si supponga di conoscere

• P(A1),P(A2), . . . ,P(Ak)• P(B|A1),P(B|A2), . . . ,P(B|Ak)

Allora

P(Ai|B) =P(Ai)P(B|Ai)

P(A1)P(B|A1)+ . . .+P(Ak)P(B|Ak), i = 1, . . . ,k.

Dimostrazione.

P(Ai|B) =P(Ai∩B)

P(B)=

P(Ai)P(B|Ai)

∑ki=1 P(Ai)P(B|Ai)

ricordando la formula della probabilità composta e la legge delle probabilità totali.25.36

Interpretazione della Formula di BayesSe si attribuisce agli eventi Ai il significato di possibili cause dell’effetto B, la formula diBayes consente di effettuare uno ’scambio’ tra le cause e l’effetto.Infatti, note le probabilità, P(Ai), di ciascuna causa e le probabilità dell’effetto data cia-scuna causa P(B|Ai), consente di determinare la probabilità P(Ai|B) della causa datol’effetto, vale a dire che essendosi verificato l’evento B sia stata la causa Ai a determinarlo.

25.37

Esempio 30. Si consideri un paziente che si presenta dal medico con un determinatosintomo. Il medico sa che detto sintomo potrebbe essere causato da k patologie che sisuppongono mutuamente esclusive.Sia B l’evento che rappresenta il sintomo e Ai l’evento che si identifica con la i-esimapatologia (i = 1,2, . . . ,k).Il medico conosce (a priori) la probabilità P(B|Ai) che si manifesti il sintomo B essendoil paziente affetto dalla patologia Ai. È, però, interessato a determinare la probabilità

P(B|Ai)

che essendosi manifestato il sintomo B sia stata la patologia Ai a determinarlo.A tal fine può utilizzare la formula di Bayes.

25.38

UtilizzazioneLa formula di Bayes trova utilizzo nell’approccio soggettivo all’inferenza statistica, cosid-detta Bayesiana, nella quale in aggiunta al risultato sperimentale B, si suppone di disporredi una ’elicitazione’, come distribuzione di probabilità a priori, riguardo agli eventi Aioggetto di inferenza.

Esempio 31. Con riferimento all’Esempio 3 della Sezione 1, relativo alla determinazionedella quota di mercato di un’azienda, si utilizzano, in aggiunta all’informazione campio-naria, anche altre valutazioni (soggettive), in forma di distribuzione di probabilità a priori,relative ai possibili valori della quota di mercato oggetto di stima.

25.39

352

Page 354: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 32. Una linea di produzione è costituita da 3 macchinari, m1,m2,m3, che contri-buiscono rispettivamente al 20%, al 30% e al 50% della produzione. I 3 macchinari sonocaratterizzati dai seguenti tassi di difettosità: 5%, 4% e 2%.

• Si calcoli la probabilità che estratto a caso un pezzo dalla linea di produzione,questo sia difettoso.

• Si calcoli la probabilità che avendo estratto un pezzo difettoso, questo provenga dalmacchinario m1.

macchina m1 m2 m3% produzione 20% 30% 50%% difettosità 5% 4% 2%

DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDD ←25.40

Indicando con Mi l’evento ’pezzo prodotto da mi’ e con D l’evento ’pezzo difettoso’abbiamo:

macchina m1 m2 m3P(Mi) 0.20 0.30 0.50

P(D|Mi) 0.05 0.04 0.02

Siamo interessati a conoscere P(D) e P(M1|D)

M1 M2 M3

ND

D

Ω

25.41

Abbiamo:

P(D) = P((M1∩D)∪P(M2∩D)∪P(M3∩D)) =

= P(M1∩D)+P(M2∩D)+P(M3∩D) =

= P(M1)P(D|M1)+P(M2)P(D|M2)+P(M3)P(D|M3) =

= 0.20 ·0.05+0.30 ·0.04+0.50 ·0.02 =

= 0.01+0.012+0.01 = 0.032

e

P(M1|D) =P(M1∩D)

P(D)=

P(M1)P(D|M1)

P(D)=

0.010.032

= 0.3125.

25.42

353

Page 355: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 I grafi di probabilità

Sono delle strutture ’orientate’, denominate anche alberi di probabilità, costituite da nodie archi, mediante le quali è possibile rappresentare la struttura di casualità di un problema.Ad esempio, con riferimento alla legge delle probabilità totali applicata agli eventi D e Dspecificati nel precedente Esempio 32 abbiamo il grafo nella seguente figura. 25.43

M1

M2

M3

D

D

D

D

D

D

P (M1 ∩D) = 0.2 · 0.05 = 0.01 = P (M1)P (D|M1)

0.2

0.3

0.5

0.05

0.95

0.04

0.96

0.02

0.98

P (M1 ∩ D) = 0.2 · 0.95 = 0.19 = P (M1)P (D|M1)

P (M2 ∩D) = 0.3 · 0.04 = 0.012 = P (M2)P (D|M2)

P (M2 ∩ D) = 0.3 · 0.96 = 0.288 = P (M2)P (D|M2)

P (M3 ∩D) = 0.5 · 0.02 = 0.01 = P (M3)P (D|M3)

P (M3 ∩ D) = 0.5 · 0.98 = 0.49 = P (M3)P (D|M3)

• Dal nodo iniziale partono 3 archi relativi alla possibile ’scelta’ del macchinario; lasomma delle probabilità a essa associate è pari a 1.

• Da ciascun nodo intermedio partono 2 archi relativi alla realizzazione del prodottoeffettuata mediante il macchinario Mi. Il prodotto può essere ’difettoso’ oppure’non difettoso’ e la somma delle probabilità associate ai due eventi è sempre pari a1.

• Effettuando il prodotto tra i valori delle probabilità presenti lungo i diversi archi cheportano dal nodo iniziale ai nodi terminali si ottengono le probabilità composte.

25.44

7.1 Esercizi

Esercizio 33 (T 214, 23.09.2004, 3). Un manager ha nel proprio ufficio tre linee telefo-niche (A, B e C) che risultano libere con probabilità rispettivamente pari a 0.70, 0.20 e0.40.

1. Scegliendo a caso una delle linee, si determini la probabilità che la linea sceltarisulti essere libera.

2. Ipotizzando che la linea scelta sia libera, qual è la probabilità che sia la linea C?25.45

354

Page 356: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 26Calcolo delle probabilità (3)

26.1

Indice

1 La variabile casuale 355

2 Esperimenti aleatori descritti da variabili casuali discrete 356

3 La variabile casuale di Bernoulli 359

4 La variabile casuale binomiale 360

5 La variabile casuale ipergeometrica 363

6 La variabile casuale uniforme 366

7 Esercizi 366

8 La Funzione di Ripartizione 367

9 Altri esempi di variabili casuali 369 26.2

1 La variabile casuale

Denominata anche ’numero aleatorio’, è il corrispondente stocastico della serie statistica.Al posto degli eventi elementari ωi ∈Ω abbiamo valori numerici appartenenti a un insie-me S detto supporto.Gli eventi di interesse sono, in genere, insiemi numerici del tipo

X = x0 X ≤ x0 a < X ≤ b

e si parla di probabilità che X assuma determinati valori.Analogamente al caso delle variabili statistiche, il simbolo X riassume, ora, valori eprobabilità.

Tipologie di variabili casuali

• discrete (Ω assume valori in un insieme finito o numerabile)• continue (Ω corrisponde a un intervallo di valori reali)

26.3

Definizione 1 (Esperimento aleatorio). Un esperimento aleatorio è definito dalla ternaΩ,S (Ω),P(·), dove

• Ω è lo spazio probabilistico,

355

Page 357: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

• S (Ω) la relativa algebra degli eventi (elementari e non),• P(·) è la misura di probabilità definita su S (Ω).

OsservazioneNel caso continuo, dove Ω ≡ S ⊂ ℜ è conveniente usare la legge di probabilità P(·) =P(X ≤ x)

Definizione 2 (Variabile casuale). Dato un esperimento aleatorio, una trasformazione X :Ω→ℜ dello spazio probabilistico Ω in ℜ è detta variabile casuale, X , se ogni elementoB ∈S (ℜ) ha controimmagine in S (Ω), dove S (ℜ) è una opportuna algebra costruita,ad esempio a partire dalla classe degli semirette, su ℜ.Vale a dire:

PX (B) = P(

X−1(B))

, ∀B ∈ S(ℜ).26.4

2 Esperimenti aleatori descritti da variabili casuali di-screte

Esempio 3 (Guadagno di un giocatore). Si riprende l’esempio sul gioco della roulette,visto nel contesto della definizione di gioco equo.I risultati possibili sono i simboli 0,00,1,2,3, . . . ,36, a ciascuno dei quali è associata unaprobabilità costante pari a 1

38 .

• In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria, eventoA, si ottiene una somma pari a 36 e il guadagno risulta, quindi, pari a 36−1 = 35.

• In caso di non uscita del simbolo su cui è stata effettuata la scommessa, evento A,si perde la posta, vale a dire l’unità scommessa.

26.5Variabile casuale X = ’guadagno del giocatore’X : Ω→ℜ

Ω

A A

−1 35

supporto S = −1,35xi P(X = xi)−1 37/3835 1/38

126.6

356

Page 358: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esempio 4. Esperimento di estrazione di 2 palline senza reimmissione da un’urna conte-nente 10 palline bianche e 6 palline nere

Ω

ω1 = (B1∩B2)

ω2 = (B1∩N2)

ω3 = (N1∩B2)

ω4 = (N1∩N2)

P(ω1) = P(B1∩B2) = P(B1)P(B2|B1) =1016

915

= 0.375

P(ω2) = P(B1∩N2) = P(B1)P(N2|B1) =1016

615

= 0.250

P(ω3) = P(N1∩B2) = P(N1)P(B2|N1) =6

161015

= 0.250

P(ω4) = P(N1∩N2) = P(N1)P(N2|N1) =6

16515

= 0.125

26.7L’algebra degli eventi S (Ω) risulta:

S (Ω) =

ω1, ω2, ω3, ω4(ω1∪ω2), (ω1∪ω3), (ω1∪ω4), (ω2∪ω3), (ω2∪ω4), (ω3∪ω4)(ω1∪ω2∪ω3), (ω1∪ω2∪ω4), (ω1∪ω3∪ω4), (ω2∪ω3∪ω4)

(ω1∪ω2∪ω3∪ω4) = Ω

OsservazioneIl numero di elementi che costituiscono S(Ω) è pari a 24, essendo 4 la cardinalità di Ω

(numero di eventi elementari in Ω).

L’affermazione si dimostra se nella formula di Newton per la potenza di un binomio

(a+b)n =n

∑k=0

(nk

)an−kbk

si pone a = b = 1.(nk

)è la numerosità dei gruppi formati con k elementi.

Nel caso in esame abbiamo

24 =

(40

)+

(41

)+

(42

)+

(43

)+

(44

)= 1+4+6+4+1.

Gli addendi corrispondono alle numerosità in S(Ω) di: ∅, degli elementi singoli ωi, delleunioni di coppie (ωi∪ω j), di terne (ωi∪ω j∪ωk) e della quaterna (ω1∪ω2∪ω3∪ω4) =Ω. 26.8

OsservazioneMediante la funzione P(·) siamo in grado di assegnare la probabilità a ciascun elementodi S (Ω).

357

Page 359: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 5. Si costruisca la variabile casuale X = ’n palline nere estratte’.26.9

Variabile casuale X = ’n palline nere estratte’X : Ω→ℜ

Ω

(B1 ∩ B2) (B1 ∩N2) (N1 ∩ B2) (N1 ∩N2)

0 1 2

<

supporto S = 0,1,2

xi P(X = xi) = pi0 P(ω1) 0.3751 P(ω2∪ω3) = P(ω2)+P(ω3) 0.5002 P(ω4) 0.125

126.10

Esempio 6. Si considera un’urna contenente elementi di due tipi, A e A, in frazione p e1− p.

p 1− p

A AL’esperimento consiste nell’estrazione di una pallina dall’urna.Abbiamo

P(A) = p P(A) = 1− p

Infatti, nel caso fosse noto il numero totale di elementi nell’urna, diciamo N, si avrebbero:

• N p elementi del tipo A• N−N p = N(1− p) elementi del tipo A

che sarebbero tutti alla pari di fronte all’operazione di estrazione (eventi simmetrici),quindi

P(A) =N pN

= p P(A) =N(1− p)

N= 1− p

26.11

Esercizio 7. Si costruisca la variabile casuale X = ’n elementi di tipo A’26.12

358

Page 360: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 La variabile casuale di Bernoulli

Definizione 8 (Variabile casuale di Bernoulli). X = ’n elementi di tipo A’ in una estra-zione da un’urna contenente elementi di due tipi, A e A, in frazione p e 1− p.

Supporto S = 0,1xi P(X = xi) = pi0 1− p1 p

126.13

Esempio 9 (Estrazioni bernoulliane). Esperimento di estrazione di 2 elementi con reim-missione da un’urna contenente elementi di due tipi, A e A, in frazione p e 1− p.Le estrazioni in questo caso sono dette bernoulliane o prove indipendenti

Ω

(A1∩A2)

(A1∩ A2)

(A1∩A2)

(A1∩ A2)

P(A1∩A2) = P(A1)P(A2|A1) = P(A)P(A) = p2

P(A1∩ A2) = P(A1)P(A2|A1) = P(A)P(A) = p(1− p)

P(A1∩A2) = P(A1)P(A2|A1) = P(A)P(A) = (1− p)p

P(A1∩ A2) = P(A1)P(A2|A1) = P(A)P(A) = (1− p)2

Si costruisca la variabile casuale X = ’n elementi di tipo A estratti nelle 2 estrazioni conreimmissione’ 26.14

Variabile casuale X = ’n elementi di tipo A estratti nelle 2 estrazioni con reimmissione’X : Ω→ℜ

Ω

(A1 ∩ A2) (A1 ∩ A2) (A1 ∩ A2) (A1 ∩ A2)

0 1 2

<

supporto S = 0,1,2

xi P(X = xi) = pi

0 P(A1∩ A2) (1− p)2

1 P(A1∩A2)+P(A1∩ A2) (1− p)p+ p(1− p)2 P(A1∩A2) p2

126.15

OsservazioneNel caso fosse noto il numero totale di elementi nell’urna, diciamo N, si avrebbero:

359

Page 361: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

• N p elementi del tipo A• N−N p = N(1− p) elementi del tipo A

Si potrebbe quindi anche considerare lo spazio probabilistico Ω costituito da N2 coppiesimmetriche (dal momento che le estrazioni sono con reimmissione) del tipo (A1 ∩A2),(A1∩ A2), (A1∩A2) e (A1∩ A2)

Ω

N p ·N p N p ·N(1− p) N(1− p) ·N p N(1− p) ·N(1− p)

(A1∩A2) (A1∩ A2) (A1∩A2) (A1∩ A2)

P(A1∩A2) =N p ·N p

N2 = p2, P(A1∩ A2) =N(1− p) ·N(1− p)

N2 = (1− p)2

P(A1∩A2) =N(1− p) ·N p

N2 = (1− p)p, P(A1∩ A2) =N p ·N(1− p)

N2 = p(1− p)

26.16

OsservazioneCosa succede in presenza di n estrazioni?

Gli eventi elementari diventano delle n-ple e vengono definite le variabili casuali

• binomiale, nel caso le estrazioni siano con reimmissione, ovvero in presenza diprove indipendenti

• ipergeometrica, nel caso di estrazioni senza reimmissione26.17

4 La variabile casuale binomiale

Definizione 10 (Variabile casuale binomiale X ∼ Bin(n, p)). Si consideri l’esperimentodi estrazione di n elementi con reimmissione da un’urna contenente elementi di due tipi,A e A, in frazione p e 1− p.

p 1− p

A ALa variabile casuale X = ’n elementi di tipo A estratti nelle n estrazioni con reimmissio-ne’ si definisce variabile casuale binomiale con parametri n e p.X ha distribuzione di probabilità

P(X = x) =(

nx

)px(1− p)n−x, (x = 0,1, . . . ,n).

26.18

OsservazioneL’esperimento potrebbe anche consistere nella ripetizione di n prove indipendenti, ciascu-na delle quali può dare luogo a un successo, A, con probabilità p, ovvero a un insuccesso,A, con probabilità 1− p.

360

Page 362: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

OsservazionePer n = 1 si ottiene la variabile casuale di Bernoulli.

OsservazioneLa variabile casuale binomiale può essere interpretata come somma di n variabili casualidi Bernoulli indipendenti.

26.19

Osservazione

• se p = 0.5 allora X ∼ Bin(n, p) ha distribuzione di probabilità simmetrica• se p→ 0 oppure p→ 1 la distribuzione è asimmetrica

OsservazioneLa distribuzione di probabilità può presentare 1 moda oppure 2 mode contigue.

26.20

Esempio 11.

X ∼ Bin(n = 15, p = 0.1)

x P(X = x)0 0.205891 0.343152 0.26693 0.128514 0.042845 0.010476 0.001947 0.000288 3e−059 010 011 012 013 014 015 0

1

X ∼ Bin(n = 15, p = 0.5)

x P(X = x)0 3e−051 0.000462 0.00323 0.013894 0.041665 0.091646 0.152747 0.196388 0.196389 0.1527410 0.0916411 0.0416612 0.0138913 0.003214 0.0004615 3e−05

126.21

361

Page 363: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

X ∼ Bin(n = 15, p = 0.75)

x P(X = x)0 01 02 03 1e−054 1e−045 0.000686 0.00347 0.013118 0.039329 0.0917510 0.1651511 0.225212 0.225213 0.1559114 0.0668215 0.01336

1

X ∼ Bin(n = 15, p = 0.9)

x P(X = x)0 01 02 03 04 05 06 07 3e−058 0.000289 0.00194

10 0.0104711 0.0428412 0.1285113 0.266914 0.3431515 0.20589

126.22

x

n =

15,

p =

0.1

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

x

n =

15,

p =

0.7

5

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

x

n =

15,

p =

0.5

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

x

n =

15,

p =

0.9

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

26.23

Esempio 12. Calcolare la probabilità che esca 2 volte testa in 2 successivi lanci di unamoneta

Ti = testa all’iesimo lancio (i = 1,2)

362

Page 364: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

A = T1∩T2

P(A) = P(T1∩T2) = P(T1) ·P(T2|T1) = P(T1) ·P(T2) = 0.52

(si poteva usare la binomiale con p = 0.5)

P(X = 2) =(

22

)0.52(1−0.5)2−2 = 1 ·0.52 ·0.50

26.24

5 La variabile casuale ipergeometrica

Definizione 13 (Variabile casuale ipergeometrica). Si consideri l’esperimento di estra-zione di n elementi senza reimmissione da un’urna contenente N elementi di due tipi, A eA, con numerosità M ed N−M.

M N−M

A A

La variabile casuale X = ’n elementi di tipo A estratti nelle n estrazioni senza reimmis-sione’ si definisce variabile casuale ipergeometrica.X ha distribuzione di probabilità

P(X = x) =

(Mx

)(N−Mn−x

)(Nn

) .

26.25

OsservazioneRicostruzione mnemonica della formula di calcolo

1 tipo 2tipo(Mx

) (N−Mn−x

) ( urnacampione

)(N

n

) ( urnacampione

)tutti

26.26

OsservazioneLa variabile casuale ipergeometrica trova applicazione nell’ambito della teoria dei cam-pioni nel cosiddetto schema di campionamento in blocco.

OsservazioneMN = p= frazione iniziale elementi di 1 tipo =P(elemento di 1 tipo alla prima estrazione)

OsservazioneNel caso il numero n di elementi estratti sia molto inferiore al numero N di elementi con-tenuti nell’urna, la variabile casuale ipergeometrica può essere approssimata da una va-riabile casuale binomiale. In tal caso, infatti, la composizione dell’urna rimane pressochéinalterata al susseguirsi delle estrazioni.

363

Page 365: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Affinché si abbia una buona approssimazione in presenza di una frazione iniziale p dielementi di 1 tipo prossima a 0 oppure a 1 è necessario che l’urna contenga un numeroN di elementi molto elevato.

26.27

Esempio 14.

n = 15,M = 2,N−M = 48

x P(X = x)0 0.485711 0.428572 0.085713 04 05 06 07 08 09 0

10 011 012 013 014 015 0

1

n = 15,M = 25,N−M = 25

x P(X = x)0 01 5e−052 0.000693 0.005314 0.025055 0.077166 0.160757 0.230998 0.230999 0.16075

10 0.0771611 0.0250512 0.0053113 0.0006914 5e−0515 0

1

Si osserva che non è possibile estrarre più di M elementi di primo tipo: se M = 2 abbiamoP(X = x) = 0 per x≥ 3.

26.28

n = 15,M = 30,N−M = 20

x P(X = x)0 01 02 1e−053 0.000234 0.002045 0.01176 0.044317 0.113948 0.201589 0.24637

10 0.2069511 0.1175912 0.0438113 0.0101114 0.0012915 7e−05

1

n = 15,M = 45,N−M = 5

x P(X = x)0 01 02 03 04 05 06 07 08 09 010 0.0014211 0.0225512 0.1277813 0.3243514 0.3706915 0.15322

126.29

364

Page 366: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

x

n =

15,

M =

2,

N−

M =

48

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

x

n =

15,

M =

30,

N−

M =

20

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

x

n =

15,

M =

25,

N−

M =

25

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

x

n =

15,

M =

45,

N−

M =

5

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

26.30

Esempio 15. Calcolare la probabilità che i primi 2 numeri estratti alla tombola sianodispari

Di = estrazione dispariA = D1∩D2

P(A) = P(D1∩D2) = P(D1) ·P(D2|D1) =4590

4489

45 45

D D

prima estrazione

44 45

D D

seconda estrazione

(si poteva usare la ipergeometrica)

P(X = 2) =

(452

)(450

)(902

)26.31

365

Page 367: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 La variabile casuale uniforme

Definizione 16 (Variabile casuale uniforme). Ha supporto S = 1,2, . . . ,n con probabi-lità costante

P(X = x) =1n, (x = 1, . . . ,n).

Ad esempio: n = 2 per una moneta equilibrata; n = 6 nel caso di un dado non truccato.

OsservazioneA volte si considera come supporto S = 0,1,2, . . . ,n e in tal caso la probabilità risulta

P(X = x) =1

n+1, (x = 0,1, . . . ,n).

26.32

x

n =

2

0 1 2 3 4 5 6 7 8 9 10

0.0

0.1

0.2

0.3

0.4

0.5

x

n =

4

0 1 2 3 4 5 6 7 8 9 10

0.0

0.1

0.2

0.3

0.4

0.5

x

n =

6

0 1 2 3 4 5 6 7 8 9 10

0.0

0.1

0.2

0.3

0.4

0.5

x

n =

10

0 1 2 3 4 5 6 7 8 9 10

0.0

0.1

0.2

0.3

0.4

0.5

26.33

7 Esercizi

Esercizio 17. Un’urna contiene 10 palline bianche e 40 palline rosse.Si descriva la natura della variabile casuale ’numero di palline bianche ottenute nell’estra-zione di 5 palline dall’urna’ e si calcoli la probabilità di ottenere almeno 2 palline bianche(nell’estrazione di 5 palline dall’urna) nelle seguenti ipotesi:

1. l’estrazione delle palline è effettuata con reimmissione;2. l’estrazione delle palline è effettuata senza reimmissione.

26.34

366

Page 368: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 18 (T 168, 19.02.1999, 5). Un’urna contiene palline rosse e palline nere.Il rapporto tra la probabilità di ottenere 2 palline nere in 4 estrazioni con reinserimento ela probabilità di ottenere 2 palline nere in 3 estrazioni con reinserimento è pari a 0.9.Individuare la percentuale di palline rosse contenute nell’urna.

26.35

Esercizio 19 (T 234, 07.06.2007, 4). Si consideri un dado regolare le cui 6 facce riportanoin eguale numero i segni: ’1’, ’X’ e ’2’.Calcolare le probabilità che lanciando 11 volte il dado:

1. il segno ’X’ compaia al più una volta;2. essendosi presentati solo segni numerici (’1’ oppure ’2’), questi siano solo dispari.

26.36

8 La Funzione di Ripartizione

Definizione 20 (Funzione di Ripartizione). Data una variabile casuale X si definiscefunzione di ripartizione la seguente funzione

F(x) = P(X ≤ x)

È uno strumento unico, legge di probabilità, per i casi discreto e continuo che consente diattribuire una probabilità al generico intervallo a < x≤ b, infatti

P(a < X ≤ b) = P(X ≤ b)−P(X ≤ a) = F(b)−F(a)

Si osserva come nel caso continuo gli insiemi probabilizzabili sono costituiti dagli insiemiappartenenti a una cosiddetta σ -algebra costruita a partire dalle semirette. 26.37

Caso discretoP(X = xi) = pi > 0 ∑

ipi = 1

F(x) = ∑xi≤x

pi

Caso continuoSe la funzione di ripartizione è assolutamente continua, allora esiste una funzione

f (x) = densità di probabilità

tale chef (x)≥ 0

∫ +∞

−∞

f (x)dx = 1.

Vale

F(x) =∫ x

−∞

f (t)dt, f (x) =dF(x)

dx.

26.38

367

Page 369: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

x

F(x)

x

F(x) = P(X ≤ x) =∫ x

−∞

f (t)dt

26.39

a b

P(a < X ≤ b) =∫ b

af (x)dx

ovveroP(a < X ≤ b) = P(X ≤ b)−P(X ≤ a) = F(b)−F(a)

26.40

368

Page 370: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

9 Altri esempi di variabili casuali

La variabile casuale (discreta) di Poisson

P(X = x) =λ xe−λ

x!, x = 0,1,2, . . .

è utilizzata, nei sistemi di gestione delle code, per descrivere il numero di persone chesono in attesa a uno sportello.

0 1 2 3 4 5 6 7 8 9 10E(X)=λ=1.5

26.41

La variabile casuale (continua) esponenziale negativa

f (t) = λe−λ t , t ≥ 0

descrive la distribuzione del tempo di attesa per la prima persona in coda.

time

26.42

369

Page 371: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

La variabile casuale (continua) Gamma

f (t) =1

Γ(α)λ

α xα−1e−λ t , t ≥ 0,

dove Γ(·) è la funzione Gamma di Eulero, descrive la distribuzione del tempo di attesaper la α-esima persona in coda.

time

α = 2

26.43

time

α = 3

26.44

370

Page 372: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione 27Calcolo delle probabilità (4)

27.1

Indice

1 La variabile casuale Normale 371

2 Tavola variabile casuale normale standardizzata 3732.1 Utilizzo tavola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3742.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377

3 Media e varianza di variabile casuale 3773.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378

4 Schema interpretativo v.c. normale 378

5 Approssimazione della variabile casuale binomiale con la normale 3795.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381

6 Esercizi 382 27.2

1 La variabile casuale Normale

Definizione 1 (Variabile casuale Normale X ∼ N(µ,σ2)). Ha la seguente funzione didensità

f (x) =1√

2πσexp

−1

2

(x−µ

σ

)2

con −∞ < µ < ∞ e σ > 027.3

La densità di probabilità è simmetrica rispetto a µ

x

µ − σ µ µ + σ

27.4

371

Page 373: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

P(a < X ≤ b) = F(b)−F(a) =∫ b

af (x)dx

x

a b

=

x

a b

x

a b

P(µ−σ ≤ X ≤ µ +σ) = 0.68

P(µ−2σ ≤ X ≤ µ +2σ) = 0.955

P(|X−µ| ≤ 3σ) = 0.9973

27.5

F(x) = P(X ≤ x) =∫ x

−∞

f (t)dt

(calcolo integrale molto complesso) però

P(X ≤ x) = P(X−µ ≤ x−µ) = P(

X−µ

σ≤ x−µ

σ

)(corrisponde al cambiamento di variabili che conduce alla variabile standardizzata Z =X−µ

σ)

P(X ≤ x) =∫ x−µ

σ

−∞

1√2π

exp(−1

2z2)

dz = Φ

(x−µ

σ

)Φ(z) è la funzione di ripartizione della variabile casuale Z ∼ N(µ = 0,σ2 = 1) normalestandardizzata. 27.6

Pertanto se X ∼ N(µ,σ2)

F(x) = Φ

(x−µ

σ

)inoltre

P(a < X ≤ b) = F(b)−F(a) = Φ

(b−µ

σ

)−Φ

(a−µ

σ

)basta quindi conoscere la funzione di ripartizione della N(0,1).Tale funzione di ripartizione è tabulata. 27.7

372

Page 374: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2 Tavola variabile casuale normale standardizzata0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.83891.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

x

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

27.8

373

Page 375: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.1 Utilizzo tavola

Lettura diretta (1)Sia Z ∼ N(µ = 0,σ2 = 1) si calcoli P(Z ≤ 1.24).Tenendo conto che 1.24 = 1.20+ 0.04 possiamo leggere sulla tavola l’elemento corri-spondente a 1.20 e 0.04.

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.83891.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

P(Z ≤ 1.24) = 0.8925

27.9

Lettura diretta (2)Sia X ∼ N(µ = 5,σ2 = 9) si calcoli P(X ≤ 8.72).Occorre passare alla variabile Normale standardizzata

P(X ≤ 8.72) = P(

X−µ

σ≤ 8.72−µ

σ

)=

= P(

Z ≤ 8.72−53

)= P(Z ≤ 1.24) = 0.8925.

27.10

374

Page 376: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Lettura diretta (3)Sia X ∼ N(µ = 5,σ2 = 9) si calcoli P(X > 8.72).Occorre passare alla variabile Normale standardizzata

P(X > 8.72) = P(

X−µ

σ>

8.72−µ

σ

)=

= P(

Z >8.72−5

3

)=

= P(Z > 1.24) = 1−P(Z ≤ 1.24) == 1−0.8925 = 0.1075.

27.11

Lettura diretta (4)Sia X ∼ N(µ = 5,σ2 = 9) si calcoli P(X ≥ 1.28).Occorre passare alla variabile Normale standardizzata

P(X ≥ 1.28) = P(

X−µ

σ≥ 1.28−µ

σ

)=

= P(

Z ≥ 1.28−53

)= P(Z ≥−1.24)

Ora, tenendo conto che la distribuzione della variabile casuale Normale è simmetricaabbiamo (costruire il grafico della funzione di densità di probabilità)

P(Z ≥−1.24) = P(Z ≤ 1.24) = 0.8925.

27.12

Lettura diretta (5)Sia X ∼ N(µ = 5,σ2 = 9) si calcoli P(X ≤ 1.28).Occorre passare alla variabile Normale standardizzata

P(X ≤ 1.28) = P(

X−µ

σ≤ 1.28−µ

σ

)=

= P(

Z ≤ 1.28−53

)= P(Z ≤−1.24)

Ora, tenendo conto che la distribuzione della variabile casuale Normale è simmetricaabbiamo (costruire il grafico della funzione di densità di probabilità)

P(Z ≤−1.24) = P(Z ≥ 1.24)= 1−P(Z < 1.24) = 1−P(Z ≤ 1.24) == 1−0.8925 = 0.1075.

In definitivaΦ(−z) = 1−Φ(+z).

27.13

375

Page 377: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Lettura indiretta (1)Sia Z ∼ N(µ = 0,σ2 = 1). Sapendo che P(Z ≤ z) = 0.8925 si ricavi z.Dobbiamo ora cercare il valore 0.8925 all’interno della tavola.

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.83891.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

Il valore si ottiene in corrispondenza delle ’coordinate’ 1.20 (riga) e 0.04 (colonna),quindi risulta z = 1.24. 27.14

Lettura indiretta (2)Sia X ∼ N(µ = 5,σ2 = 9). Sapendo che P(X ≤ x) = 0.8925 si ricavi x.Occorre passare alla variabile Normale standardizzata

P(X ≤ x) = P(

X−µ

σ≤ x−µ

σ

)=

= P(

Z ≤ x−53

)= P(Z ≤ z) = 0.8925

All’interno della tavola della Normale standardizzata troviamo 0.8925 in corrispondenzadelle ’coordinate’ 1.20 (riga) e 0.04 (colonna), quindi z = 1.24;

x−53

= z = 1.24

x−5 = 1.24 ·3

x = 5+1.24 ·3 = 8.7227.15

376

Page 378: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2.2 Esercizi

Esercizio 2 (T 233, 08.02.2007, 4). Si supponga che X sia distribuita come una variabilecasuale normale con media µ = 10 e varianza σ2 incognita.Sapendo che P(X > 21) = 0.025 si determini il valore di σ2.

27.16

Esercizio 3 (T 219, 30.06.2005, 5). Una macchina produce pezzi meccanici la cui lun-ghezza X si distribuisce normalmente, con media pari a 10 cm e varianza pari a 2.Un pezzo è ritenuto difettoso se risulta più lungo di un certo valore ritenuto accettabile.Sapendo che i difettosi sono il 5%:

1. indicare il valore x0 al di sopra del quale si ritiene che un pezzo sia difettoso;2. calcolare la probabilità che, estratti a caso 10 pezzi, uno sia difettoso.

27.17

Quadro riassuntivoAbbiamo visto

• caso discreto

– uniforme

– binomiale

– ipergeometrica

– Poisson

• caso continuo

– normale o gaussiana

– esponenziale negativa

– gamma

Si ricordi che al simbolo X corrispondono:

• nel caso discretovalori xi e probabilità pi (distribuzione)

• nel caso continuosupporto S e densità f (x) (x ∈ S)

27.18

3 Media e varianza di variabile casuale

• caso discretoM(X) = ∑

ixi pi = µ

Var(X) = ∑i(xi−µ)2 pi = σ

2

• caso continuoM(X) =

∫ +∞

−∞

x f (x)dx = µ

Var(X) =∫ +∞

−∞

(x−µ)2 f (x)dx = σ2

377

Page 379: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

27.19

X parametri M(X) Var(X)

uniforme n n+12

n2−112

binomiale n, p np np(1− p)

ipergeometrica n, p = MN np np(1− p)N−n

N−1

normale µ,σ2 µ σ2

Poisson λ λ λ

esponenziale negativa λ1λ

1λ 2

gamma α,λ α

λ

α

λ 2

27.20

3.1 Esercizi

Esercizio 4 (T 156, 13.09.1997, 5). Sia X una variabile casuale Binomiale; sapendo cheil suo valore atteso e la varianza assumono valori rispettivamente uguali a 2 e 1.2:

1. individuare n (numero di prove indipendenti) e p (probabilità del singolo successo);2. calcolare la probabilità che X assuma valori maggiori o uguali a 4.

27.21

Esercizio 5 (T 216, 04.02.2005, 6). Si consideri l’esperimento di estrazione, con ripe-tizione, di n palline da un’urna contenente palline rosse e bianche in proporzione p e(1− p).Sia X la v.c. n di palline rosse estratte e Y n di bianche.

1. Sapendo che M(X) = 3 e M(Y ) = 1, determinare n e calcolare P(X > 2).2. Nel caso di 100 estrazioni con reimmissione dalla stessa urna, calcolare P(X > 70).

27.22

4 Schema interpretativo v.c. normale

Teorema 6 (del limite centrale). Sia

Xn = µ +E1 +E2 + . . .+En

con• En= successione di v.c. indipendenti• M(Ei) = 0 (tipico della variabilità accidentale)• Var(Ei) = σ2

i (finita)Sotto ulteriori condizioni sui momenti terzi, posto

Zn =Xn−µ√

σ21 + . . .+σ2

n

vale

limn→∞

P(Zn ≤ w) =∫ w

−∞

1√2π

exp(−1

2z2)

dz = Φ(w).

La somma di v.c. indipendenti converge a una variabile casuale normale.

378

Page 380: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

27.23Si pensi, ad esempio, a un fenomeno aleatorio le cui manifestazioni sono caratterizzate da

• livello deterministico µ

• svariate perturbazioni accidentali indipendenti che agiscono in maniera additiva27.24

5 Approssimazione della variabile casuale binomialecon la normale

Teorema 7 (Approssimazione della variabile casuale binomiale con la normale). Essendola variabile casuale Bin(n, p) somma di v.c. Bin(1, p), allora

P(X ≤ x) = ∑i≤x

(ni

)piqn−i ∼= Φ

(x+0.5−np√

npq

), per n→ ∞

dove

• q = 1− p• Φ(·) = funzione di ripartizione di Z ∼ N(0,1) normale standardizzata.

La variabile casuale X ∼ Bin(n, p) è, quindi, approssimata da una normale con mediaµ = np e varianza σ2 = np(1− p).

27.25

OsservazioneSi ha una buona approssimazione se valgono le seguenti condizioni:

np > 5n(1− p)> 5

ovvero p > 0p < 1n 0

OsservazioneLo 0.5 nella formula consente di migliorare l’approssimazione quando n non è troppoelevato (non utilizzato nelle applicazioni pratiche).

27.26

379

Page 381: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

n =

10,

p =

0.5

0 5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

x

n =

20,

p =

0.5

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

x

n =

40,

p =

0.5

0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

x

n =

100

, p

= 0

.5

27.27

380

Page 382: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

n =

10,

p =

0.2

5

0 5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

x

n =

20,

p =

0.2

5

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

x

n =

40,

p =

0.2

5

0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

x

n =

100

, p

= 0

.25

27.28

5.1 Esercizi

Esercizio 8 (T 212, 15.07.2004, 3). Si supponga di effettuare 5 estrazioni con reimmis-sione da un’urna che contiene palline bianche e rosse in proporzione p e 1− p.Indicata con X la variabile casuale: n di palline bianche estratte nelle 5 prove,

1. si descriva la natura della variabile casuale X , indicando valori e distribuzione diprobabilità;

2. sapendo che P(X ≤ 4) = 0.99968 si determini il valore di p e si calcolino media evarianza di X ;

3. con riferimento alla medesima urna si supponga di effettuare n= 100 estrazioni conreimmissione; si descriva la natura della variabile casuale Y : n di palline biancheestratte nelle 100 prove e si calcoli la probabilità di ottenere almeno 10 pallinebianche.

27.29

Esercizio 9 (T 207, 15.01.2004, 5). Due dadi vengono truccati in modo che non sipresentino mai la faccia 2 del primo e la 4 del secondo.

1. Calcolare la probabilità che su 5 lanci l’evento A = ’somma dei valori ≥ 9’ sipresenti almeno 2 volte.

2. Calcolare la probabilità che su 100 lanci l’evento A si presenti almeno 30 volte.27.30

381

Page 383: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 10 (T 245, 04.09.2008, 4). Si faccia riferimento a una slot-machine dotata di 3finestrelle, all’interno delle quali si possono presentare, a ogni lancio, i numeri da 0 a 9,in maniera casuale e indipendente.

1. Calcolare la probabilità che si presentino 3 numeri uguali.2. Calcolare la probabilità che escano tutti pari.3. Eseguendo 101 lanci, calcolare la probabilità che almeno 20 presentino tutti numeri

pari. -27.31

6 Esercizi

Esercizio 11 (T 239, 10.01.2008, 6). Uno studente deve superare un esame con 10 do-mande a risposta multipla, di uguale difficoltà, per le quali gli eventi ’fornire rispostaesatta’ sono indipendenti e hanno probabilità pari a p.

1. Sapendo che la probabilità di rispondere correttamente a tutte le 10 domande è0.001, si ricavi il valore di p.

2. Se l’esame contenesse 100 domande, quale sarebbe la probabilità di risponderecorrettamente a non più di 51 domande? -

27.32

Esercizio 12 (T 240, 31.01.2008, 5). Un gioco a premi viene organizzato nel seguentemodo: il concorrente lancia 2 dadi e se il prodotto dei numeri presenti sulle due facce èsuperiore a 10 vince un premio.

1. Calcolare la probabilità che su 3 lanci un concorrente vinca 1 premio.2. Calcolare la probabilità che su 3 lanci vinca il premio solo al 3 tentativo.3. Calcolare la probabilità che su 99 lanci vinca almeno 42 volte. -

27.33

Esercizio 13 (T 241, 14.02.2008, 5). In una lotteria si vince il premio a (evento A) conprobabilità pari a 0.13 e il premio b (evento B) con probabilità pari a 0.15. Sapendo chela probabilità complessiva di vincere o uno o l’altro dei due premi è 0.20:

1. si rappresentino in un diagramma di Venn gli eventi sopra indicati;2. si calcoli la probabilità di vincere entrambi i premi;3. si dica giustificando la risposta se gli eventi A e B sono indipendenti. -

27.34

Esercizio 14 (T 242, 05.06.2008, 4). Siano A, B e C tre eventi caratterizzati da probabilitàP(A) = 0.2, P(B) = 0.5, P(C) = 0.8, P(A|B) = 0.2 e P(A|C) = 0.Si dica, giustificando la risposta se:

1. A e B sono indipendenti;2. A e C sono indipendenti;3. si rappresentino in un diagramma di Venn gli eventi A, B, C e si calcoli P(A∪B).

-27.35

Esercizio 15 (T 243, 19.06.2008, 3). Da un’urna, che contiene 10 palline nere e 6 rossee 14 blu, si estraggono 3 palline.

1. Si calcoli la probabilità che 2 delle palline estratte siano nere nell’ipotesi di estra-zione senza reimmissione.

2. Si calcoli la probabilità che 2 delle palline estratte siano nere nell’ipotesi di estra-zione con reimmissione.

3. Si calcoli la probabilità di ottenere 3 palline dello stesso colore nell’ipotesi diestrazione con reimmissione.

382

Page 384: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4. Effettuando 90 estrazioni con reimmissione si calcoli la probabilità di ottenerealmeno 32 palline nere. -

27.36

Esercizio 16 (T 244, 03.07.2008, 5). A un’uscita autostradale ci sono 3 caselli, il primocon pagamento con contanti, il secondo con pagamento con carta, il terzo con pagamentoTelepass. Le probabilità di chiudere le 3 procedure di pagamento in meno di 25 secondisono rispettivamente 0.2, 0.5 e 0.8. Sappiamo che il 51% degli automobilisti paga incontanti, il 20% con carta e il restante con Telepass.

1. Calcolare la probabilità di eseguire la procedura in meno di 25 secondi.2. Sapendo che un automobilista ha impiegato più di 25 secondi, calcolare la probabi-

lità che abbia utilizzato la carta. -27.37

Esercizio 17 (T 246, 18.09.2008, 5). Siano A e B due eventi disgiunti, tali che P(A) =0.15 e P(B) = 0.4. Indicando con C = A∪B, calcolare:

1. P(C);2. P(A|C).3. Dire perché A e C non sono indipendenti. -

27.38

Esercizio 18 (T 247, 09.01.2009, 3). Siano A, B e C tre eventi caratterizzati da: P(A) =0.5, P(B) = 0.22, P(C) = 0.5, P(A|B) = 1, P(A|C) = 0.

1. Si rappresentino in un diagramma di Venn gli eventi A, B, C e si indichi se (giusti-ficando la risposta) A, B e C costituiscono una partizione dello spazio campionarioΩ.

2. Si calcoli la probabilità di ottenere 2 successi in 10 prove indipendenti essendo 0.22la probabilità di successo nella singola prova.

3. Si calcoli la probabilità di ottenere almeno 21 successi in 100 prove indipendentiessendo 0.22 la probabilità di successo nella singola prova. -

27.39

Esercizio 19 (T 248, 29.01.2009, 5). Si considerino due urne, indicate con U1 e U2.L’urna U1 contiene 14 palline rosse e 6 palline blu; l’urna U2 contiene 48 palline rosse e12 palline blu. Si estraggono 3 palline da ciascuna urna.

1. Nell’ipotesi di estrazioni senza reimmissione si calcoli la probabilità che le 3 pallineestratte dall’urna U1 siano blu e le altre di colore qualsiasi.

2. Nell’ipotesi di estrazioni con reimmissione si calcoli la probabilità che 2 delle 6palline estratte siano blu. -

27.40

Esercizio 20 (T 249, 12.02.2009, 4). Due dadi vengono truccati in modo che non sipresentino mai le facce 1 e 2 del primo e la 4 del secondo.

1. Si calcoli la probabilità dell’evento A = ’somma dei valori ≥ 10’.2. Si calcoli la probabilità che su 11 lanci l’evento A si presenti almeno 2 volte.3. Si calcoli la probabilità che su 103 lanci l’evento A si presenti almeno 30 volte. -

27.41

Esercizio 21 (T 250, 04.06.2009, 5). Un gioco consiste nel lanciare una moneta e undado; il giocatore vince se ottiene testa (evento T ) e un punteggio del dado maggiore di 4(evento D).

1. Si calcoli P(D|T ).2. Si calcoli la probabilità di vincita.3. Si calcoli la probabilità che su 120 tentativi un giocatore vinca almeno 22 volte. -

27.42

383

Page 385: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 22 (T 251, 18.06.2009, 4). Date due differenti urne, U1 e U2, contenenti pallinenumerate da 1 a 5, un esperimento casuale consiste nell’estrarre una pallina da ciascunaurna. Sapendo che nell’urna U1 vi è una pallina per ogni numero e che la composizionedell’urna U2 è la seguente: U2 = (1,1,2,3,3,3,4,5,5,5)

1. Si costruisca la distribuzione di probabilità delle variabili X = ’risultato estrazioneurna U1’ e Y = ’risultato estrazione urna U2’.

2. Si calcoli la probabilità che la somma dei punteggi delle 2 palline estratte sia pari a3.

3. Indicati con D1 e D2 gli eventi ’estrazione di numero dispari’ rispettivamente da U1e U2, si calcolino P(D1), P(D2|D1) e P(D1∩D2).

4. Considerando ora solo l’urna U2, si calcoli la probabilità che, estraendo 100 pallinecon reinserimento, almeno 21 siano col numero 3. -

27.43

Esercizio 23 (T 252, 02.07.2009, 3). Il titolare di un’azienda conduce un’indagine suisuoi 100 dipendenti. Indicati con F l’evento ’il soggetto è fumatore’ e con S l’evento ’ilsoggetto consuma abitualmente snack’, si ha la seguente tabella a doppia entrata:

F FS 26 40S 25 9

1. Si calcoli la probabilità che, estraendo a caso un dipendente, questo: A) sia unfumatore; B) non fumi e non consumi abitualmente snack; C) fumi sapendo chenon consuma abitualmente snack.

2. Calcolare infine la probabilità che, considerati i 10 dipendenti più anziani, ci siano5 fumatori e 5 no. -

27.44

Esercizio 24 (T 253, 03.09.2009, 3). Un test è costituito da 56 domande le cui 3 possibilirisposte sono codificate con A, B e C. Se la risposta è corretta il punteggio assegnato e +1mentre se la risposta è errata il punteggio è −0.25; se invece la risposta non viene data ilpunteggio è 0. Per superare il test bisogna raggiungere il punteggio minimo di 10.

1. Dire, motivando la risposta, se risulta più conveniente tentare tutte le risposte a casoo non rispondere alle domande.

2. Supponendo ora di aver deciso di rispondere a caso a tutte le 56 domande:

• si calcoli la probabilità di rispondere correttamente ad almeno 20 domande.• si calcoli la probabilità di rispondere correttamente ad almeno 2 domande tra

le prime 6. -27.45

Esercizio 25 (T 254, 17.09.2009, 4). Esaminando i risultati raccolti attraverso un’analisicondotta sui lavoratori di una impresa milanese emerge che abitualmente il 36% degliintervistati utilizza l’auto, il 24% utilizza il treno, il 10% la metropolitana e il restanteautobus o tram. Calcolare le seguenti probabilità:

1. scegliendo a caso un intervistato, che questo usi l’auto;2. scegliendo a caso quattro diversi intervistati, che due utilizzino il treno;3. scegliendo a caso tre diversi intervistati, che almeno uno si rechi al lavoro con

autobus o tram. -27.46

Esercizio 26 (T 255, 14.01.2010, 4). È stata studiata la distribuzione teorica del tempo,in minuti, necessario per la visita di una mostra.Si assume che i tempi dei visitatori seguono una distribuzione normale, X , con media 21e varianza 2.Si calcoli, nell’ipotesi che i visitatori si comportino in maniera indipendente, la probabilitàche:

384

Page 386: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

1. la durata della visita del generico visitatore sia superiore a 20 minuti;2. su 3 visitatori la durata della visita di almeno 2 sia superiore a 20 minuti. -

27.47

Esercizio 27 (T 256, 28.01.2010, 4). Il titolare di un ristorante ha condotto un’indaginesu 50 clienti osservando che 29 di essi amano i dolci mentre 11 sono vegetariani. Sapendoche tra i vegetariani, 8 amano i dolci:

1. si rappresenti l’insieme degli intervistati attraverso un diagramma di Venn.2. Si calcoli la probabilità che un cliente non sia vegetariano.3. Si calcoli la probabilità che un cliente sia vegetariano oppure non ami i dolci.4. Si calcoli la probabilità che un cliente sia vegetariano, sapendo che lo stesso non

ama i dolci.5. Supponendo di estrarre a caso 3 diversi clienti, si calcoli la probabilità che solo uno

di essi sia vegetariano. -27.48

Esercizio 28 (T 257, 11.02.2010, 6). Una classe e composta da 11 femmine e 16 maschi,dei quali il 50% ha i capelli neri.

1. Calcolare la probabilità che, interrogando a caso 3 differenti alunni, questi sianomaschi con i capelli neri.

2. Calcolare la probabilità che, nel caso sia stato estratto un maschio, questo abbia icapelli neri.

3. Calcolare la probabilità che, estraendo ogni giorno uno studente a caso dall’e-lenco completo degli iscritti alla classe, solo al 5 giorno venga interrogata unastudentessa. -

27.49

Esercizio 29 (T 258-1, 03.06.2010, 5). È stata studiata la distribuzione teorica del tempo,in minuti, necessario per la visita di una mostra.Si assume che i tempi dei visitatori seguano la seguente variabile casuale W.

wi−1 a wi P(wi−1 <W ≥ wi)5 a 10 0.43

10 a 15 0.3115 a 20 0.1620 a 25 0.0925 a 30 0.01

1. Si calcoli il valore atteso di W ;

Si calcoli, nell’ipotesi che i visitatori si comportino in maniera indipendente, la probabilitàche:

1. la durata della visita del generico visitatore sia superiore a 20 minuti;2. su 3 visitatori, la durata della visita di 2 sia superiore a 20 minuti e di uno sia

inferiore a 15 minuti. -27.50

Esercizio 30 (T 258-2, 01.07.2010, 3). In un gioco a premi i concorrenti devono effet-tuare delle estrazioni, senza re-immissione, da un’urna contenente 13 gettoni ROSSI e17 BIANCHI. Se la prima estrazione è ROSSA il concorrente ha diritto a una ulterioreestrazione; se invece la prima è BIANCA esso ha diritto a 2 ulteriori estrazioni. Si vincese, al termine della procedura, sono stati estratti 2 gettoni ROSSI.

1. Si calcoli la probabilità di vincere.2. Nell’ipotesi che il giocatore G1 estragga il primo gettone ROSSO e il giocatore G2

BIANCO, si determini chi dei due ha più probabilità di vincere.

385

Page 387: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3. Considerando ora l’estrazione con re-immissione di n = 90 gettoni, si calcoli laprobabilità di ottenere non più di 34 gettoni ROSSI. -

27.51

Esercizio 31 (T 258-3, 15.07.2010, 4). Dall’elenco degli 80 visitatori (30 esperti e 50occasionali) si estraggano 5 nominativi senza reimmissione.Si calcoli la probabilità che:

1. tra i 5 nominativi estratti ve ne siano solo 2 esperti;2. tra i 5 nominativi estratti ve ne sia almeno 1 esperto;3. supponendo di estrarre 100 nominativi con reimmissione, vi siano almeno 36 esper-

ti. -27.52

Esercizio 32 (T 259, 02.09.2010, 4). Una societa che gestisce campi da golf effettuaun’indagine sui suoi 300 dipendenti, di cui 170 sono maschi.È emerso che 84 donne non giocano a golf, e che il 70% degli uomini gioca a golf. Sicalcoli:

1. la probabilità che scegliendo a caso un dipendente questo sia giocatore di golf;2. la probabilità che sia maschio e giocatore di golf;3. la probabilità che estraendone in blocco 10, la metà di questi siano femmine gioca-

trici di golf. -27.53

Esercizio 33 (T 260, 16.09.2010, 4). Sapendo che P(A) = 0.6, P(A−B) = 0.33, P(A∩C) = 0.2, P(B∩C) = 0:

1. calcolare P(A∩B), P(C|A) e P(A−C);2. dire se B e C possono ritenersi stocasticamente indipendenti;3. calcolare la probabilità di ottenere meno di 20 successi in 51 lanci indipendenti,

sapendo che la probabilità di successo è p = 0.333. -27.54

Esercizio 34 (T 261, 13.01.2011, 4). L’ufficio controllo qualita di una data azienda rilevache la probabilità che un pezzo prodotto su una determinata linea sia difettoso è pari a0.1875. Si indichi con X la variabile casuale ’numero di pezzi difettosi rilevati in 10estrazioni indipendenti’.

1. Si determini la probabilità che su 10 pezzi estratti a caso se ne presentino al massi-mo 2 difettosi.

2. Supponendo che i pezzi estratti siano 120, si calcoli la probabilità di trovare menodi 25 pezzi difettosi. -

27.55

Esercizio 35 (T 262, 03.02.2011, 5). Sapendo che i tre eventi A, B, C costituiscono unapartizione dello spazio probabilistico Ω, che P(A) = 0.25 e che P(B) è il doppio di P(C),si calcoli:

1. P(A∩B)2. P(B−C)3. P(A∪Ω)4. Si ipotizzi che P(A) sia la probabilità di vincere un premio a un gioco: ripetendo il

gioco 105 volte qual è la probabilità di vincere al massimo 30 volte? -27.56

Esercizio 36 (T 263, 17.02.2011, 5). L’urna U1 contiene 10 palline bianche e 40 pallinerosse. L’urna U2 contiene 14 palline bianche, 20 rosse e 15 nere.

1. Si calcoli la probabilità che estraendo senza reimmissione 5 palline dall’urna U1 cene siano almeno 4 rosse.

386

Page 388: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2. Si estragga una pallina dall’urna U1 e la si metta nell’urna U2. Si calcoli la proba-bilità che estraendo con reimmissione 5 palline dall’urna U2 si ottengano 2 pallinebianche. -

27.57

Esercizio 37 (T 264-1, 09.06.2011, 6). Si considerino gli eventi A e B. Sapendo cheP(B|A) = 0.8 e che P(A∩B) = 0.2:

1. si calcoli P(A) e si indichi l’intervallo dei valori che puo assumere P(B).2. La probabilità di rispondere correttamente a un certo test è pari a 0.82. Con-

siderando le ripetizioni del test eventi indipendenti, si calcoli la probabilità chereplicandolo 6 volte lo si superi almeno 5 volte. -

27.58

Esercizio 38 (T 264-2, 23.06.2011, 5). Si consideri l’esperimento di lancio di due moneteregolari.

1. Si costruisca lo spazio degli eventi elementari.2. Si determini la probabilità che in almeno 2 su 7 prove si ottenga la stessa faccia in

entrambe le monete.3. Supponendo ora che le prove siano 50, determinare la probabilità che in almeno 30

si ottenga la stessa faccia in entrambe le monete. -27.59

Esercizio 39 (T 264-3, 07.07.2011, 5). Un’urna contiene 14 palline bianche e 36 pallinerosse.

1. Si calcoli la probabilità che estraendo senza reimmissione 7 palline dall’urna ce nesiano almeno 5 rosse.

2. Si calcoli la probabilità che estraendo con reimmissione 500 palline dall’urna siottengano almeno 127 palline bianche. -

27.60

Esercizio 40 (T 265, 08.09.2011, 5). Un gioco consiste nel lanciare 1 dado equilibrato e,subito dopo, una moneta equilibrata, tante volte quante il risultato ottenuto nel dado.

1. Si calcoli la probabilità dell’evento A = numero teste = 4.2. Si calcoli la probabilità che, eseguendo il gioco 100 volte, l’evento A si presenti

almeno 6 volte. -27.61

Esercizio 41 (T 265-1, 22.09.2011, 5). Un urna contiene 20 palline bianche e 20 pallinerosse e 10 nere.

1. Si calcoli la probabilità che estraendo senza reimmissione dall’urna 4 palline se neottengano almeno 3 rosse.

2. Si calcoli la probabilità che estraendo con reimmissione dall’urna 4 palline se neottengano 1 bianca, 2 rosse e 1 nera.

3. Si calcoli la probabilità che, estraendo con reimmissione 100 palline se ne ottenga-no almeno 40 bianche. -

27.62

Esercizio 42 (T 266, 12.01.2012, 5). Un urna contiene 2 palline bianche, 1 pallina rossae 2 nere.

1. Si calcoli la probabilità che estraendo dall’urna con reimmissione 90 palline se neottengano almeno 39 bianche.

2. Si calcoli la probabilità che estraendo senza reimmissione dall’urna 4 palline, diqueste una sola sia nera. -

27.63

387

Page 389: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Esercizio 43 (T 267, 26.01.2012, 6). Due dadi vengono truccati, in modo tale che in unocompaiano solo i numeri pari e nell’altro solo dispari.

1. Si calcoli la probabilità che, in un generico lancio, la somma dei risultati sia ≥ 8(evento A).

2. Si calcoli la probabilità condizionata che, essendo uscito 5 in uno dei due dadi,nell’altro si presenti 4.

3. Si calcoli la probabilità che su 90 lanci l’evento A (somma ≥ 8) si presenti almeno24 volte. -

27.64

Esercizio 44 (T 268, 09.02.2012, 5). Gli eventi A, B, C e D costituiscono una partizionedello spazio campionario, inoltre: P(A) = 0.4, P(B) è 4 volte P(D) e P(Ω∩C) = 0.2.

1. Si calcolino P(D), P(D|A) e P(B−C)2. Si stabilisca se A e D sono tra loro indipendenti.3. Si consideri un’urna contenente N = 35 palline, di cui alcune bianche e le altre

nere. Si calcoli la probabilità che su 4 estrazioni senza ripetizione si ottenga alme-no 1 pallina nera, sapendo che la probabilità di estrarre una pallina nera al primotentativo e pari a P(C). -

27.65

Esercizio 45 (T 269-1, 07.06.2012, 5). Si consideri l’esperimento di estrazione con reim-missione di 10 palline da un’urna contenente 10 palline rosse, 23 palline bianche e 17palline nere.

1. Si definisca la natura della variabile casuale X = ’numero di palline rosse estratte’.2. Si calcoli la probabilità di ottenere almeno 8 palline bianche nelle 10 estrazioni.3. Si consideri l’esperimento di estrazione con reimmissione di 100 palline dalla me-

desima urna; si calcoli la probabilità di ottenere almeno 23 palline rosse. -27.66

Esercizio 46 (T 269-2, 28.06.2012, 5). In un dado perfettamente bilanciato le sei faccesono colorate nel seguente modo: 2 blu e 4 rosse.

1. Il dado viene lanciato due volte: un giocatore perde 3 euro se i due lanci danno luo-go a un colore diverso e vince 5 euro se danno luogo allo stesso colore. Si forniscala distribuzione della variabile casuale X che descrive la vincita del giocatore e sicalcoli la vincita media attesa.

2. Si supponga di lanciare 70 volte il dado sopra descritto; calcolare la probabilità diottenere almeno 47 volte il colore rosso. -

27.67

Esercizio 47 (T 269-3, 12.07.2012, 5). Si consideri il seguente gioco: si estraggonosenza reimmissione 4 palline da un’urna contenente 18 palline bianche e 22 palline nere;pagando una posta di 1e si vincono 4e se il numero di palline bianche estratte è superiorea quello delle palline nere.

1. Si calcoli la probabilità di ottenere 4 palline bianche nelle 4 estrazioni.2. Si costruisca la variabile casuale X = ’guadagno del giocatore’.3. Si stabilisca se il gioco in oggetto è equo. -

27.68

Esercizio 48 (T 270, 06.09.2012, 4). Un gioco consiste nel lanciare 4 volte una monetaregolare scommettendo, a ogni lancio, 1e sull’evento Testa.

1. Si stabilisca se il gioco in oggetto è equo.2. dopo i primi 4 lanci ci si ritrovi esattamente con ancora 100 euro;3. dopo i primi 4 lanci il proprio capitale sia superiore ai 100 euro iniziali;4. Calcolare la probabilità che in 50 lanci si siano ottenuti almeno 26 eventi Testa. -

388

Page 390: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

27.69

Esercizio 49 (T 270-1, 20.09.2012, 5). Si supponga di lanciare un dado regolare. Siconsideri il seguente gioco: si scommette, a ogni lancio, 1e e si vincono 2e se esce ilnumero 2 e 4e se esce il numero 4.

1. Si stabilisca se il gioco in oggetto è equo.

Calcolare la probabilità che:

1. In 3 lanci esca sempre il numero 4;2. In 90 lanci si vinca almeno 30 volte. -

27.70

Esercizio 50 (T 271, 10.01.2013, 5). Si consideri l’esperimento di estrazione di 4 pallineda un’urna contenente 21 palline rosse e 29 palline blu.

1. Si calcoli la probabilità di ottenere almeno 3 palline blu nell’ipotesi che le 4 estra-zioni siano effettuate senza reimmissione.

2. Si calcoli la probabilità di ottenere almeno 36 palline blu nell’ipotesi che sianoeffettuate 60 estrazioni con reimmissione. -

27.71

Esercizio 51 (T 272, 24.01.2013, 5). Si consideri l’esperimento di lancio di 10 moneteequilibrate e 6 dadi equilibrati.

1. Si calcoli la probabilità di ottenere 5 teste e 5 facce con numero pari.2. Ipotizzando di lanciare 100 monete e 100 dadi, si calcoli la probabilità di ottenere

almeno 50 teste e almeno 39 numeri pari. -27.72

Esercizio 52 (T 273, 07.02.2013, 5). Siano A,B,C e D quattro eventi che costituisconouna partizione dello spazio campionario, tali che P(A) = P(B) = 0.2 e P(D) = 2 ·P(C).

1. Si calcolino P(A|B), P(B∪D) e P(A∪B).2. Si dica se A e C possono ritenersi indipendenti.3. Si calcoli la probabilità di ottenere meno di 6 successi in 80 prove indipendenti con

probabilità di successo p = P(B). -27.73

Esercizio 53 (T 274-1, 06.06.2013, 5). L’urna U1 contiene 3 palline nere e 1 pallinarossa. L’urna U2 contiene 4 palline nere e 5 palline rosse.

1. Si calcoli la probabilità che estraendo con reimmissione 5 palline dall’urna U1 cene siano almeno 4 nere.

2. Si estragga una pallina dall’urna U1 e la si metta nell’urna U2. Si calcoli la pro-babilità che estraendo senza reimmissione 3 palline dall’urna U2 si ottengano 2palline nere. -

27.74

Esercizio 54 (T 274, 27.06.2013, 4). Un macchinario presenta un tasso di difettosità del6%.

1. Scelti a caso 4 pezzi (con reimmissione) dal flusso produttivo si calcoli la probabi-lità che nessuno sia difettoso.

2. Nell’ipotesi in cui siano effettuate 60 estrazioni si calcoli la probabilità che vi siaalmeno un pezzo difettoso. -

27.75

Esercizio 55 (T 274-2, 11.07.2013, 5). Per il seguente gioco è prevista una posta di 2e:si lanciano due dadi e se la somma dei numeri ottenuti è almeno pari a 9 si vincono 6e.

1. Si stabilisca se il gioco è equo.

389

Page 391: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

2. Nell’ipotesi di ripetere il gioco 5 volte si calcoli la probabilità di vincere almeno 2volte. -

27.76

Esercizio 56 (T 275, 05.09.2013, 5). Si consideri l’esperimento di estrazione di 3 pallineda un’urna contenente 16 palline rosse, 19 gialle e 5 blu.

1. Si calcoli la probabilità di estrarre zero palline rosse nell’ipotesi che le estrazionivengano fatte senza reimmissione.

2. Si consideri, ora, l’esperimento di 50 estrazioni con reinserimento. Si calcoli laprobabilità di ottenere almeno 31 palline di colore blu. -

27.77

Esercizio 57 (T 275-1, 16.09.2013, 5). Si consideri l’esperimento di estrazione di 9palline da un’urna contenente 16 palline rosse, 19 gialle e 5 blu.

1. Si calcoli la probabilità di estrarre 2 palline rosse, 1 gialla e 6 blu nell’ipotesi chele estrazioni vengano fatte senza reimmissione.

2. Si calcoli la probabilità di estrarre 3 palline rosse, 4 gialle e 2 blu nell’ipotesi chele estrazioni vengano fatte con reimmissione.

3. Si calcoli la probabilità di ottenere almeno 12 palline di colore blu in 100 estrazionicon reimmissione. -

27.78

Esercizio 58 (T 276, 16.01.2014, 5). Vengono lanciati 3 dadi regolari

1. Si calcoli la probabilità che, essendosi presentati 3 numeri uguali, questi siano inumeri da 1 a 4.

2. Si calcoli la probabilità che su 51 lanci in almeno 10 tutti e 3 i dadi presentino unnumero pari. -

27.79

Esercizio 59 (T 277, 30.01.2014, 5). Date due differenti urne, U1 e U2, contenenti palli-ne numerate, un esperimento casuale consiste nell’estrarre una pallina da ciascuna urna.Sapendo che nell’urna U1 vi sono 5 palline con numero pari (2,4,6,8,10) e che nell’urnaU2 vi sono 2 palline con il numero 1, 2 con numero 3 e 2 con il numero 5:

1. costruire la distribuzione di probabilità delle variabili casuali X = “risultato estra-zione urna U1” e Y = “risultato estrazione urna U2”;

2. calcolare P(X = 10∩Y = 1), ovvero la probabilità che sia estratto il numero10 da U1 e il numero 1 da U2;

3. calcolare la probabilità che, su 100 estrazioni con reinserimento dalla sola urna U2,almeno 21 presentino il numero 3. -

27.80

Esercizio 60 (T 278, 13.02.2014, 5). Un’urna è composta da gettoni rossi e neri in pro-porzione 0.15 e 0.85. Ogni gettone rosso reca impresso il numero 1, i neri il numero 2. Siconsideri l’esperimento casuale G3 = ’estrazione con reimmissione di 3 gettoni dall’urna’.

1. Si costruisca lo spazio probabilistico associato all’esperimento G3.2. Si costruisca la variabile casuale X = ’somma dei valori impressi sui gettoni estratti’

e si calcoli la probabilità che X assuma valori maggiori o uguali a 5.3. Si calcoli la probabilità di ottenere almeno due gettoni rossi nelle 3 estrazioni.4. Si calcoli la probabilità di ottenere non più di un gettone rosso in 26 estrazioni con

reimmissione. -27.81

390

Page 392: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Sezione ARichiami di matematica

A.1

Indice

1 La sommatoria 3911.1 Esempi e proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

2 Matrici e sommatorie doppie 392

3 I logaritmi 394

4 La funzione esponenziale 395

5 Il tasso complessivo di un investimento 396

6 La produttoria 397

7 Autoverifica nozioni di aritmetica e di algebra elementare 398

8 Autoverifica nozioni di aritmetica e di algebra elementare - Soluzioni 400 A.2

1 La sommatoria

Data una k-upla di valori x1,x2, . . . ,xk, ovvero xi, i = 1,2, . . . ,k è possibile esprimere’in forma compatta’ la somma degli elementi come segue:

k

∑i=1

xi = x1 + x2 + . . .+ xk (1)

A.3

1.1 Esempi e proprietà

• Si supponga che k = 3 e siano: x1 = 1,x2 = 2,x3 = 3

x1 + x2 + x3 = 1+2+3 = 6

• Se c è una costante arbitraria:

k

∑i=1

cxi = ck

∑i=1

xi

(proprietà distributiva del prodotto rispetto alla somma)

391

Page 393: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

se, ad esempio, c = 2, con riferimento alla terna 1,2,3 vale:

2 ·1+2 ·2+2 ·3 = 2+4+6 = 1212 = 2 ·6 = 2 · (1+2+3) = 2+4+6 = 12

A.4

• Se w è un valore intero: 1≤ w≤ k, la sommatoria (1) può essere scomposta comesegue:

k

∑i=1

xi =w

∑i=1

xi +k

∑i=w+1

xi

inoltre:k

∑i=1

c = k · c = kc,k

∑i=1

y j = ky j

A.5

2 Matrici e sommatorie doppie

Si consideri la seguente matrice:

a11 a12 a13a21 a22 a23a31 a32 a33

i indice di rigaj indice di colonna

Si utilizzi la sommatoria per ottenere il totale degli elementi:

• sulla prima riga3

∑j=1

a1 j = a11 +a12 +a13

• sulla terza colonna3

∑i=1

ai3 = a13 +a23 +a33

• sulla diagonale principale

3

∑i=1

aii = a11 +a22 +a33

A.6Vengono riportati degli esempi di utilizzo del simbolo di sommatoria doppia per scriverein maniera compatta la somma dei simboli che figurano nei riquadri

a11 a12 a13a21 a22 a23a31 a32 a33

3

∑i=1

2

∑j=1

ai j =3

∑i=1

(ai1 +ai2) =

= (a11 +a12)+(a21 +a22)+(a31 +a32) =

= (a11 +a21 +a31)+(a12 +a22 +a32) =2

∑j=1

3

∑i=1

ai j

A.7

392

Page 394: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

a11 a12 a13a21 a22 a23a31 a32 a33

3

∑i=1

i

∑j=1

ai j =3

∑i=1

(ai1 +ai2 + . . .+aii) =

= a11 +(a21 +a22)+(a31 +a32 +a33)

3

∑j=1

3

∑i= j

ai j =3

∑j=1

(a j j +a j j+1 + . . .+a j3) =

= (a11 +a21 +a31)+(a22 +a32)+(a33)

A.8

a11 a12 a13a21 a22 a23a31 a32 a33

3

∑i=1

3

∑j=i

ai j =3

∑i=1

(aii +ai i+1 + . . .+ai3) =

= (a11 +a12 +a13)+(a22 +a23)+a33

3

∑j=1

j

∑i=1

ai j =3

∑j=1

(a1 j +a2 j + . . .+a j j) =

= a11 +(a12 +a22)+(a13 +a23 +a33)

A.9

393

Page 395: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

3 I logaritmi

loga x = c, dove x > 0, a > 0, a 6= 1a: base del logaritmox: argomento della funzione logac: esponente da assegnare alla base a per ottenere l’argomento x:

ac = x

x

0 1 2 3 4 5

−10

−9

−8

−7

−6

−5

−4

−3

−2

−1

01

23

x

0 1 2 3 4 5

−3

−2

−1

01

23

45

67

89

10

a > 1 a < 1

A.10

Valori della base solitamente utilizzati:

a = 10, a = e = 2.71828

Notazioni: log10 x = Logx, loge x = lnxNel seguito si utilizzeranno i logaritmi in base e

Proprietà dei Logaritmi

• lnxy = lnx+ lny• ln x

y = lnx− lny• lnxy = y lnx• elnx = exp(lnx) = x• lne = 1• lnex = x

A.11

394

Page 396: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

4 La funzione esponenziale

ax, x ∈ℜ, a > 0a: base della funzione esponenzialex: argomento della funzione esponenziale

x

−5 −4 −3 −2 −1 0 1 2 3 4 5

02

46

810

1214

1618

2022

2426

2830

x

−5 −4 −3 −2 −1 0 1 2 3 4 5

02

46

810

1214

1618

2022

2426

2830

a > 1 a < 1

A.12

Valore della base solitamente utilizzato:

a = e = 2.71828

ex = exp(x)

Proprietà della funzione esponenziale

• ex · ey = ex+y

• ex

ey = ex−y

• (eb)c = ebc= ebc

• attenzione: e(bc) 6= ebc

• e0 = 1• lnex = x• lne = 1• elnx = x

A.13

395

Page 397: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

5 Il tasso complessivo di un investimento

Se investo al tempo 0 una somma pari a C

Richiami di Matematica

TASSO COMPLESSIVO DI INVESTIMENTO Se investo al tempo 0 una somma pari a C C 5% 8% 2% 10% M 0 1 2 3 4 alla fine del primo anno il deposito ammonterà a: C (1 + 0.05) alla fine del secondo anno il deposito ammonterà a: C (1 + 0.05) (1 + 0.08) alla fine del terzo anno il deposito ammonterà a: C (1 + 0.05) (1 + 0.08) (1 + 0.02) e alla fine del quarto anno il deposito ammonterà a: C (1 + 0.05) (1 + 0.08) (1 + 0.02) (1 + 0.10) = M

j ij xj = 1 + ij 1 0.05 1.05 2 0.08 1.08 3 0.02 1.02 4 0.10 1.10

La relazione che intercorre tra C, capitale iniziale, ed M, montante finale, è la seguente:

M = C ∏j=1

4

(1 + ij) = C ∏j=1

4

xj = C ⋅ 1.27234.

alla fine del primo anno il deposito ammonterà a:

C · (1+0.05)

alla fine del secondo anno il deposito ammonterà a:

C · (1+0.05) · (1+0.08)

alla fine del terzo anno il deposito ammonterà a:

C · (1+0.05) · (1+0.08) · (1+0.02)

e alla fine del quarto anno il deposito ammonterà a:

C · (1+0.05) · (1+0.08) · (1+0.02) · (1+0.10) = M

A.14

j i j x j = 1+ i j1 0.05 1.052 0.08 1.083 0.02 1.024 0.10 1.10

La relazione che intercorre tra C, capitale iniziale, ed M, montante finale, è la seguente:

M =C4

∏j=1

(1+ i j) =C4

∏j=1

x j =C ·1.27234.

A.15

396

Page 398: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6 La produttoria

Data una k-upla di valori (x1,x2, . . . ,xk), ovvero (xi, i = 1,2, . . . ,k)

k

∏i=1

xi = x1 · x2 · . . . · xk

se c è una costante arbitraria:

k

∏i=1

c = c · c · . . . · ck volte

= ck quindik

∏i=1

y j = ykj

k

∏i=1

(cxi) = ckk

∏i=1

xi

A.16

Relazione con i logaritmi

ln

(k

∏i=1

xi

)= ln(x1 · x2 · . . . · xk) =

= lnx1 + lnx2 + . . .+ lnxk =k

∑i=1

lnxi

Esercizio 1. Dimostrare la seguente eguaglianza

ln

(k

∏i=1

x fii

)=

k

∑i=1

ln(xi) · f i

A.17

397

Page 399: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

7 Autoverifica nozioni di aritmetica e di algebra ele-mentare

1. Indicate il ’dominio’ di ciascuna delle seguenti variabili e stabilite se sono continueo discrete:

(a) somma S dei punti ottenuti nel lancio di due dadi,

(b) diametro D di una sfera,

(c) numero N di individui in una famiglia,

(d) altezza H di un coscritto alla leva,A.18

2. Arrotondate il numero 46.7385:

(a) alla decina più prossima,

(b) al terzo decimale,

(c) all’unità più prossima.A.19

3. Dite il numero di cifre significative e indicate l’intervallo dei possibili valori cheportano alle seguenti misurazioni:

(a) velocità di 119 km/h,

(b) altezza di 1.76 m.A.20

4. Esprimete ciascun numero senza usare le potenze di dieci:

(a) 2.8 ·106,

(b) 0.000185 ·105.A.21

5. Eseguite le operazioni indicate, arrotondando il risultato con tante cifre decimalitali da garantire almeno 4 cifre significative:

(a) 22.58 ·5.16,

(b) 5.78 ·2700 ·16.00,

(c) (416.00 ·0.00019)/√

73.84.A.22

6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, conquattro cifre significative:

(a) 4U−6V −2Z,

(b)√

U2−2UV +Z2,

(c) (U−V )/√

U2 +V 2,

(d) 3(U−V )2 +Z.A.23

7. Localizzate su un sistema di coordinate cartesiane i punti di coordinate:

(a) A = (0,1),B = (1,3),C = (2,3),D = (3,1),

(b) P = (X ,Y ) con X =−2,−1,0,1,2,3 e Y = |X |,(c) P = (X ,Y ) con X =−2,−1,0,1,2,3 e Y = 10−2X ,

(d) P = (X ,Y ) con X =−2,−1,0,1,2,3 e Y = 2+X2,A.24

8. Risolvete le seguenti equazioni (e sistemi):

398

Page 400: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

(a) 16−5c = 36,

(b) 2(12+ y)/3 = 6− (9− y)/2,

(c) 3x2 +2x−1 = 0,

(d) 2a+b = 10; 7a−3b = 9.A.25

9. Usate i simboli di diseguaglianza per esprimere le seguenti proposizioni:

(a) il numero N di bambini è compreso fra 30 e 50, estremi compresi,

(b) la somma S dei punteggi D1 e D2 di due dadi è non minore di sette,

(c) X è maggiore o uguale a −4 e minore di 3,

(d) X è superiore a Y per più di due.A.26

10. Risolvete le seguenti diseguaglianze:

(a) 3x≥ 12,

(b) −3≤ (2x+1)/5 < 3,

(c) |x| ≤ 3.A.27

11. Calcolate le seguenti espressioni:

(a) y = 3 · x10, lny = . . .,

(b) y = 10/x, lny = . . ..A.28

399

Page 401: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8 Autoverifica nozioni di aritmetica e di algebra ele-mentare - Soluzioni

1. Indicate il ’dominio’ di ciascuna delle seguenti variabili e stabilite se sono continueo discrete:

(a) somma S dei punti ottenuti nel lancio di due dadi,2,3, . . . ,12 (discreta)

(b) diametro D di una sfera,(0,∞) (continua)

(c) numero N di individui in una famiglia,1,2, . . . ,nmax (discreta)

(d) altezza H di un coscritto alla leva,[amin,amax] (continua)

A.29

2. Arrotondate il numero 46.7385:

(a) alla decina più prossima,50

(b) al terzo decimale,46.739

(c) all’unità più prossima.47

A.30

3. Dite il numero di cifre significative e indicate l’intervallo dei possibili valori cheportano alle seguenti misurazioni:

(a) velocità di 119 km/h,3 [118.5,119.5)

(b) altezza di 1.76 m.3 [1.755,1.765)

A.31

4. Esprimete ciascun numero senza usare le potenze di dieci:

(a) 2.8 ·106,2 800 000

(b) 0.000185 ·105.18.5

A.32

5. Eseguite le operazioni indicate, arrotondando il risultato con tante cifre decimalitali da garantire almeno 4 cifre significative:

(a) 22.58 ·5.16,116.5128

(b) 5.78 ·2700 ·16.00,249696

(c) (416.00 ·0.00019)/√

73.84.0.009198

A.33

400

Page 402: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, conquattro cifre significative:

(a) 4U−6V −2Z,−11.33

(b)√

U2−2UV +Z2,2.455

(c) (U−V )/√

U2 +V 2,−1.213

(d) 3(U−V )2 +Z.18.92

A.34

6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, conalmeno quattro cifre significative:

(a) 4U−6V −2Z,−11.3333

(b)√

U2−2UV +Z2,2.4552

(c) (U−V )/√

U2 +V 2,−1.2127

(d) 3(U−V )2 +Z.18.9167

A.35

7. Localizzate su un sistema di coordinate cartesiane i punti di coordinate:

(a) A = (0,1),B = (1,3),C = (2,3),D = (3,1),

x

−1 0 1 2 3 4

01

23

45

A

B C

D

A.36

401

Page 403: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

(b) P = (X ,Y ) con X =−2,−1,0,1,2,3 e Y = |X |,

x

−3 −2 −1 0 1 2 3 4

01

23

A.37

(c) P = (X ,Y ) con X =−2,−1,0,1,2,3 e Y = 10−2X ,

x

−3 −2 −1 0 1 2 3 4

−2

−1

01

23

45

67

89

1011

1213

1415

A.38

(d) P = (X ,Y ) con X =−2,−1,0,1,2,3 e Y = 2+X2,

x

−3 −2 −1 0 1 2 3 4

−1

01

23

45

67

89

1011

12

A.39

402

Page 404: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

8. Risolvete le seguenti equazioni (e sistemi):

(a) 16−5c = 36,c =−4

(b) 2(12+ y)/3 = 6− (9− y)/2,y =−39

(c) 3x2 +2x−1 = 0,x = −1,1/3

(d) 2a+b = 10; 7a−3b = 9.a = 3,b = 4

A.40

9. Usate i simboli di diseguaglianza per esprimere le seguenti proposizioni:

(a) il numero N di bambini è compreso fra 30 e 50, estremi compresi,30≤ N ≤ 50 (intero)

(b) la somma S dei punteggi D1 e D2 di due dadi è non minore di sette,S≥ 7 oppure D1 +D2 ≥ 7

(c) X è maggiore o uguale a −4 e minore di 3,−4≤ X < 3

(d) X è superiore a Y per più di due.X > Y +2

A.41

10. Risolvete le seguenti diseguaglianze:

(a) 3x≥ 12,x≥ 4

(b) −3≤ (2x+1)/5 < 3,−8≤ x < 7

(c) |x| ≤ 3.−3≤ x≤ 3

A.42

11. Calcolate le seguenti espressioni:

(a) y = 3 · x10, lny = . . .,lny = ln3+10lnx

(b) y = 10/x, lny = . . ..lny = ln10− lnx

A.43

403

Page 405: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici
Page 406: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

Riferimenti bibliografici

[1] Bertoli Barsotti L. 1998 Probabilità: aspetti storici ed assiomatizzazione, Dirittoallo Studio Universitario, Università Cattolica del Sacro Cuore, Milano.

[2] Bonanomi A., Cantaluppi G. 2012 Measurement scales, in R. Kenett S. Salini,Modern Analysis of Customer Surveys: with applications using R, John Wiley,Chicester.

[3] Borra S., Di Ciaccio A. 2008 Statistica. Metodologie per le scienze economiche esociali, Seconda edizione. Mc-Graw-Hill, Milano.

[4] Cantaluppi G., Bianchi B., Piraina D., La Placa F. 2011 A Structural Equation Mo-del Proposal for evaluating Visitor Satisfaction at an Exhibition, Innovation andSociety. Statistical methods for service evaluation, 30 May - 1 June 2011, Florence- Book of Abstracts, Facoltà di Economia, Università degli Studi di Firenze p. 52.

[5] Cicchitelli G. 2012 Statistica: principi e metodi, Pearson Education, Milano.[6] Frosini B.V. 1990 Lezioni di Statistica. Parte prima, Vita e Pensiero, Milano.[7] Frosini B.V. 2009 Metodi statistici: teoria e applicazioni economiche e sociali,

Carocci, Roma.[8] Greenacre M. 2007 Correspondence analysis in practice, Chapman & Hall, Bocan

Raton, Fla.[9] Guseo R. 2006 Statistica, Terza edizione, CEDAM, Padova.

[10] Landenna G. 1994 Fondamenti di statistica descrittiva, Il Mulino, Bologna.[11] Landenna G. 1997 Introduzione alla probabilità e all’inferenza statistica, Il Mulino,

Bologna.[12] Landenna G., Marasini D., Ferrari P. 1997 Probabilità e variabili casuali, Il Mulino,

Bologna.[13] Magagnoli U. 1993 Elementi di statistica descrittiva, CLUEB, Bologna.[14] Magagnoli U. 2010 Lezioni di statistica e calcolo delle probabilità,

http://www.unife.it/scienze/lm.matematica/insegnamenti/statistica-1/materiale-didattico/LEZIONI%20DI%20STATISTICA%20-%20Parte%20I.pdf.

[15] Montinaro M., Nicolini G. 2007 Elementi di statistica descrittiva, UTET, Torino.[16] Pasetti P. 2002 Statistica del Turismo, Carocci, Roma.[17] Piccolo D. 2010 Statistica, Il Mulino, Bologna.[18] Predetti A. 2002 I Numeri Indici - teoria e pratica. Giuffré editore, Milano.[19] Santamaria L. 2006 Statistica descrittiva: applicazioni di carattere economico e

aziendale, Vita e Pensiero, Milano.[20] Verbeek M. 2008 A Guide to Modern Econometrics, John Wiley, New York.[21] Zanella A. 1992 Lezioni di Statistica. Parte seconda. Strutture dei dati in due o più

dimensioni. La connessione, Vita e Pensiero, Milano.[22] Zanella A. 2003 Elementi di statistica descrittiva. Una presentazione sintetica,

CUSL, Milano.[23] Zani S. 1997 Analisi dei dati statistici. Voll. I,II. Giuffré editore, Milano.[24] Zenga M. 1998 Introduzione alla statistica descrittiva, Vita e Pensiero, Milano.[25] Zenga M. 2009 Lezioni di statistica descrittiva, Giappichelli, Torino. B.1

405

Page 407: GIUSEPPE BOARI - GABRIELE CANTALUPPI · La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici

EDUCatt - Ente per il Diritto allo Studio Universitario dell’Università CattolicaLargo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215

e-mail: [email protected] (produzione); [email protected] (distribuzione)web: www.educatt.it/libri