Post on 16-Feb-2019
5‐04‐2014
1
Abbiamo introdotto alcuni indici statistici (di posizione, di variabilità e di forma) ottenibili da Excel con la funzione Riepilogo Statistiche
Facciamo qualche precisazione
Al fine della partecipazione ad un concorso di bellezza, alle 120 aspiranti miss viene chiesto il colore dei capelli, ottenendo la tabella seguente
Colore dei capelli Numero di aspiranti miss
Castano 50
Moro 45
Biondo 19
Rosso 6
Calcolare la moda e rappresentare graficamente la distribuzione
5‐04‐2014
2
Si considera un carattere qualitativo di cui non si dispongono delle osservazioni individuali (ricordate l’esempio dei luoghi di vacanza?)
In questo caso, la moda è la modalità del carattere con la più alta frequenza assoluta o, equivalentemente, quello con la più alta frequenza relativa (questo servirà per il grafico).
1) inserite i dati in una tabella 2) Calcolare le frequenze relative 3) Calcolare le percentuali (relative)
4) Per inserire il grafico (a torta), selezionare i dati (colore/numero) e inserirlo.
5‐04‐2014
3
Classe a cui corrisponde la massima densità di frequenza (numero/ampiezza)
(se le classi sono tutte di uguale ampiezza è la frequenza assoluta massima).
Esempio 2.2.2: In un collettivo di 100 ginnaste si rileva il peso in kg. ottenendo la seguente tabella
Peso 45-48 48-50 50-55 55-60
Frequenza ass. 15 30 43 12
Occorre calcolare l’ampiezza delle classi La densità si ottiene dividendo la
frequenza sull’ampiezza dell’intervallo
Si otterrà che il valore più alto corrisponde alla classe 48-50 (classe modale).
5‐04‐2014
4
In Excel la funzione MEDIANA si può usare solo per caratteri quantitativi, avendo a disposizione le osservazioni individuali.
Cosa succede se abbiamo delle distribuzioni di frequenza? L’ordinamento delle unità viene effettuato attraverso le frequenze cumulate
La seguente tabella mostra la distribuzione di 100 donne in relazione al numero di figli
N.Figli N.donne
0 14
1 45
2 28
3 8
4 5
Calcolare la mediana
5‐04‐2014
5
Le classi sono già ordinate dal valore più basso a quello più alto.
Per individuare le unità centrali, occorre calcolare le frequenze cumulate
Siccome ci sono 100 unità, occorre individuare la 50° e la 51° e vedere in quale classe ricadono (sarà la seconda).
5‐04‐2014
6
L’analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione binomiale, la distribuzione di Poisson, la distribuzione normale o Gaussiana, e altre. Scopo: Molti fenomeni sono approssimabili con esse Inferenza statistica: dai dati di un campione
verificare ipotesi sull’intera popolazione
Variabile aleatoria (o casuale): quantità il cui valore dipende dal risultato di un esperimento (ad es., “numero delle volte in cui esce testa”).
V.a. discrete = assume valori in un insieme numerabile (ad es., lancio del dado, estrazione di una pallina da un’urna)
V.a. continue= assume un’infinità non numerabile di valori (intervallo reale), ad es. durata (peso, diametro…) di un pezzo meccanico…
5‐04‐2014
7
Quando si fanno corrispondere ai valori che X può assumere i rispettivi livelli di probabilità, si ha la distribuzione di probabilità
Funzione di (massa o di) probabilità: il legame di dipendenza tra i valori che la variabile X può assumere (P(X=x)=1/2…)
Funzione di ripartizione: associa ad ogni valore x la probabilità che X assuma valori ≤ x.
Uniforme discreta (estrazione casuale di una pallina tra 1 e N, esiti di un lancio del dado)
Bernoulli (esperimento con due esiti disgiunti)
Binomiale (serie di prove di Bernoulli indipendenti con la stessa probabilità di successo
5‐04‐2014
8
E’ la distribuzione di probabilità usata quando: le prove ripetute sono indipendenti i risultati di ciascuna prova sono due la probabilità p di successo è costante
Esempi: un sondaggio in cui ogni persona può esprimere SI o NO; un test di qualità sul funzionamento di un elettrodomestico (funziona, non funziona)
Per calcolare la densità di probabilità (ossia la probabilità che una variabile assuma un certo valore) di una distribuzione binomiale, in Excel si usa la funzione
DISTRIB.BINOM(num_successi;prove;probabilità_s;cumulativo) oppure
DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo) Dove ◦ Num_successi = numero di successi in prove (x nella formula) ◦ Prove= numero di prove indipendenti (n nella formula) ◦ Probabilità_s= probabilità di successo per ciascuna prova (p nella formula) ◦ Cumulativo= valore logico che determina la forma assunta dalla funzione.
Se è VERO, DISTRIB.BINOM restituirà la funzione distribuzione cumulativa, ovvero la probabilità che venga restituito un numero di successi ≤ di num_successi:
Se è FALSO, verrà restituita la funzione massa di probabilità, ovvero la probabilità che venga restituito un numero massimo di successi = al valore di num_successi ,che è corrispondente alla densità di probabilità
5‐04‐2014
9
◦ La distribuzione binomiale permette di calcolare, per numeri n piccoli, le probabilità di avere un certo numero k di successi nelle n prove. ◦ Se abbiamo molte prove, n diventa molto grande
e trovare le probabilità dei successi k diventa difficile.
◦ Per valori alti di n il problema non è di trovare la probabilità connessa ad uno specifico numero k di successi, ma di trovare ad esempio la probabilità di trovare più o meno di k successi.
Si usa quando la probabilità di successo p è piccola, il numero n delle prove è molto elevato e il prodotto λ=np è finito. La funzione di probabilità della distribuzione di Poisson è:
In Excel POISSON(x; media; cumulativo) dove Media = λ cumulativo = valore logico. Se è VERO, restituisce la funzione di distribuzione cumulativa P(X≤x); se è FALSO P(X=x)
Provate con i dati dell’Esempio 7.5 e 7.6, p. 165 [B]
5‐04‐2014
10
A partire dall’insieme dei valori reali che X può assumere, la funzione densità di probabilità descrive come la variabile di distribuisce rispetto al supporto
Modelli probabilistici nel continuo: uniforme, normale (o gaussiana)
◦ Si ricorre alle distribuzioni NORMALE (GAUSSIANA), o di Poisson, che valgono per n molto grande. ◦ In questo caso lo scaloide della distribuzione di
probabilità binomiale, ossia l’insieme dei rettangoli che rappresentano le probabilità dei singoli k, tende a diventare un’area sottostante ad una linea continua.
5‐04‐2014
11
Per il calcolo della funzione di probabilità normale, in Excel si usa DISTRIB.NORM.N(x0;media;dev_standard;cumulativo)
Dove: x0 = valore per il quale si desidera la distribuzione media=media aritmetica della distribuzione (µ nella formula) dev_standard=deviazione standard della distribuzione (σ nella formula) Cumulativo=valore logico. Se è VERO, restituisce la funzione di distribuzione cumulativa
se è FALSO, restituisce la funzione massa di probabilità P(X= x0) (altezza della curva a campana della densità di probabilità)
Distribuzione χ2 Distribuzione t di Student Distribuzione F di Fisher (per la
regressione)
5‐04‐2014
12
E’ una distribuzione di probabilità continua, ottenuta come somma dei quadrati di n variabili casuali indipendenti, con media 0 e varianza 1
Caratteristiche: ◦ L’asimmetria ◦ La dipendenza dal parametro n ◦ La non negatività della funzione ◦ Al variare di n esistono infinite distribuzioni
In Excel si usa la funzione DISTRIB.CHI(x;gradi_libertà)
gdl=n
E’ una distribuzione di probabilità continua. Consideriamo due variabili indipendenti Z, Q, dove ◦ Z è distribuita normalmente con media 0 e varianza 1 ◦ Q è distribuita secondo un χ2 con n gradi di libertà
Si può dimostrare che la variabile casuale continua
segue una distribuzione t di Student con n gradi di libertà
5‐04‐2014
13
Caratteristiche: ◦ Simmetrica rispetto al valor
medio ◦ Dipende da n ◦ All’aumentare di n tende alla
distribuzione normale ◦ Per ogni valore di n si ha una
diversa distribuzione
In Excel si usa la funzione DISTRIB.T(x;gradi_libertà;coda)
Se coda=1 (risp. 2), viene restituita una distribuzione a 1 coda (risp. 2 code).
E’ una distribuzione usata per confrontare il grado di variabilità di due insiemi di dati ed è usata nello studio dell’analisi della varianza (ANOVA)
Consideriamo due variabili casuali X1 e X2
◦ distribuite secondo un χ2 con n1 e n2 gradi di libertà, risp.
Si può dimostrare che la variabile
F= (X1/n1) / (X2/n2)
segue una distribuzione F con n1 e n2 gradi di libertà
5‐04‐2014
14
In Excel si usa la funzione DISTRIB.F(x;gradi_libertà1; gradi_libertà2)
Inferenza statistica
Indagine campionaria: indagine svolta su una parte dell’intero collettivo da indagare (popolazione)
Estendere i risultati a tutta la popolazione: i risultati ottenuti per il campione sono approssimativamente validi per tutta la popolazione
5‐04‐2014
15
In una officina sono installate 5 macchine uguali. Ciascuna ha la probabilità del 20% di guastarsi.
Studiare la variabile X=n° di macchine guaste contemporaneamente
Risulta che: Num_successi= da 0 a 5 Prove= 5 Probabilità_s=0,2 Cumulativo=falso
A B 1 n= 5 2 p= 0,2 3 q= 0,8
DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo)
In una officina sono installate 5 macchine uguali. Ciascuna ha la probabilità del 20% di guastarsi.
Studiare la variabile X=n° di macchine guaste contemporaneamente
(Usare il trascinamento)
=DISTRIB.BINOM(A6;$B$1;$B$2;FALSO)
Inserire anche un istogramma della densità di probabilità (selezionando come ascissa la colonna X)
4 5 X P(X) 6 0 0,32768 7 1 0,40960 8 2 0,20480 9 3 0,05120 10 4 0,00640 11 5 0,00032
5‐04‐2014
16
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0 1 2 3 4 5
Densità di probabilità per il numero di macchine guaste
In una ditta lavorano 12 operai che usano apparecchiature collegate alla stessa rete elettrica. Ogni operaio dispone di un’apparecchiatura che assorbe 1 kilowatt e la usa, in modo indipendente dagli altri, per 10 minuti ogni ora.
Se la potenza della rete è di 5 kilowatt, qual è la probabilità che non ci sia sovraccarico?
p= 1/6 =1,1666=0,2 (probabilità che un operaio usi un’apparecchiatura) n=12 X=5 (la rete non è in sovraccarico se 5 o meno operai usano le loro apparecchiature). Num_successi=X Cumulativo=vero
A B 1 n= 12 2 p= 0,2 3 q= 0,8
=DISTRIB.BINOM(5;$B$1;$B$2;VERO)
0,99207496
5‐04‐2014
17
Determinare la distribuzione di probabilità del numero X di pezzi difettosi, se si sono provati 20 pezzi di un lotto, dove normalmente quelli difettosi sono il 10%.
Rappresentare graficamente la distribuzione ottenuta
A B 1 n= 20 2 p= 0,1 3 q= 0,9
Dal problema risulta che N=20 P=10/100=0,1 Occorre calcolare P(X) con 0<=X<=20 (cumulativo=falso) Formattare le celle relative a P(X) come numero
X P(X) 0 0,1215767 1 0,2701703 2 0,2851798 3 0,1901199 4 0,0897788 5 0,0319214 6 0,0088670 7 0,0019705 8 0,0003558 9 0,0000527
10 0,0000064 11 0,0000007 12 0,0000001 13 0,0000000 14 0,0000000 15 0,0000000 16 0,0000000 17 0,0000000 18 0,0000000 19 0,0000000 20 0,0000000
=DISTRIB.BINOM(A6;$B$1;$B$2;FALSO)
0
5‐04‐2014
18
Determinare la distribuzione di probabilità del numero X di pezzi difettosi, se si sono provati 20 pezzi di un lotto, dove normalmente quelli difettosi sono il 10%.
Rappresentare graficamente la distribuzione ottenuta. Determinare ◦ Il numero medio di pezzi difettosi (=20*0,1) ◦ La probabilità che meno di 7 pezzi siano difettosi
=DISTRIB.BINOM(6;$B$1;$B$2;VERO) P(X≤6)=
Num_successi 0,997613911