Transcript of 1 Corso di statistica ARCAVACATA a.a 2009-2010 Campus di Arcavacata Università della Calabria.
- Slide 1
- 1 Corso di statistica ARCAVACATA a.a 2009-2010 Campus di
Arcavacata Universit della Calabria
- Slide 2
- INDIRIZZO E-MAIL: massimiliano.giacalone@yahoo.it
- Slide 3
- 3 Statistica a)Insieme di metodi finalizzati allo studio
(mediante lanalisi) di fenomeni reali b)Metodologia strumentale per
lanalisi della realt allo scopo di trarre leggi e regole generali
per obiettivi predefiniti (Scienza o metodo?) c)Scienza delle
decisioni in condizioni di incertezza in altre parole La statistica
riguarda tutte le operazioni che rientrano in un processo di
indagine finalizzato allaccrescimento della conoscenza. Perch
lindagine statistica?
- Slide 4
- 4 obiettivi informazioni Metodi statistici risultati
- Slide 5
- 5 Indagine Statistica Fasi 1.Definizione degli obiettivi
(generali, parziali) in funzione dei vincoli (di tempo, di costo)
2.Raccolta (Rilevazione) dei dati a)Dati derivanti da misurazioni,
da questionario, da basi di dati b)Rilevazioni semplici o
complesse
- Slide 6
- 6 Elaborazione dei dati Memorizzazione Codifica/Ricodifica
Analisi statistica Descrittiva/Inferenziale,
Univariata/Multivariata Presentazione dei risultati Riformulazione
delle ipotesi di ricerca / Ridefinizione degli obiettivi
- Slide 7
- 7 TERMINOLOGIA Rilevazioni statistiche Complesso delle
operazioni rivolte ad acquisire una o pi informazioni su un insieme
di elementi (caratteri) oggetto di studio. Caratteristiche: -
semplici/complesse - derivanti da risposte o da misure - globali
(censimenti) / parziali (rilevazioni campionarie) Unit statistica:
entit su cui viene condotta la rilevazione statistica Popolazione:
insieme di tutte le unit statistiche facenti parte di un collettivo
di riferimento Campione: sottoinsieme della popolazione
- Slide 8
- 8 I Caratteri Statistici Insieme di fenomeni oggetto di studio
riguardanti le caratteristiche che differenziano tra loro le unit
statistiche Lespressione del carattere nelle unit statistiche si
denomina modalit o intensit Tipologie a)Caratteri quantitativi
(VARIABILI): assumono intensit rappresentate da numeri reali
Variabili continue Variabili discrete b)Caratteri qualitativi
(MUTABILI): assumono modalit rappresentate da attributi non
numerici Nominali Ordinali Dicotomici Tutti i caratteri possono
essere resi dicotomici
- Slide 9
- 9 Tipi di caratteri ed operazioni possibili
- Slide 10
- 10 Cosa si studia al corso di Statistica 1? I.Statistica
descrittiva: Distribuzioni di frequenza Rappresentazioni grafiche
Indici di posizione, variabilit e forma Omogeneit ed eterogeneit
Relazioni statistiche (connessione, indipendenza in media,
correlazione) II.Statistica Inferenziale: Probabilit Variabili
Casuali Modelli per variabili casuali
- Slide 11
- 11 La matrice (50 unit statistiche, 9 caratteri) Un campione di
50 aziende appartenenti alle imprese produttrici di beni di largo
consumo. Rif.: M. Caputo (a cura di) Organizzare la logistica per
lEfficient Consumer Response, CEDAM, 1998
- Slide 12
- 12
- Slide 13
- 13
- Slide 14
- 14
- Slide 15
- 15 Sono stati riportati i settori merceologici elencati nella
prima colonna della matrice dei dati sostituendo labbreviazione
alla dicitura per esteso.
- Slide 16
- 16 In simboli: Carattere osservato Numero di unit statistiche
Numero di modalit/intensit di X Frequenza assoluta della i-esima
modalit xi Frequenza relativa della i-esima modalit xi i-esima
modalit/intensit di X
- Slide 17
- 17 Distribuzione di frequenza I ) II )
- Slide 18
- 18 Carattere qualitativo nominale: Rappresentazioni grafiche
Diagramma a barre N.B. E possibile costruire il diagramma a barre
riportando in ordinata le frequenze assolute OPPURE le frequenze
relative, la forma della rappresentazione risulta invariata.
- Slide 19
- 19 Carattere qualitativo nominale: Rappresentazioni grafiche
Grafico a torta
- Slide 20
- 20 Frequenza relativa cumulata: somma delle frequenze relative
fino alla i-esima intensit. Si pu calcolare per ogni tipo di
distribuzione di frequenza. N.B. Valgono tutte le altre propriet
viste per le distribuzioni di frequenza dei caratteri
qualitativi
- Slide 21
- 21 Rappresentazioni grafiche del carattere Numero di
stabilimenti
- Slide 22
- 22 Suddivisione in classi
- Slide 23
- 23 Carattere N. di stabilimenti: suddivisione delle intensit in
5 classi equiampie
- Slide 24
- 24 Carattere N. di stabilimenti: costruzione della
distribuzione in classi N.B. Valgono tutte le altre propriet viste
per le distribuzioni di frequenza dei caratteri qualitativi e
quantitativi discreti
- Slide 25
- 25 Carattere N. di stabilimenti: suddivisione delle intensit in
5 classi di diversa ampiezza e frequenza
- Slide 26
- 26
- Slide 27
- 27 Distribuzioni di frequenza per caratteri quantitativi
continui
- Slide 28
- 28 Carattere quantitativo continuo FATTURATO
- Slide 29
- 29 Carattere Fatturato: Classi equifrequenti
- Slide 30
- 30 Carattere Fatturato: Classi equiampie
- Slide 31
- 31 Carattere N.ro di stabilimenti: Classi equiampie
- Slide 32
- 32 Rappresentazioni grafiche 1. Variabili qualitative 2.
Variabili quantitative discrete Diagramma a barre Diagramma a torta
Diagramma a bastoni Diagramma a torta Variabili nominali o ordinali
Frequenze assolute o relative
- Slide 33
- 33 3. Variabili quantitative continue 3.1 Istogramma rettangoli
= classi base = ampiezza della classe d i altezza = densit di
frequenza h i area del i mo rettangolo = frequenza della i ma
classe area totale A = n
- Slide 34
- 34 x i-1 - x i nini 0 - 10040 100 - 15020 Esempio 1: variabile
X suddivisa in 2 classi di diverse ampiezza e frequenza frequenze
assolute Istogramma delle frequenze assolute Apparentemente
sembrerebbe che le unit statistiche sono pi concentrate nella prima
classe, ma in realt dovremmo tener presente che vero che la
frequenza nella prima classe doppia rispetto alla frequenza nella
seconda, ma pur vero che la prima classe ha anche unampiezza doppia
rispetto alla seconda.
- Slide 35
- 35 densit di frequenza Istogramma delle densit di frequenza
(normalizzato) Rappresentando la densit di frequenza, invece,
risulta evidente che le due classi sono perfettamente omogenee
relativamente al modo in cui le unit statistiche si distribuiscono
tra di esse.
- Slide 36
- 36 Istogramma normalizzato in cui la densit di frequenza
calcolata sulle frequenze relative base = ampiezza della classe d i
altezza = densit di frequenza h i area del rettangolo = frequenza
relativa della classe area totale A = 1
- Slide 37
- 37 ID. clientescelta n. bot- tiglie prezzo CH prezzo MM sconto
CH sconto MM fedele CH fedele MM Negozio
12127027CH21,862,130,4700,5400,9330,067Coloniali
22128058CH51,992,090,1000,400 0,600Bar 32128231CH52,09
0,2000,4000,8200,180Bar 42128363CH52,09 0,2000,4000,9780,022Bar
52128389CH42,09 0,2000,4000,7950,205S.market 62130153CH52,09
0,2000,4000,3840,616Bar 72131060CH61,992,090,1000,4000,9860,014Bar
82131060CH22,09 0,2000,4000,9930,007Bar 92131060CH42,09
0,2000,4000,9940,006Bar 102131631CH31,992,090,1000,4001,0000,000Bar
112131631CH52,09 0,2000,4001,0000,000Bar
122133751CH61,862,130,4700,5400,5200,480Coloniali 132136325MM52,09
0,2000,4000,3420,658S.market 142136838MM52,09
0,2000,4000,0001,000S.market
152137778MM21,751,990,1600,3000,3510,649D. Autom.
162138081MM11,992,090,1000,4000,500 S.market
172138081CH31,992,090,1000,400 0,600S.market 182138685CH41,69
0,3000,2000,3200,680Coloniali
192142976CH51,862,130,4700,5400,3140,686Coloniali
202143495MM51,751,990,1600,3000,1310,869D. Autom.
212143644MM21,751,990,1600,3000,2480,752D. Autom.
222143644MM31,862,130,4700,5400,2200,780Coloniali 232144956CH62,09
0,2000,4000,5330,467S.market
242147207MM51,992,090,1000,4000,6700,330S.market
252147207CH41,862,130,4700,5400,6290,371Coloniali 262147207MM12,09
0,2000,4000,4500,550S.market
272147660CH51,862,130,4700,5400,9130,087Coloniali
282147819CH11,862,130,4700,5400,500 Coloniali
292148098CH41,862,130,4700,5400,8030,197Coloniali
302149252CH61,751,990,1600,3000,8950,105D. Autom. Dati: 30
consumatori di succhi di frutta
- Slide 38
- 38 CarattereDescrizione sceltamarca prescelta n.
bottiglienumero di bottiglie acquistate prezzo CHprezzo della marca
CH prezzo MMprezzo della marca MM sconto CHsconto per il prodotto
CH sconto MMsconto per il prodotto MM fedele MMindicatore di fedelt
per il prodotto MM fedele CHindicatore di fedelt per il prodotto CH
negoziorivenditore del prodotto
- Slide 39
- 39 Carattere: fedele CH Distribuzione di frequenza di 5 classi
equiampie n = 30 Fedele CHnini fifi FiFi 0 || 0,220,06 0,3 0,2 |
0,490,300,361,5 0,4 | 0,650,170,530,85 0,6 | 0,830,100,630,5 0,8 |
1110,3711,85 Totale301 Esempio 2
- Slide 40
- 40 frequenze relative Istogramma delle frequenze relative
densit di frequenza Istogramma delle densit di frequenza
00,20,40,60,81 In questo caso le due rappresentazioni sono
ugualmente valide, ma solo in quanto le classi hanno la stessa
ampiezza 0 0,20,40,60,81
- Slide 41
- 41 Carattere: fedele CH Distribuzione di frequenza di 5 classi
equifrequenti Fedele CHdidi nini fifi FiFi 0 || 0,320,32 60,2 0,625
0,32 | 0,450,13 60,20,41,538 0,45 | 0,670,22 60,20,60,909 0,67 |
0,930,26 60,20,80,769 0,93 | 10,07 60,212,857 Totale301 n = 30 n i
= 30 : 5 = 6 Esempio 3
- Slide 42
- 42 frequenze assolute Istogramma delle frequenze assolute
densit di frequenza Istogramma delle densit di frequenza In questo
caso evidente che il primo grafico non adeguato a rappresentare la
distribuzione di frequenza.
- Slide 43
- 43 In sintesi listogramma: considera lintensit con cui le
frequenze si addensano allinterno delle diverse classi sensibile a
cambiamenti dei criteri di raggruppamento delle intensit in classi
permette di confrontare graficamente diverse distribuzioni
- Slide 44
- 44 A. Classi equifrequenti Esempio 4: Confronto grafico tra
diversi criteri di raggruppamento delle classi Carattere
Fatturato
- Slide 45
- 45 B. Classi equiampie Come cambia la distribuzione se
consideriamo 5 classi equiampie? 500 1000 1500 2000 0.0 0.0005
0.0010 0.0015 0.0020 Istogramma del fatturato (classi equiampie e
densit di frequenza) classi di modalit Densit di frequenza
- Slide 46
- 46 C. Classi di diversa ampiezza e frequenza La gran parte
delle aziende incluse nel campione ha un fatturato compreso tra 100
e 500 milioni (I classe). Domanda: La distribuzione del fatturato
delle aziende appartenenti alla prima classe di fatturato pu
considerarsi uniforme? Risposta: consideriamo la seguente
distribuzione in classi: 100|--|200, 200 --|300,300|400, 400--|500,
500 --|2.100 --
- Slide 47
- 47 Confronto grafico: quale suddivisione in classi approssima
meglio i dati originari?
- Slide 48
- 48 500 1000 1500 2000 0.0 0.001 0.002 0.003 0.004 0.005
Istogramma del fatturato (classi di diversa ampiezza e frequenza e
densit di frequenza) classi di modalit Densit di frequenza Come si
evince dallistogramma, la densit di frequenza pi elevata in
corrispondenza della prima classe (da 100 a 200 miliardi), per cui
la distribuzione del fatturato delle aziende appartenenti alla
prima classe di fatturato (100 500) relativa al caso delle classi
equifrequenti NON pu considerarsi uniforme.
- Slide 49
- 49 3.2 Funzione di ripartizione empirica
- Slide 50
- 50 Rappresentazione grafica Carattere Fatturato Classi
equiampie
- Slide 51
- 51 Confronto tra i diversi criteri di raggruppamento
- Slide 52
- 52 LE RELAZIONI STATISTICHE Riguardano lo studio delle
relazioni tra due o pi caratteri statistici. Due o pi caratteri
vengono analizzati simultaneamente al fine di evidenziare i legami
intercorrenti tra di essi. Nel caso delle relazioni tra due
caratteri, loggetto dello studio la distribuzione doppia (o
bivariata) rappresentabile in una tabella a doppia entrata.
- Slide 53
- 53 LA DISTRIBUZIONE DOPPIA carattere in colonna carattere in
riga j-ma modalit (intensit) di Y i-ma modalit (intensit) di X
frequenza congiunta di x i ed y j frequenza marginale di colonna
frequenza marginale di riga
- Slide 54
- 54 Se dividiamo ogni cella per n otteniamo la tabella doppia
per frequenze relative Valgono per estensione tutte le propriet
viste per le distribuzioni semplici LA DISTRIBUZIONE DOPPIA
Caratteristiche principali
- Slide 55
- 55 LA DISTRIBUZIONE DOPPIA Frequenze relative
- Slide 56
- 56 ESEMPIO A partire dalla successione delle intensit
riguardanti i caratteri Fatturato (FATT) e Fatturato Estero
(FATEST) si costruisca la distribuzione doppia di frequenze
rappresentandola in una tabella a doppia entrata suddividendo le
intensit dei due caratteri nei modi seguenti:
- Slide 57
- 57
- Slide 58
- 58 DISTRIBUZIONI MARGINALI DISTRIBUZIONI CONDIZIONATE DI X
- Slide 59
- 59 DISTRIBUZIONI CONDIZIONATE DI Y
- Slide 60
- 60 Misure di tendenza centrale Sono misure sintetiche che
posizionano la distribuzione di frequenza di un fenomeno e
consentono il passaggio da una pluralit di informazioni ad un solo
numero Lobiettivo di consentire di effettuare confronti nel tempo,
nello spazio o tra circostanze differenti Media Media Moda Moda
Quantili Quantili Mediana Mediana Quartili Quartili Decili Decili
Percentili Percentili
- Slide 61
- 61 Moda Moda La Moda (o norma o valore normale) di una
distribuzione rappresentata dal valore (qualitativo o numerico) che
presenta la frequenza assoluta o relativa pi elevata. Sintetizzare
una distribuzione con la sua moda equivale ad assumere come valore
pi rappresentativo quello che si verificato pi spesso. Luso della
moda ha tanto pi senso quanto pi la sua frequenza si differenzia
rispetto a quella delle altre modalit o intensit
- Slide 62
- 62 Carattere NUMERO DI BOTTIGLIE N. bottiglien i fifi 130,10
240,13 330,10 450,17 5110,37 640,13 Totale301 Mo = 5 Variabili
quantitative discrete Carattere SCELTA SCELTAnini fifi CH210,7
MM90,3 Totale301 Mo = CH Variabili nominali
- Slide 63
- 63 Classenini fifi FiFi 1,69 || 1,7730,15 1,875 1,77 |
1,85000,150 1,85 | 1,9330,150,301,875 1,93 | 2,0150,250,553,125
2,01 | 2,0990,4515,625 Totale201 Mo = classe modale = 2,01 --| 2,09
Distribuzioni in classi Classi equiampie: la classe modale la
classe a cui corrisponde la frequenza pi elevata Classi
equifrequenti o di diversa ampiezza e frequenza: la classe modale
la classe a cui corrisponde la densit di frequenza pi elevata
Carattere PREZZO CH, classi equiampie (primi 20 consumatori)
- Slide 64
- 64 Istogramma normalizzato Funzione di ripartizione
empirica
- Slide 65
- 65 Carattere Fatturato, classi equifrequenti Classe modale =
103 |--| 129
- Slide 66
- 66 Carattere NEGOZIO Negozion i fifi Bar90,30 Coloniali90,30 D.
automatico40,13 Supermarket80,27 Totale301 Il carattere presenta
due modalit con la massima frequenza, dunque le due mode sono: Mo 1
= Bar Mo 2 = Coloniali Distribuzioni bimodali o plurimodali
Distribuzione zeromodale Xnini fifi x 1 200,5 x 2 200,5 Totale401
Mo = ???
- Slide 67
- 67 I QUANTILI Valori che bipartiscono la distribuzione delle
intensit/modalit in due gruppi disgiunti. MEDIANA I.Valore che
bipartisce la distribuzione ordinata delle intensit/modalit x
(1),,x (n) in due gruppi della stessa numerosit II.
Intensit/modalit dellunit statistica che occupa il posto centrale
nella distribuzione ordinata x (1),,x (n) III.Intensit/modalit in
corrispondenza della quale la funzione di ripartizione pari a 0,5
(F ME = 0,5) IV.E quel valore Me tale che tra il minimo x (1) ed Me
vi sono n/2 intensit/modalit (II Quartile Q 2 ) Mediana Quartili
Decili Percentili Quantili N:B. Quando si calcolano i quantili
sempre neces-sario ordinare le intensi-t/modalit in senso non
decrescente
- Slide 68
- 68 Caratteri quantitativi discreti N.B. Se n pari, la mediana
pu non corrispondere a nessuna delle intensit osservate. intensit
che occupa la i-esima posizione nella successione ordinata delle
intensit (i=1,.,n) Caratteri qualitativi ordinali Si individuano le
2 modalit: x (Me-1) tale che F(x (Me-1) )
- 72 CiCi nini fifi FiFi [5,27; 15,43]130,43 ]15,43;
25,59]70,230,66 ]25,59; 35,76]50,170,83 ]35,76; 45,92]10,030,87
]45,92; 56,08]20,070,93 ]56,08; 66,24]20,071,00 Totale301,00 1.
Individuazione della classe mediana ] 15,43; 25,59 ] 2. Stima della
mediana allinterno della classe C Me = C i : F i = min (F i >
0,5)
- Slide 73
- 73 QUARTILI Primo Quartile: E quel valore Q 1 tale che tra il
minimo x (1) e Q 1 vi sono n/4 intensit. Caratteri qualitativi
ordinali Si individuano le 2 modalit: x (Q 1 -1) tale che F(x (Q 1
-1) )
- 77 quartili quantile x px I quartili di una distribuzione in
classi saranno determinati in base alla formula per il generico
quantile x px : in cui, individuata la classe di riferimento, si
sostituir ad F desiderata il valore 0,25 per Q 1, 0,5 per Q 2 (Me)
e 0,75 per Q 3. C Q1 = C i : F i = min (F i > 0,25) = C 1 C Q3 =
C i : F i = min (F i > 0,25) = C 3