1 Corso di statistica ARCAVACATA a.a 2009-2010 Campus di Arcavacata Università della Calabria.

77
1 Corso di Corso di statistica statistica ARCAVACATA a.a 2009- ARCAVACATA a.a 2009- 2010 2010 Campus di Arcavacata Università della Calabria

Transcript of 1 Corso di statistica ARCAVACATA a.a 2009-2010 Campus di Arcavacata Università della Calabria.

  • Slide 1
  • 1 Corso di statistica ARCAVACATA a.a 2009-2010 Campus di Arcavacata Universit della Calabria
  • Slide 2
  • INDIRIZZO E-MAIL: [email protected]
  • Slide 3
  • 3 Statistica a)Insieme di metodi finalizzati allo studio (mediante lanalisi) di fenomeni reali b)Metodologia strumentale per lanalisi della realt allo scopo di trarre leggi e regole generali per obiettivi predefiniti (Scienza o metodo?) c)Scienza delle decisioni in condizioni di incertezza in altre parole La statistica riguarda tutte le operazioni che rientrano in un processo di indagine finalizzato allaccrescimento della conoscenza. Perch lindagine statistica?
  • Slide 4
  • 4 obiettivi informazioni Metodi statistici risultati
  • Slide 5
  • 5 Indagine Statistica Fasi 1.Definizione degli obiettivi (generali, parziali) in funzione dei vincoli (di tempo, di costo) 2.Raccolta (Rilevazione) dei dati a)Dati derivanti da misurazioni, da questionario, da basi di dati b)Rilevazioni semplici o complesse
  • Slide 6
  • 6 Elaborazione dei dati Memorizzazione Codifica/Ricodifica Analisi statistica Descrittiva/Inferenziale, Univariata/Multivariata Presentazione dei risultati Riformulazione delle ipotesi di ricerca / Ridefinizione degli obiettivi
  • Slide 7
  • 7 TERMINOLOGIA Rilevazioni statistiche Complesso delle operazioni rivolte ad acquisire una o pi informazioni su un insieme di elementi (caratteri) oggetto di studio. Caratteristiche: - semplici/complesse - derivanti da risposte o da misure - globali (censimenti) / parziali (rilevazioni campionarie) Unit statistica: entit su cui viene condotta la rilevazione statistica Popolazione: insieme di tutte le unit statistiche facenti parte di un collettivo di riferimento Campione: sottoinsieme della popolazione
  • Slide 8
  • 8 I Caratteri Statistici Insieme di fenomeni oggetto di studio riguardanti le caratteristiche che differenziano tra loro le unit statistiche Lespressione del carattere nelle unit statistiche si denomina modalit o intensit Tipologie a)Caratteri quantitativi (VARIABILI): assumono intensit rappresentate da numeri reali Variabili continue Variabili discrete b)Caratteri qualitativi (MUTABILI): assumono modalit rappresentate da attributi non numerici Nominali Ordinali Dicotomici Tutti i caratteri possono essere resi dicotomici
  • Slide 9
  • 9 Tipi di caratteri ed operazioni possibili
  • Slide 10
  • 10 Cosa si studia al corso di Statistica 1? I.Statistica descrittiva: Distribuzioni di frequenza Rappresentazioni grafiche Indici di posizione, variabilit e forma Omogeneit ed eterogeneit Relazioni statistiche (connessione, indipendenza in media, correlazione) II.Statistica Inferenziale: Probabilit Variabili Casuali Modelli per variabili casuali
  • Slide 11
  • 11 La matrice (50 unit statistiche, 9 caratteri) Un campione di 50 aziende appartenenti alle imprese produttrici di beni di largo consumo. Rif.: M. Caputo (a cura di) Organizzare la logistica per lEfficient Consumer Response, CEDAM, 1998
  • Slide 12
  • 12
  • Slide 13
  • 13
  • Slide 14
  • 14
  • Slide 15
  • 15 Sono stati riportati i settori merceologici elencati nella prima colonna della matrice dei dati sostituendo labbreviazione alla dicitura per esteso.
  • Slide 16
  • 16 In simboli: Carattere osservato Numero di unit statistiche Numero di modalit/intensit di X Frequenza assoluta della i-esima modalit xi Frequenza relativa della i-esima modalit xi i-esima modalit/intensit di X
  • Slide 17
  • 17 Distribuzione di frequenza I ) II )
  • Slide 18
  • 18 Carattere qualitativo nominale: Rappresentazioni grafiche Diagramma a barre N.B. E possibile costruire il diagramma a barre riportando in ordinata le frequenze assolute OPPURE le frequenze relative, la forma della rappresentazione risulta invariata.
  • Slide 19
  • 19 Carattere qualitativo nominale: Rappresentazioni grafiche Grafico a torta
  • Slide 20
  • 20 Frequenza relativa cumulata: somma delle frequenze relative fino alla i-esima intensit. Si pu calcolare per ogni tipo di distribuzione di frequenza. N.B. Valgono tutte le altre propriet viste per le distribuzioni di frequenza dei caratteri qualitativi
  • Slide 21
  • 21 Rappresentazioni grafiche del carattere Numero di stabilimenti
  • Slide 22
  • 22 Suddivisione in classi
  • Slide 23
  • 23 Carattere N. di stabilimenti: suddivisione delle intensit in 5 classi equiampie
  • Slide 24
  • 24 Carattere N. di stabilimenti: costruzione della distribuzione in classi N.B. Valgono tutte le altre propriet viste per le distribuzioni di frequenza dei caratteri qualitativi e quantitativi discreti
  • Slide 25
  • 25 Carattere N. di stabilimenti: suddivisione delle intensit in 5 classi di diversa ampiezza e frequenza
  • Slide 26
  • 26
  • Slide 27
  • 27 Distribuzioni di frequenza per caratteri quantitativi continui
  • Slide 28
  • 28 Carattere quantitativo continuo FATTURATO
  • Slide 29
  • 29 Carattere Fatturato: Classi equifrequenti
  • Slide 30
  • 30 Carattere Fatturato: Classi equiampie
  • Slide 31
  • 31 Carattere N.ro di stabilimenti: Classi equiampie
  • Slide 32
  • 32 Rappresentazioni grafiche 1. Variabili qualitative 2. Variabili quantitative discrete Diagramma a barre Diagramma a torta Diagramma a bastoni Diagramma a torta Variabili nominali o ordinali Frequenze assolute o relative
  • Slide 33
  • 33 3. Variabili quantitative continue 3.1 Istogramma rettangoli = classi base = ampiezza della classe d i altezza = densit di frequenza h i area del i mo rettangolo = frequenza della i ma classe area totale A = n
  • Slide 34
  • 34 x i-1 - x i nini 0 - 10040 100 - 15020 Esempio 1: variabile X suddivisa in 2 classi di diverse ampiezza e frequenza frequenze assolute Istogramma delle frequenze assolute Apparentemente sembrerebbe che le unit statistiche sono pi concentrate nella prima classe, ma in realt dovremmo tener presente che vero che la frequenza nella prima classe doppia rispetto alla frequenza nella seconda, ma pur vero che la prima classe ha anche unampiezza doppia rispetto alla seconda.
  • Slide 35
  • 35 densit di frequenza Istogramma delle densit di frequenza (normalizzato) Rappresentando la densit di frequenza, invece, risulta evidente che le due classi sono perfettamente omogenee relativamente al modo in cui le unit statistiche si distribuiscono tra di esse.
  • Slide 36
  • 36 Istogramma normalizzato in cui la densit di frequenza calcolata sulle frequenze relative base = ampiezza della classe d i altezza = densit di frequenza h i area del rettangolo = frequenza relativa della classe area totale A = 1
  • Slide 37
  • 37 ID. clientescelta n. bot- tiglie prezzo CH prezzo MM sconto CH sconto MM fedele CH fedele MM Negozio 12127027CH21,862,130,4700,5400,9330,067Coloniali 22128058CH51,992,090,1000,400 0,600Bar 32128231CH52,09 0,2000,4000,8200,180Bar 42128363CH52,09 0,2000,4000,9780,022Bar 52128389CH42,09 0,2000,4000,7950,205S.market 62130153CH52,09 0,2000,4000,3840,616Bar 72131060CH61,992,090,1000,4000,9860,014Bar 82131060CH22,09 0,2000,4000,9930,007Bar 92131060CH42,09 0,2000,4000,9940,006Bar 102131631CH31,992,090,1000,4001,0000,000Bar 112131631CH52,09 0,2000,4001,0000,000Bar 122133751CH61,862,130,4700,5400,5200,480Coloniali 132136325MM52,09 0,2000,4000,3420,658S.market 142136838MM52,09 0,2000,4000,0001,000S.market 152137778MM21,751,990,1600,3000,3510,649D. Autom. 162138081MM11,992,090,1000,4000,500 S.market 172138081CH31,992,090,1000,400 0,600S.market 182138685CH41,69 0,3000,2000,3200,680Coloniali 192142976CH51,862,130,4700,5400,3140,686Coloniali 202143495MM51,751,990,1600,3000,1310,869D. Autom. 212143644MM21,751,990,1600,3000,2480,752D. Autom. 222143644MM31,862,130,4700,5400,2200,780Coloniali 232144956CH62,09 0,2000,4000,5330,467S.market 242147207MM51,992,090,1000,4000,6700,330S.market 252147207CH41,862,130,4700,5400,6290,371Coloniali 262147207MM12,09 0,2000,4000,4500,550S.market 272147660CH51,862,130,4700,5400,9130,087Coloniali 282147819CH11,862,130,4700,5400,500 Coloniali 292148098CH41,862,130,4700,5400,8030,197Coloniali 302149252CH61,751,990,1600,3000,8950,105D. Autom. Dati: 30 consumatori di succhi di frutta
  • Slide 38
  • 38 CarattereDescrizione sceltamarca prescelta n. bottiglienumero di bottiglie acquistate prezzo CHprezzo della marca CH prezzo MMprezzo della marca MM sconto CHsconto per il prodotto CH sconto MMsconto per il prodotto MM fedele MMindicatore di fedelt per il prodotto MM fedele CHindicatore di fedelt per il prodotto CH negoziorivenditore del prodotto
  • Slide 39
  • 39 Carattere: fedele CH Distribuzione di frequenza di 5 classi equiampie n = 30 Fedele CHnini fifi FiFi 0 || 0,220,06 0,3 0,2 | 0,490,300,361,5 0,4 | 0,650,170,530,85 0,6 | 0,830,100,630,5 0,8 | 1110,3711,85 Totale301 Esempio 2
  • Slide 40
  • 40 frequenze relative Istogramma delle frequenze relative densit di frequenza Istogramma delle densit di frequenza 00,20,40,60,81 In questo caso le due rappresentazioni sono ugualmente valide, ma solo in quanto le classi hanno la stessa ampiezza 0 0,20,40,60,81
  • Slide 41
  • 41 Carattere: fedele CH Distribuzione di frequenza di 5 classi equifrequenti Fedele CHdidi nini fifi FiFi 0 || 0,320,32 60,2 0,625 0,32 | 0,450,13 60,20,41,538 0,45 | 0,670,22 60,20,60,909 0,67 | 0,930,26 60,20,80,769 0,93 | 10,07 60,212,857 Totale301 n = 30 n i = 30 : 5 = 6 Esempio 3
  • Slide 42
  • 42 frequenze assolute Istogramma delle frequenze assolute densit di frequenza Istogramma delle densit di frequenza In questo caso evidente che il primo grafico non adeguato a rappresentare la distribuzione di frequenza.
  • Slide 43
  • 43 In sintesi listogramma: considera lintensit con cui le frequenze si addensano allinterno delle diverse classi sensibile a cambiamenti dei criteri di raggruppamento delle intensit in classi permette di confrontare graficamente diverse distribuzioni
  • Slide 44
  • 44 A. Classi equifrequenti Esempio 4: Confronto grafico tra diversi criteri di raggruppamento delle classi Carattere Fatturato
  • Slide 45
  • 45 B. Classi equiampie Come cambia la distribuzione se consideriamo 5 classi equiampie? 500 1000 1500 2000 0.0 0.0005 0.0010 0.0015 0.0020 Istogramma del fatturato (classi equiampie e densit di frequenza) classi di modalit Densit di frequenza
  • Slide 46
  • 46 C. Classi di diversa ampiezza e frequenza La gran parte delle aziende incluse nel campione ha un fatturato compreso tra 100 e 500 milioni (I classe). Domanda: La distribuzione del fatturato delle aziende appartenenti alla prima classe di fatturato pu considerarsi uniforme? Risposta: consideriamo la seguente distribuzione in classi: 100|--|200, 200 --|300,300|400, 400--|500, 500 --|2.100 --
  • Slide 47
  • 47 Confronto grafico: quale suddivisione in classi approssima meglio i dati originari?
  • Slide 48
  • 48 500 1000 1500 2000 0.0 0.001 0.002 0.003 0.004 0.005 Istogramma del fatturato (classi di diversa ampiezza e frequenza e densit di frequenza) classi di modalit Densit di frequenza Come si evince dallistogramma, la densit di frequenza pi elevata in corrispondenza della prima classe (da 100 a 200 miliardi), per cui la distribuzione del fatturato delle aziende appartenenti alla prima classe di fatturato (100 500) relativa al caso delle classi equifrequenti NON pu considerarsi uniforme.
  • Slide 49
  • 49 3.2 Funzione di ripartizione empirica
  • Slide 50
  • 50 Rappresentazione grafica Carattere Fatturato Classi equiampie
  • Slide 51
  • 51 Confronto tra i diversi criteri di raggruppamento
  • Slide 52
  • 52 LE RELAZIONI STATISTICHE Riguardano lo studio delle relazioni tra due o pi caratteri statistici. Due o pi caratteri vengono analizzati simultaneamente al fine di evidenziare i legami intercorrenti tra di essi. Nel caso delle relazioni tra due caratteri, loggetto dello studio la distribuzione doppia (o bivariata) rappresentabile in una tabella a doppia entrata.
  • Slide 53
  • 53 LA DISTRIBUZIONE DOPPIA carattere in colonna carattere in riga j-ma modalit (intensit) di Y i-ma modalit (intensit) di X frequenza congiunta di x i ed y j frequenza marginale di colonna frequenza marginale di riga
  • Slide 54
  • 54 Se dividiamo ogni cella per n otteniamo la tabella doppia per frequenze relative Valgono per estensione tutte le propriet viste per le distribuzioni semplici LA DISTRIBUZIONE DOPPIA Caratteristiche principali
  • Slide 55
  • 55 LA DISTRIBUZIONE DOPPIA Frequenze relative
  • Slide 56
  • 56 ESEMPIO A partire dalla successione delle intensit riguardanti i caratteri Fatturato (FATT) e Fatturato Estero (FATEST) si costruisca la distribuzione doppia di frequenze rappresentandola in una tabella a doppia entrata suddividendo le intensit dei due caratteri nei modi seguenti:
  • Slide 57
  • 57
  • Slide 58
  • 58 DISTRIBUZIONI MARGINALI DISTRIBUZIONI CONDIZIONATE DI X
  • Slide 59
  • 59 DISTRIBUZIONI CONDIZIONATE DI Y
  • Slide 60
  • 60 Misure di tendenza centrale Sono misure sintetiche che posizionano la distribuzione di frequenza di un fenomeno e consentono il passaggio da una pluralit di informazioni ad un solo numero Lobiettivo di consentire di effettuare confronti nel tempo, nello spazio o tra circostanze differenti Media Media Moda Moda Quantili Quantili Mediana Mediana Quartili Quartili Decili Decili Percentili Percentili
  • Slide 61
  • 61 Moda Moda La Moda (o norma o valore normale) di una distribuzione rappresentata dal valore (qualitativo o numerico) che presenta la frequenza assoluta o relativa pi elevata. Sintetizzare una distribuzione con la sua moda equivale ad assumere come valore pi rappresentativo quello che si verificato pi spesso. Luso della moda ha tanto pi senso quanto pi la sua frequenza si differenzia rispetto a quella delle altre modalit o intensit
  • Slide 62
  • 62 Carattere NUMERO DI BOTTIGLIE N. bottiglien i fifi 130,10 240,13 330,10 450,17 5110,37 640,13 Totale301 Mo = 5 Variabili quantitative discrete Carattere SCELTA SCELTAnini fifi CH210,7 MM90,3 Totale301 Mo = CH Variabili nominali
  • Slide 63
  • 63 Classenini fifi FiFi 1,69 || 1,7730,15 1,875 1,77 | 1,85000,150 1,85 | 1,9330,150,301,875 1,93 | 2,0150,250,553,125 2,01 | 2,0990,4515,625 Totale201 Mo = classe modale = 2,01 --| 2,09 Distribuzioni in classi Classi equiampie: la classe modale la classe a cui corrisponde la frequenza pi elevata Classi equifrequenti o di diversa ampiezza e frequenza: la classe modale la classe a cui corrisponde la densit di frequenza pi elevata Carattere PREZZO CH, classi equiampie (primi 20 consumatori)
  • Slide 64
  • 64 Istogramma normalizzato Funzione di ripartizione empirica
  • Slide 65
  • 65 Carattere Fatturato, classi equifrequenti Classe modale = 103 |--| 129
  • Slide 66
  • 66 Carattere NEGOZIO Negozion i fifi Bar90,30 Coloniali90,30 D. automatico40,13 Supermarket80,27 Totale301 Il carattere presenta due modalit con la massima frequenza, dunque le due mode sono: Mo 1 = Bar Mo 2 = Coloniali Distribuzioni bimodali o plurimodali Distribuzione zeromodale Xnini fifi x 1 200,5 x 2 200,5 Totale401 Mo = ???
  • Slide 67
  • 67 I QUANTILI Valori che bipartiscono la distribuzione delle intensit/modalit in due gruppi disgiunti. MEDIANA I.Valore che bipartisce la distribuzione ordinata delle intensit/modalit x (1),,x (n) in due gruppi della stessa numerosit II. Intensit/modalit dellunit statistica che occupa il posto centrale nella distribuzione ordinata x (1),,x (n) III.Intensit/modalit in corrispondenza della quale la funzione di ripartizione pari a 0,5 (F ME = 0,5) IV.E quel valore Me tale che tra il minimo x (1) ed Me vi sono n/2 intensit/modalit (II Quartile Q 2 ) Mediana Quartili Decili Percentili Quantili N:B. Quando si calcolano i quantili sempre neces-sario ordinare le intensi-t/modalit in senso non decrescente
  • Slide 68
  • 68 Caratteri quantitativi discreti N.B. Se n pari, la mediana pu non corrispondere a nessuna delle intensit osservate. intensit che occupa la i-esima posizione nella successione ordinata delle intensit (i=1,.,n) Caratteri qualitativi ordinali Si individuano le 2 modalit: x (Me-1) tale che F(x (Me-1) )
  • 72 CiCi nini fifi FiFi [5,27; 15,43]130,43 ]15,43; 25,59]70,230,66 ]25,59; 35,76]50,170,83 ]35,76; 45,92]10,030,87 ]45,92; 56,08]20,070,93 ]56,08; 66,24]20,071,00 Totale301,00 1. Individuazione della classe mediana ] 15,43; 25,59 ] 2. Stima della mediana allinterno della classe C Me = C i : F i = min (F i > 0,5)
  • Slide 73
  • 73 QUARTILI Primo Quartile: E quel valore Q 1 tale che tra il minimo x (1) e Q 1 vi sono n/4 intensit. Caratteri qualitativi ordinali Si individuano le 2 modalit: x (Q 1 -1) tale che F(x (Q 1 -1) )
  • 77 quartili quantile x px I quartili di una distribuzione in classi saranno determinati in base alla formula per il generico quantile x px : in cui, individuata la classe di riferimento, si sostituir ad F desiderata il valore 0,25 per Q 1, 0,5 per Q 2 (Me) e 0,75 per Q 3. C Q1 = C i : F i = min (F i > 0,25) = C 1 C Q3 = C i : F i = min (F i > 0,25) = C 3