Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso...
Transcript of Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso...
Data preparation
Sistemi informativi per le Decisioni
Slide a cura di prof. Claudio Sartori
Data preparation 2
Preparazione datiIntroduzione e Concetti di Base
MotivazioniIl punto di partenza: dati consolidati, Data Marts
Data SelectionManipolazione di Tabelle
Information GatheringMisurazioniVisualizzazioniStatistiche
Data cleaningTrattamento di valori anomaliIdentificazione di OutliersRisoluzione di inconsistenze
Data reductionCampionamentoRiduzione di Dimensionalità
Data transformationNormalizzazioniaggregazioneDiscretizzazione
Data preparation 3
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
Data preparation 4
Il Processo di KDD
Selection and Selection and PreprocessingPreprocessing
Data Mining
Interpretation and Evaluation
Data Consolidation
Knowledge
p(x)=0.02
Warehouse
Data Sources
Patterns & Models
Prepared Data
ConsolidatedData
Data preparation 5
Problemi tipiciTroppi dati
dati sbagliati, rumorosidati non rilevantidimensione intrattabilemix di dati numerici/simbolici
Pochi datiattributi mancanti valori mancantidimensione insufficiente
Data preparation 6
Il Data Preprocessing è un Processo
Accesso ai datiEsplorazione dei dati
SorgentiQuantitàQualità
Ampliamento e arricchimento dei datiApplicazione di tecniche specifiche
Data preparation 7
Il Data Preprocessing dipende (ma non sempre) dall’Obiettivo
Alcune operazioni sono necessarieStudio dei datiPulizia dei datiCampionamento
Altre possono essere guidate dagli obiettivi
TrasformazioniSelezioni
Data preparation 8
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
Data preparation 9
Un tool Fondamentale: le queryBase di partenza: un data-mart
Dal data-mart estraiamo una tabella
Le informazioni sulla tabella permettono di effettuare data preprocessing
Selezione dati: SELECTAggiornamento dati: UPDATE e DELETE
Data preparation 10
È sempre necessario SQL?I moderni tool raggruppano una serie di operazioni in maniera uniformeLa metafora di interazione è visuale
Esempi:ClementineWeka
SQL è più genericoMa anche più difficile da usare
Data preparation 11
Overview di due strumentiClementine
Weka
Data preparation 12
Gli strumenti: ClementineAmbiente grafico intuitivo
Processo = flusso di dati (stream):Parte da nodi sorgente Attraversa nodi di trasformazione Arriva a nodi terminali
Data preparation 13
ClementineTool di Data Mining
Nodi per la generazione di modelli Nodi per i modelli scoperti
Data preparation 14
Gli Strumenti: WekaLibreria Java Open Source ricca di tool per il preprocessing e il Data MiningInterfaccia grafica semplificata: Explorer
Data preparation 15
Weka: le 3 fasi del processo1. Pannello per caricamento
dati e preprocessing
2. Pannelli per data mining
3. Pannello per visualizzazione (dot diagrams)
Data preparation 16
SQL: Selezione tupleTabella coinvolta:
Beers(name, manf)Query:
SELECT *FROM BeersWHERE manf = 'Anheuser-Busch'
Risposta: name manf Bud Anheuser-Bush Bud Lite Anheuser-Bush Michelob Anheuser-Bush
Data preparation 17
SQL: Selezione attributiConsente anche la rinomina delle colonneTabella coinvolta:
Beers(name, manf)Query:
SELECT name AS beerFROM Beers
Risposta: beerBudBud LiteMichelob
Data preparation 18
SQL: Attributi derivatiEspressioni come valori di colonneTabella coinvolta:
Sells(bar, beer, price)Query: SELECT bar, beer,
price*120 AS priceInYenFROM Sells
Risposta: bar beer p riceInY enJoe’s B ud 300S ue’s M ille r 360… … …
Data preparation 19
(Inner) JoinQuery che coinvolgono valori correlati in due tabelle diverseTabelle coinvolte:
Likes(drinker, beer)Frequents(drinker, bar)
Query: SELECT drinker, beer, barFROM Frequents, LikesWHERE Frequents.drinker =
Likes.drinker
Data preparation 20
Query su più relazioniEsempio: selezione (join vincolata)
Trova le birre che piacciono ai frequentatori del bar “Joe’s”Query: SELECT beer
FROM Frequents, LikesWHERE bar = “Joe’s Bar” ANDFrequents.drinker = Likes.drinker
+
Data preparation 21
Risposte multipleLe risposte sono “bags”
SELECT beerFROM Sells
Possiamo comunque utilizzare la parola chiave DISTINCTSELECT DISTINCT beerFROM Sells
beer Bud Miller Bud …
beer Bud Miller …
Data preparation 22
Unioni di queryDescrivi i prezzi maggiori di 100 come “alti”, tutti gli altri come “bassi”
(SELECT bar, beer, ‘high’ AS priceFROM SellsWHERE price > 100)
UNION(SELECT bar, beer, ‘low’ AS price
FROM SellsWHERE price <= 100)
Data preparation 23
SubqueryI risultati possono essere annidati
SELECT *FROM (
SELECT beerFROM LikesWHERE drinker = ‘Fred’)
WHERE price < 100
Data preparation 24
AggregatiTrova il prezzo medio della “Bud”
SELECT AVG(price)FROM SellsWHERE beer = ‘Bud’
Possiamo aggiungere in fondo al costrutto la parola chiave GROUP BY e una lista di attributi
SELECT beer, AVG(price)FROM SellsGROUP BY beer
Data preparation 25
OrdinamentoOrdina il risultato della querysecondo un attributo:
SELECT beerFROM LikesORDER BY Price
Data preparation 26
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
Data preparation 27
Oggetti, Proprietà, MisurazioniIl mondo reale consiste di oggetti
Automobili, Vigili, Norme, …Ad ogni oggetto è associabile un insieme di proprietà (features)
Colore, Cilindrata, Proprietario, …Su ogni proprietà è possibile stabilire delle misurazioni
Colore = rosso, Cilindrata = 50cc, Proprietario = Luigi, …
Data preparation 28
La nostra modellazioneLa realtà è descritta da una tabella
17114Edna17642Louis
Tom31Max
169Carl18121JohnHeightAgeName
Oggetti da studiare
Misurazione
Variabile
Proprietà (feature)
Data preparation 29
Tipi di misureMisure Discrete (simboliche)
Nominali identificatori univoci (Cod. Fiscale)Categoriche “etichette” ripetibili (Città)Ordinali è definito un ordine (low < high)Binarie due soli valori (T/F, 1/0,...)
Misure ContinueInterval-Based Scalabili di fattore costante
(es.: misure in MKS e CGS)Ratio-Scaled Scalabili linearmente (ax+b)
(es.: temperature °C e °F)
Data preparation 30
Caratteristiche delle variabiliSparsità
Mancanza di valore associato ad una variabileUn attributo è sparso se contiene molti valori nulli
MonotonicitàCrescita continua dei valori di una variabile
Intervallo [-∞, ∞] (o simili)Non ha senso considerare l’intero intervallo
OutlierValori singoli o con frequenza estremamente bassaPossono distorcere le informazioni sui dati
DimensionalitàIl numero di valori che una variabile può assumere può essere estremamente alto
Tipicamente riguarda valori categoriciAnacronismo
Una variabile può essere contingente: abbiamo i valori in una sola porzione dei dati
Data preparation 31
BiasUn fattore esterno significativo e rilevante nei dati
Comporta problemi (espliciti o impliciti) nei datiMolti valori della variabile Velocità in una tabella Infrazioni è alto
Il problema è sistematicoAppare con una certa persistenza
Il misuratore della velocità è tarato male
Il problema può essere trattatoIl valore è suscettibile di una distorsione, che deve essere considerata
Considera solo i valori che vanno oltre una certa tolleranza
Data preparation 32
Descrizione dei datiGrafici
Distribuzione frequenzeCorrelazioneDispersione
MisureMedia, mediana, quartiliVarianza, deviazione standardForma, simmetria, curtosi
Data preparation 33
Visualizzazione dati qualitativiRappresentazione delle frequenze
Diagrammi a barreOrtogrammiAerogrammi
CorrelazioneWeb diagrams
CiclicitàDiagrammi polari
Data preparation 34
Diagrammi di ParetoDiagrammi a barre distanziateUn assortimento di eventi presenta pochi picchi e molti elementi comuni
6
22
13
2
5
Rosso Verde Bianco Nero Grigio
Data preparation 35
OrtogrammiOgni colonna indica la la distribuzione interna per un dato valore e la frequenza
Data preparation 36
AerogrammiRappresentazioni a tortaFrequenza della distribuzione
VerdeBiancoNeroGrigioRosso
Data preparation 37
WebVisualizzano correlazioni tra valori simbolici
Data preparation 38
Diagrammi polariRappresentano fenomeni ciclici
Es., concentrazione delle vendite nell’arco settimanale
0%
5%
10%
15%
20%
25%Lunedi'
Martedi'
Mercoledi'
Giovedi'
Venerdi'
Sabato
Data preparation 39
Dati QuantitativiIstogrammiPoligoniStem and leafDot DiagramsDiagrammi quantili
Data preparation 40
IstogrammiRappresentazioni a barreEvidenziano la frequenza su intervalli adiacenti
La larghezza di ogni rettangolo misura l’ampiezza degli intervalli
Data preparation 41
PoligoniPer la descrizione di frequenze cumulativeI punti sono uniti tramite linee
0
10
20
30
40
50
0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
Data preparation 42
Rappresentazione “Stem & Leaf”Simile a istogrammiEvita la perdita di informazioneUtile per pochi dati
10-19 2 7 520-29 9 19 5 3 4 7 1 830-39 4 9 2 4 740-49 4 8 250-59 3
Data preparation 43
Dot Diagrams, ScattersVisualizza la Dispersione
Data preparation 44
Rappresentazioni BoxplotRappresentano
il grado di dispersione o variabilità dei dati (w.r.t. mediana e/o media)la simmetriala presenza di valori anomali
Le distanze tra i quartili definiscono la dispersione dei dati
Mediana
Primo Quartile
Min
Max
Secondo Quartile
Data preparation 45
Misure descrittive dei datiTendenza centrale o posizione
Media aritmetica, geometrica e armonica, mediana, quartili, percentili, moda
Dispersione o variabilitàRange, scarto medio, varianza, deviazione standard
Forma della distribuzioneSimmetria (medie interquartili, momenti centrali, indice di Fisher)Curtosi (indice di Pearson, coefficiente di curtosi)
Data preparation 46
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
Data preparation 47
Data CleaningTrattamento di valori anomaliTrattamento di outliersTrattamento di tipi impropri
Data preparation 48
Valori AnomaliValori mancanti
NULLValori sconosciuti
Privi di significatoValori non validi
Con valore noto ma non significativo
Data preparation 49
Trattamento di valori nulliEliminazione delle tupleSostituzione dei valori nulli
N.B.: può influenzare la distribuzione dei dati numericiUtilizzare media/mediana/modaPredire i valori mancanti utilizzando la distribuzione dei valori non nulliSegmentare i dati e utilizzare misure statistiche (media/moda/mediana) di ogni segmentoSegmentare i dati e utilizzare le distribuzioni di probabilità all’interno dei segmentiCostruire un modello di classificazione/regressione e utilizzare il modello per calcolare i valori nulli
Data preparation 50
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
Data preparation 51
Data ReductionRiduzione del volume dei dati
Verticale: riduzione numero di tupleData SamplingClustering
Orizzontale: riduzione numero di colonneSeleziona un sottoinsieme di attributiCrea un nuovo (e piccolo) insieme di attributi
Data preparation 52
Sampling (riduzione verticale)Riduce la complessità di esecuzione degli algoritmi di MiningProblema: scegliere un sottoinsieme rappresentativo dei dati
La scelta di un campionamento casuale può essere problematica per la presenza di picchi
Alternative: Schemi adattativi Stratified sampling:
Approssimiamo la percentuale di ogni classe (o sottopopolazione di interesse rispetto all’intero database)Adatto a distribuzioni con picchi: ogni picco è in uno strato
Possiamo combinare le tecniche random con la stratificazioneN.B.: Il Sampling potrebbe non ridurre I tempi di risposta se i dati risiedono su disco (page at a time).
Data preparation 53
Sampling
Raw Data Cluster/Stratified Sample
Data preparation 54
Riduzione Dimensionalità(Riduzione orizzontale)
Selezione di un sottoinsieme di attributiManuale
In seguito a analisi di significatività e/o correlazione con altri attributi
AutomaticoSelezione incrementale degli attributi “migliori”“Migliore” = rispetto a qualche misura di significatività statistica (es.: information gain).
Data preparation 55
Riduzione Dimensionalità(Riduzione orizzontale)
Creazione di nuovi attributi con i quali rappresentare le tuple
Principal components analysis (PCA)Trova le combinazioni lineari degli attributi nei k vettori ortonormali più significativiProietta le vecchie tuple sui nuovi attributi
Altri metodiFactor AnalysisDecomposizione SVD
Data preparation 56
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
Data preparation 57
Data Transformation: MotivazioniDati con errori o incompletiDati mal distribuiti
Forte asimmetria nei datiMolti picchi
La trasformazione dei dati può alleviare questi problemi
Data preparation 58
ObiettiviVogliamo definire una trasformazione Tsull’attributo X:
Y = T(X) tale che:
Y preservi l’informazione “rilevante” di XY elimini almeno uno dei problemi di XY sia più “utile” di X
Data preparation 59
ObiettiviScopi principali:
stabilizzare le varianzenormalizzare le distribuzionilinearizzare le relazioni tra variabili
Scopi secondari:semplificare l’elaborazione di dati che presentano caratteristiche non graditerappresentare i dati in una scala ritenuta più adatta.
Data preparation 60
Perché normalità, linearità, ecc.?Molte metodologie statistiche richiedono correlazioni lineari, distribuzioni normali, assenza di outlierMolti algoritmi di Data Mining hanno la capacità di trattare automaticamente non-linearità e non-normalità
Gli algoritmi lavorano comunque meglio se tali problemi sono assenti
Data preparation 61
MetodiTrasformazioni esponenziali
con a,b,c,d e p valori realipreservano l’ordinepreservano alcune statistiche di basesono funzioni continueammettono derivatesono specificate tramite funzioni semplici
⎩⎨⎧
=+≠+
=)0(log
)0()(
pdxcpbax
xTp
p
Data preparation 62
Migliorare l’interpretabilitàTrasformazioni lineari
1€ = 1936.27 Lit.p=1, a=1936.27, b =0
ºC= 5/9(ºF -32)p=1, a=5/9, b=-160/9
Data preparation 63
Normalizzazionimin-max normalization
z-score normalization
normalization tramite decimal scaling
AAA
AA
A minnewminnewmaxnewminmax
minvv _)__(' +−−
−=
A
A
devstandmeanvv−
−='
j
vv10
'= dove j è il più piccolo intero tale che Max(| v’ |)<1
Data preparation 64
Stabilizzare varianzeTrasformazione logaritmica
si applica a valori positiviomogeneizza varianze di distribuzioni log-normalies.: normalizza picchi stagionali
dxcxT += log)(
Data preparation 65
Trasformazione logaritmica: esempio
2300 Media2883,3333 Scarto medio assoluto3939,8598 Deviazione standard
5 Min120 Primo Quartile350 Mediana
1775 Secondo Quartile11000 Max
Dati troppo dispersi!!!
Bar Birra RicavoA Bud 20A Becks 10000C Bud 300D Bud 400D Becks 5E Becks 120E Bud 120F Bud 11000G Bud 1300H Bud 3200H Becks 1000I Bud 135
Data preparation 66
Trasformazione logaritmica: esempio
Bar Birra Ricavo (log)A Bud 1,301029996A Becks 4C Bud 2,477121255D Bud 2,602059991D Becks 0,698970004E Becks 2,079181246E Bud 2,079181246F Bud 4,041392685G Bud 3,113943352H Bud 3,505149978H Becks 3I Bud 2,130333768
Media 2,585697Scarto medio assoluto 0,791394Deviazione standard 1,016144Min 0,69897Primo Quartile 2,079181Mediana 2,539591Secondo Quartile 3,211745Max 4,041393
Data preparation 67
Stabilizzare varianze
Trasformazione in radicep = 1/c, c numero interoper omogeneizzare varianze di distribuzioni particolari, e.g., di Poisson
Trasformazione reciprocap < 0per l’analisi di serie temporali, quando la varianza aumenta in modo molto pronunciato rispetto alla media
baxxT p +=)(
Data preparation 68
Asimmetria dei dati
Simmetria e Media interpercentile
Se la media interpercentile è sbilanciata, allora la distribuzione dei dati è asimmetrica
sbilanciata a destra
sbilanciata a sinistra
Mxx
MxxM pppp =
+⇔−=− −
− 21
1
Mxp >
Mxp <
Data preparation 69
Asimmetria nei dati: esempioVerifichiamo la simmetria (valori di un unico attributo)
2.808 14.001 4.227 5.913 6.719 3.072 29.508 26.463 1.583 78.811 1.803 3.848 1.643 15.147 8.528
43.003 11.768 28.336 4.191 2.472 24.487 1.892 2.082 5.419 2.487 3.116 2.613 14.211 1.620 21.567 4.201 15.241 6.583 9.853 6.655 2.949 11.440 34.867 4.740 10.563 7.012 9.112 5.732 4.030 28.840
16.723 4.731 3.440 28.608 995
Data preparation 70
Asimmetria: esempioI valori della media interpercentile crescono col percentile consideratoDistribuzione sbilanciata a destra
Percentile Media Low HighM 6158 6158 6158F 9002 3278 14726E 12499 2335 22662D 15420 2117 28724C 16722 2155 31288
1 39903 995 78811
Data preparation 71
Creare simmetria nei dati: Trasformation plot
Trovare una trasformazione Tp che crei simmetriaConsideriamo i percentili xU e xL
I valori c ottenuti tramite la formula
suggeriscono dei valori adeguati per pIntuitivamente, compariamo la differenza assoluta e relativa tra mediana e medie interpercentiliil valore medio (mediano) dei valori di cè il valore della trasformazione
MxMMxcMxx LULU
4)()()1(
2
22 −+−−=−
+
Data preparation 72
Trasformation plot: esempio
Calcolando la mediana dei valori cotteniamo p=0.5188Proviamo con p=1/2...
(xL-xU)/2-M ((M- xL)^2+(xU –M)^2)/4M c2844.5 3317.5 0.142586341 11652.8 0.455839262.7 21338.8 0.5659210564.3 26292.5 0.59820
Data preparation 73
La curva si tempera, ma i valori alti continuano a produrre differenze notevoliProviamo a diminuire p…
Trasformazione 1: radice quadrataPercentile Media Low HighM 78,42283 78,42283 78,42283 0,50000F 89,28425 57,23633 121,33217 0,25000E 99,37319 48,27950 150,46688 0,12500D 107,58229 45,68337 169,48122 0,06250C 110,87427 45,05801 176,69054 0,03125
1 156,13829 31,54362 280,73297
xxT =)(
Data preparation 74
Trasformazione 2: radice quarta
I valori alti continuano ad influenzareProviamo con il logaritmo…
4)( xxT =Percentile Media Low HighM 8,85434 8,85434 8,85434 0,50000F 9,28978 7,56489 11,01467 0,25000E 9,60590 6,94676 12,26503 0,12500D 9,88271 6,74694 13,01849 0,06250C 9,97298 6,65710 13,28886 0,03125
1 11,18573 5,61637 16,75509
Data preparation 75
Trasformazione 3: logaritmo
xxT log)( =Percentile Media Low HighM 3,78836502 3,78836502 3,78836502 0,50000F 3,84144850 3,51507795 4,16781905 0,25000E 3,86059853 3,36672764 4,35446943 0,12500D 3,88578429 3,31332721 4,45824138 0,06250C 3,88573156 3,27798502 4,49347811 0,03125
1 3,94720496 2,99782308 4,89658684
Abbiamo ottenuto simmetria!
Data preparation 76
Semplificare le relazioni tra attributiEsempio: caso della regressione
La formula
può essere individuata studiando la relazione
dove z = log y e w = log x
pxy α=
pwz += αlog
Data preparation 77
DiscretizzazioneUnsupervised vs. SupervisedGlobale vs. LocaleStatica vs. DinamicaTask difficile
Difficile capire a priori qual’èla discretizzazione ottimale
bisognerebbe conoscere la distribuzione reale dei dati
Data preparation 78
Discretizzazione: VantaggiI dati originali possono avere valori continui estremamente sparsiI dati originali possono avere variabili multimodaliI dati discretizzati possono essere più semplici da interpretareLe distribuzioni dei dati discretizzate possono avere una forma “Normale”
I dati discretizzati possono essere ancora estremamente sparsi
Eliminazione della variabile in oggetto
Data preparation 79
Unsupervised DiscretizationCaratteristiche:
Non etichetta le istanzeIl numero di classi è noto a priori
Tecniche di binning:Natural binning
Intervalli di identica ampiezzaEqual Frequency binning
Intervalli di identica frequenzaStatistical binning
Uso di informazioni statistiche (Media, varianza, Quartili)
Data preparation 80
Quante classi?Se troppo poche
perdita di informazione sulla distribuzioneSe troppe
disperde i valori e non manifesta la “forma” della distribuzioneIl numero ottimale C di classi è funzione del numero N di elementi (Sturges, 1929)
L’ampiezza ottimale delle classi dipende dalla varianza e dal numero dei dati (Scott, 1979)
)(log3
101 10 NC +=
Nsh ⋅
=5,3
Data preparation 81
Natural BinningSempliceOrdino i valori, quindi divido il rangedi valori in k parti della stessa dimensione
L’elemento xj appartiene alla classe i sexj ∈ [xmin + iδ, xmin + (i+1)δ)
Può produrre distribuzioni molto sbilanciate
kxx minmax −=δ
Data preparation 82
Esempio
δ =(160-100)/4 = 15classe 1: [100,115)classe 2: [115,130)classe 3: [130,145)classe 4: [145,160]
Bar Beer Price
A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135
Data preparation 83
Equal Frequency BinningOrdino e conto gli elementi, quindi definisco k intervalli di f elementi, dove:
L’elemento xj appartiene alla classe i se:i × f ≤ j < (i+1) × f
Non sempre adatta ad evidenziare correlazioni interessanti
kNf =
Data preparation 84
Esempio
f = 12/4 = 3classe 1: {100,110,110}classe 2: {120,120,125}classe 3: {130,130,135}classe 4: {140,150,160}
Bar Beer Price
A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135
Data preparation 85
Supervised DiscretizationCaratteristiche:
La discretizzazione ha un obiettivo quantificabileIl numero di classi non è noto a priori
Tecniche:ChiMergeDiscretizzazione basata sull’entropiaDiscretizzazione basata sui percentili
Data preparation 86
Supervised Discretization: ChiMerge
Procedimento Bottom-up:Inizialmente, ogni valore è un intervallo a séIntervalli adiacenti sono iterativamente uniti se sono similiLa similitudine è misurata sulla base dell’attributo target, contando quanto i due intervalli sono “diversi”
Data preparation 87
ChiMerge: criterio di similitudineBasato sul test del chi quadrok = numero di valori differenti dell’attributo targetAij = numero di casi della j-esima classe nell’i-esimo intervalloRi = numero di casi nell’i-esimo intervallo
Cj = numero di casi nella j-esima classe
Eij = frequenza attesa di Aij (Ri *Cj /N)
∑ =
k
j ijA1
∑ =
2
1i ijA
Data preparation 88
Test del Chi Quadro per la discretizzazione
1 2 … K Total1 A11 A12 … A1k R1
2 A21 A22 … A2k R2
Total C1 C2 … Ck N
Si individua quanto due intervalli sono “distinti”k-1 gradi di libertàLa significativitàdel test è data da una soglia δ
Probabilità che l’intervallo in questione e la classe siano indipendenti
∑∑= =
−=
2
1 1
22 )(
i
k
j ij
ijij
EEA
χ
Data preparation 89
EsempioDiscretizzazionerispetto a Beersoglia 50% confidenzaVogliamo ottenere una discretizzazionedel prezzo che permetta di mantenere omogeneità su Beer
Bar Beer Price
A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135
Data preparation 90
Esempio: valori di ChiScegliamo i elementi adiacenti con Chi-Value minimo
Bud Becks100 1 0110 2 0120 1 1125 1 0130 2 0135 1 0140 0 1150 0 1160 0 1
Data preparation 91
Esempio: passo 1
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0
150-160 0 2 1.38629
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0150 0 1 0160 0 1 1.38629
Data preparation 92
Esempio: passo 2
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 4
140-150-160 0 3 1.38629
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0
150-160 0 2 1.38629
Data preparation 93
Esempio: passo 3Bud Becks Chi Value
100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 4
140-150-160 0 3 1.38629
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0
130-135 3 0 6140-150-160 0 3 1.38629
Data preparation 94
Esempio: passo 4Bud Becks Chi Value
100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0
130-135 3 0 6140-150-160 0 3 1.38629
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 2.4
125-130-135 4 0 7140-150-160 0 3 1.38629
Data preparation 95
Esempio: passo 5Bud Becks Chi Value
100 1 0 0110 2 0 1.33333120 1 1 2.4
125-130-135 4 0 7140-150-160 0 3 1.38629
Bud Becks Chi Value100-110 3 0 1.875
120 1 1 2.4125-130-135 4 0 7140-150-160 0 3 1.38629
Tutti i valori sono oltre il 50% di confidenza(min = 1.38)
Appendice
Misure descrittive dei dati
Data preparation 97
Media AritmeticaPer effettuare la correzione di errori accidentali
permette di sostituire i valori di ogni elemento senza cambiare il totale
Sostituzione di valori NULL
Monotona crescente
∑=
=n
iix
nx
1
1
xxkxkn
n
ii =⎟
⎠
⎞⎜⎝
⎛+
+ ∑=1
1
Data preparation 98
Media Geometrica
Per bilanciare proporzioniDati moltiplicativi
La media aritmetica dei logaritmi è il logaritmo della media geometricaMonotona crescente
nn
iig xx ∏
=
=1
∑=
=n
iig x
nx
1log1log
Variazioni PrezziProdotto1996 1997
A 100 200B 100 50Media 100 125
100=gx
Data preparation 99
Media ArmonicaMonotona decrescentePer misure su dimensioni fisicheEs., serie temporali ∑
=
= n
i i
a
x
nx
1
1
Data preparation 100
MedianaIl valore centrale in un insieme ordinato di datiRobusta
poco influenzata dalla presenza di dati anomali
1 7 12 18 23 34 54
3.21=x
23=M
Data preparation 101
Mediana e QuartiliDivide un insieme di dati a metà
statistica robusta (non influenzata da valori con rilevanti differenze)ulteriori punti di divisione
Interquartilimediane degli intervalli dei dati superiore e inferioreun quarto dei dati osservati è sopra/sotto il quartile
Percentilidi grado p: il p% dei dati osservati è sopra/sotto il percentilemediana: 50-esimo percentileprimo quartile: 25-esimo percentilesecondo quartile: 75-esimo percentile
max, minrange = max-min
Data preparation 102
PercentiliRappresentati con xp
Utilizziamo le lettere per esprimerli
Etichetta P
M ½= 0.5
F ¼=0.25
E 1/8=.125
D 1/16=0.625
C 1/32=0.3125
B 1/64
A 1/128
Z 1/256
Y 1/512
X 1/1024
Data preparation 103
ModaMisura della frequenza dei dati
a a b b c c a d b c a e c b a a
moda = a (f = 6)Significativo per dati categoriciNon risente di picchiMolto instabile
Data preparation 104
Range, Deviazione mediaIntervallo di variazione
Scarti interquantili
Scarto medio assoluto
Scarto medio assoluto dalla mediana
In generale, S.5 ≤ Sn
r = max-min
ppp xxr −= −100
∑=
−=n
iin xx
nS
1
1
∑=
−=n
iiM Mx
nS
1
1
Data preparation 105
Varianza, deviazione standardmisure di mutua variabilità tra i dati di una serieDevianza empirica
Varianza
Coefficiente di variazionemisura relativa
( )∑=
−=n
ii xx
ns
1
22 1
( )∑=
−=n
ii xxdev
1
2
xsV =
Data preparation 106
SimmetriaSi ha simmetria quando media, moda e mediana coincidono
condizione necessaria, non sufficiente Asimmetria sinistra: moda, mediana, mediaAsimmetria destra: media, mediana, moda
Data preparation 107
Simmetria (Cont.)Indici di asimmetria
medie interquartili
Momenti centrali
indice di Fisherγ nullo per distribuzioni simmetricheγ >0: sbilanciamenti a destraγ<0: sbilanciamento a sinistra
( )∑=
−−
=n
i
kik xx
nm
111
33
sm
=γ
2)( 1 ppp xxx += −
Data preparation 108
CurtosiGrado di appiattimento della curva di distribuzione rispetto alla curva normale
mesocurtica: forma uguale alla distribuzione normale; leptocurtica: una frequenza minore delle classi intermedie, frequenza maggiore delle classi estreme e dei valori centrali;platicurtica: una frequenza minore delle classi centrali e di quelle estreme, con una frequenza maggiore di quelle intermedie
numero più ridotto di valori centrali.
Data preparation 109
Curtosi (cont.)Indice di Pearson
β=3: distribuzione mesocurticaβ >3: distribuzione leptocurticaβ <3: distribuzione platicurtica
Coefficiente di curtosiUna distribuzione leptocurtica ha K ~ 1/2platicurtosi: K~0
44
sm
=β
( )( )10.90.
25.75.21
xxxxK
−−
=
Data preparation 110
Coefficienti di CorrelazioneCovarianza
Coefficiente di Pearson yx
xy ssyxCovr ),(
=
∑=
−−−
=n
iii yyxx
nyxCov
1))((
11),(