Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso...

110
Data preparation Sistemi informativi per le Decisioni Slide a cura di prof. Claudio Sartori

Transcript of Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso...

Page 1: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation

Sistemi informativi per le Decisioni

Slide a cura di prof. Claudio Sartori

Page 2: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 2

Preparazione datiIntroduzione e Concetti di Base

MotivazioniIl punto di partenza: dati consolidati, Data Marts

Data SelectionManipolazione di Tabelle

Information GatheringMisurazioniVisualizzazioniStatistiche

Data cleaningTrattamento di valori anomaliIdentificazione di OutliersRisoluzione di inconsistenze

Data reductionCampionamentoRiduzione di Dimensionalità

Data transformationNormalizzazioniaggregazioneDiscretizzazione

Page 3: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 3

OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation

Page 4: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 4

Il Processo di KDD

Selection and Selection and PreprocessingPreprocessing

Data Mining

Interpretation and Evaluation

Data Consolidation

Knowledge

p(x)=0.02

Warehouse

Data Sources

Patterns & Models

Prepared Data

ConsolidatedData

Page 5: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 5

Problemi tipiciTroppi dati

dati sbagliati, rumorosidati non rilevantidimensione intrattabilemix di dati numerici/simbolici

Pochi datiattributi mancanti valori mancantidimensione insufficiente

Page 6: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 6

Il Data Preprocessing è un Processo

Accesso ai datiEsplorazione dei dati

SorgentiQuantitàQualità

Ampliamento e arricchimento dei datiApplicazione di tecniche specifiche

Page 7: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 7

Il Data Preprocessing dipende (ma non sempre) dall’Obiettivo

Alcune operazioni sono necessarieStudio dei datiPulizia dei datiCampionamento

Altre possono essere guidate dagli obiettivi

TrasformazioniSelezioni

Page 8: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 8

OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation

Page 9: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 9

Un tool Fondamentale: le queryBase di partenza: un data-mart

Dal data-mart estraiamo una tabella

Le informazioni sulla tabella permettono di effettuare data preprocessing

Selezione dati: SELECTAggiornamento dati: UPDATE e DELETE

Page 10: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 10

È sempre necessario SQL?I moderni tool raggruppano una serie di operazioni in maniera uniformeLa metafora di interazione è visuale

Esempi:ClementineWeka

SQL è più genericoMa anche più difficile da usare

Page 11: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 11

Overview di due strumentiClementine

Weka

Page 12: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 12

Gli strumenti: ClementineAmbiente grafico intuitivo

Processo = flusso di dati (stream):Parte da nodi sorgente Attraversa nodi di trasformazione Arriva a nodi terminali

Page 13: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 13

ClementineTool di Data Mining

Nodi per la generazione di modelli Nodi per i modelli scoperti

Page 14: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 14

Gli Strumenti: WekaLibreria Java Open Source ricca di tool per il preprocessing e il Data MiningInterfaccia grafica semplificata: Explorer

Page 15: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 15

Weka: le 3 fasi del processo1. Pannello per caricamento

dati e preprocessing

2. Pannelli per data mining

3. Pannello per visualizzazione (dot diagrams)

Page 16: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 16

SQL: Selezione tupleTabella coinvolta:

Beers(name, manf)Query:

SELECT *FROM BeersWHERE manf = 'Anheuser-Busch'

Risposta: name manf Bud Anheuser-Bush Bud Lite Anheuser-Bush Michelob Anheuser-Bush

Page 17: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 17

SQL: Selezione attributiConsente anche la rinomina delle colonneTabella coinvolta:

Beers(name, manf)Query:

SELECT name AS beerFROM Beers

Risposta: beerBudBud LiteMichelob

Page 18: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 18

SQL: Attributi derivatiEspressioni come valori di colonneTabella coinvolta:

Sells(bar, beer, price)Query: SELECT bar, beer,

price*120 AS priceInYenFROM Sells

Risposta: bar beer p riceInY enJoe’s B ud 300S ue’s M ille r 360… … …

Page 19: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 19

(Inner) JoinQuery che coinvolgono valori correlati in due tabelle diverseTabelle coinvolte:

Likes(drinker, beer)Frequents(drinker, bar)

Query: SELECT drinker, beer, barFROM Frequents, LikesWHERE Frequents.drinker =

Likes.drinker

Page 20: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 20

Query su più relazioniEsempio: selezione (join vincolata)

Trova le birre che piacciono ai frequentatori del bar “Joe’s”Query: SELECT beer

FROM Frequents, LikesWHERE bar = “Joe’s Bar” ANDFrequents.drinker = Likes.drinker

+

Page 21: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 21

Risposte multipleLe risposte sono “bags”

SELECT beerFROM Sells

Possiamo comunque utilizzare la parola chiave DISTINCTSELECT DISTINCT beerFROM Sells

beer Bud Miller Bud …

beer Bud Miller …

Page 22: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 22

Unioni di queryDescrivi i prezzi maggiori di 100 come “alti”, tutti gli altri come “bassi”

(SELECT bar, beer, ‘high’ AS priceFROM SellsWHERE price > 100)

UNION(SELECT bar, beer, ‘low’ AS price

FROM SellsWHERE price <= 100)

Page 23: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 23

SubqueryI risultati possono essere annidati

SELECT *FROM (

SELECT beerFROM LikesWHERE drinker = ‘Fred’)

WHERE price < 100

Page 24: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 24

AggregatiTrova il prezzo medio della “Bud”

SELECT AVG(price)FROM SellsWHERE beer = ‘Bud’

Possiamo aggiungere in fondo al costrutto la parola chiave GROUP BY e una lista di attributi

SELECT beer, AVG(price)FROM SellsGROUP BY beer

Page 25: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 25

OrdinamentoOrdina il risultato della querysecondo un attributo:

SELECT beerFROM LikesORDER BY Price

Page 26: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 26

OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation

Page 27: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 27

Oggetti, Proprietà, MisurazioniIl mondo reale consiste di oggetti

Automobili, Vigili, Norme, …Ad ogni oggetto è associabile un insieme di proprietà (features)

Colore, Cilindrata, Proprietario, …Su ogni proprietà è possibile stabilire delle misurazioni

Colore = rosso, Cilindrata = 50cc, Proprietario = Luigi, …

Page 28: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 28

La nostra modellazioneLa realtà è descritta da una tabella

17114Edna17642Louis

Tom31Max

169Carl18121JohnHeightAgeName

Oggetti da studiare

Misurazione

Variabile

Proprietà (feature)

Page 29: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 29

Tipi di misureMisure Discrete (simboliche)

Nominali identificatori univoci (Cod. Fiscale)Categoriche “etichette” ripetibili (Città)Ordinali è definito un ordine (low < high)Binarie due soli valori (T/F, 1/0,...)

Misure ContinueInterval-Based Scalabili di fattore costante

(es.: misure in MKS e CGS)Ratio-Scaled Scalabili linearmente (ax+b)

(es.: temperature °C e °F)

Page 30: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 30

Caratteristiche delle variabiliSparsità

Mancanza di valore associato ad una variabileUn attributo è sparso se contiene molti valori nulli

MonotonicitàCrescita continua dei valori di una variabile

Intervallo [-∞, ∞] (o simili)Non ha senso considerare l’intero intervallo

OutlierValori singoli o con frequenza estremamente bassaPossono distorcere le informazioni sui dati

DimensionalitàIl numero di valori che una variabile può assumere può essere estremamente alto

Tipicamente riguarda valori categoriciAnacronismo

Una variabile può essere contingente: abbiamo i valori in una sola porzione dei dati

Page 31: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 31

BiasUn fattore esterno significativo e rilevante nei dati

Comporta problemi (espliciti o impliciti) nei datiMolti valori della variabile Velocità in una tabella Infrazioni è alto

Il problema è sistematicoAppare con una certa persistenza

Il misuratore della velocità è tarato male

Il problema può essere trattatoIl valore è suscettibile di una distorsione, che deve essere considerata

Considera solo i valori che vanno oltre una certa tolleranza

Page 32: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 32

Descrizione dei datiGrafici

Distribuzione frequenzeCorrelazioneDispersione

MisureMedia, mediana, quartiliVarianza, deviazione standardForma, simmetria, curtosi

Page 33: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 33

Visualizzazione dati qualitativiRappresentazione delle frequenze

Diagrammi a barreOrtogrammiAerogrammi

CorrelazioneWeb diagrams

CiclicitàDiagrammi polari

Page 34: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 34

Diagrammi di ParetoDiagrammi a barre distanziateUn assortimento di eventi presenta pochi picchi e molti elementi comuni

6

22

13

2

5

Rosso Verde Bianco Nero Grigio

Page 35: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 35

OrtogrammiOgni colonna indica la la distribuzione interna per un dato valore e la frequenza

Page 36: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 36

AerogrammiRappresentazioni a tortaFrequenza della distribuzione

VerdeBiancoNeroGrigioRosso

Page 37: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 37

WebVisualizzano correlazioni tra valori simbolici

Page 38: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 38

Diagrammi polariRappresentano fenomeni ciclici

Es., concentrazione delle vendite nell’arco settimanale

0%

5%

10%

15%

20%

25%Lunedi'

Martedi'

Mercoledi'

Giovedi'

Venerdi'

Sabato

Page 39: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 39

Dati QuantitativiIstogrammiPoligoniStem and leafDot DiagramsDiagrammi quantili

Page 40: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 40

IstogrammiRappresentazioni a barreEvidenziano la frequenza su intervalli adiacenti

La larghezza di ogni rettangolo misura l’ampiezza degli intervalli

Page 41: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 41

PoligoniPer la descrizione di frequenze cumulativeI punti sono uniti tramite linee

0

10

20

30

40

50

0-10

10-20

20-30

30-40

40-50

50-60

60-70

70-80

Page 42: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 42

Rappresentazione “Stem & Leaf”Simile a istogrammiEvita la perdita di informazioneUtile per pochi dati

10-19 2 7 520-29 9 19 5 3 4 7 1 830-39 4 9 2 4 740-49 4 8 250-59 3

Page 43: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 43

Dot Diagrams, ScattersVisualizza la Dispersione

Page 44: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 44

Rappresentazioni BoxplotRappresentano

il grado di dispersione o variabilità dei dati (w.r.t. mediana e/o media)la simmetriala presenza di valori anomali

Le distanze tra i quartili definiscono la dispersione dei dati

Mediana

Primo Quartile

Min

Max

Secondo Quartile

Page 45: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 45

Misure descrittive dei datiTendenza centrale o posizione

Media aritmetica, geometrica e armonica, mediana, quartili, percentili, moda

Dispersione o variabilitàRange, scarto medio, varianza, deviazione standard

Forma della distribuzioneSimmetria (medie interquartili, momenti centrali, indice di Fisher)Curtosi (indice di Pearson, coefficiente di curtosi)

Page 46: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 46

OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation

Page 47: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 47

Data CleaningTrattamento di valori anomaliTrattamento di outliersTrattamento di tipi impropri

Page 48: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 48

Valori AnomaliValori mancanti

NULLValori sconosciuti

Privi di significatoValori non validi

Con valore noto ma non significativo

Page 49: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 49

Trattamento di valori nulliEliminazione delle tupleSostituzione dei valori nulli

N.B.: può influenzare la distribuzione dei dati numericiUtilizzare media/mediana/modaPredire i valori mancanti utilizzando la distribuzione dei valori non nulliSegmentare i dati e utilizzare misure statistiche (media/moda/mediana) di ogni segmentoSegmentare i dati e utilizzare le distribuzioni di probabilità all’interno dei segmentiCostruire un modello di classificazione/regressione e utilizzare il modello per calcolare i valori nulli

Page 50: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 50

OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation

Page 51: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 51

Data ReductionRiduzione del volume dei dati

Verticale: riduzione numero di tupleData SamplingClustering

Orizzontale: riduzione numero di colonneSeleziona un sottoinsieme di attributiCrea un nuovo (e piccolo) insieme di attributi

Page 52: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 52

Sampling (riduzione verticale)Riduce la complessità di esecuzione degli algoritmi di MiningProblema: scegliere un sottoinsieme rappresentativo dei dati

La scelta di un campionamento casuale può essere problematica per la presenza di picchi

Alternative: Schemi adattativi Stratified sampling:

Approssimiamo la percentuale di ogni classe (o sottopopolazione di interesse rispetto all’intero database)Adatto a distribuzioni con picchi: ogni picco è in uno strato

Possiamo combinare le tecniche random con la stratificazioneN.B.: Il Sampling potrebbe non ridurre I tempi di risposta se i dati risiedono su disco (page at a time).

Page 53: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 53

Sampling

Raw Data Cluster/Stratified Sample

Page 54: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 54

Riduzione Dimensionalità(Riduzione orizzontale)

Selezione di un sottoinsieme di attributiManuale

In seguito a analisi di significatività e/o correlazione con altri attributi

AutomaticoSelezione incrementale degli attributi “migliori”“Migliore” = rispetto a qualche misura di significatività statistica (es.: information gain).

Page 55: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 55

Riduzione Dimensionalità(Riduzione orizzontale)

Creazione di nuovi attributi con i quali rappresentare le tuple

Principal components analysis (PCA)Trova le combinazioni lineari degli attributi nei k vettori ortonormali più significativiProietta le vecchie tuple sui nuovi attributi

Altri metodiFactor AnalysisDecomposizione SVD

Page 56: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 56

OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation

Page 57: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 57

Data Transformation: MotivazioniDati con errori o incompletiDati mal distribuiti

Forte asimmetria nei datiMolti picchi

La trasformazione dei dati può alleviare questi problemi

Page 58: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 58

ObiettiviVogliamo definire una trasformazione Tsull’attributo X:

Y = T(X) tale che:

Y preservi l’informazione “rilevante” di XY elimini almeno uno dei problemi di XY sia più “utile” di X

Page 59: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 59

ObiettiviScopi principali:

stabilizzare le varianzenormalizzare le distribuzionilinearizzare le relazioni tra variabili

Scopi secondari:semplificare l’elaborazione di dati che presentano caratteristiche non graditerappresentare i dati in una scala ritenuta più adatta.

Page 60: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 60

Perché normalità, linearità, ecc.?Molte metodologie statistiche richiedono correlazioni lineari, distribuzioni normali, assenza di outlierMolti algoritmi di Data Mining hanno la capacità di trattare automaticamente non-linearità e non-normalità

Gli algoritmi lavorano comunque meglio se tali problemi sono assenti

Page 61: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 61

MetodiTrasformazioni esponenziali

con a,b,c,d e p valori realipreservano l’ordinepreservano alcune statistiche di basesono funzioni continueammettono derivatesono specificate tramite funzioni semplici

⎩⎨⎧

=+≠+

=)0(log

)0()(

pdxcpbax

xTp

p

Page 62: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 62

Migliorare l’interpretabilitàTrasformazioni lineari

1€ = 1936.27 Lit.p=1, a=1936.27, b =0

ºC= 5/9(ºF -32)p=1, a=5/9, b=-160/9

Page 63: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 63

Normalizzazionimin-max normalization

z-score normalization

normalization tramite decimal scaling

AAA

AA

A minnewminnewmaxnewminmax

minvv _)__(' +−−

−=

A

A

devstandmeanvv−

−='

j

vv10

'= dove j è il più piccolo intero tale che Max(| v’ |)<1

Page 64: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 64

Stabilizzare varianzeTrasformazione logaritmica

si applica a valori positiviomogeneizza varianze di distribuzioni log-normalies.: normalizza picchi stagionali

dxcxT += log)(

Page 65: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 65

Trasformazione logaritmica: esempio

2300 Media2883,3333 Scarto medio assoluto3939,8598 Deviazione standard

5 Min120 Primo Quartile350 Mediana

1775 Secondo Quartile11000 Max

Dati troppo dispersi!!!

Bar Birra RicavoA Bud 20A Becks 10000C Bud 300D Bud 400D Becks 5E Becks 120E Bud 120F Bud 11000G Bud 1300H Bud 3200H Becks 1000I Bud 135

Page 66: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 66

Trasformazione logaritmica: esempio

Bar Birra Ricavo (log)A Bud 1,301029996A Becks 4C Bud 2,477121255D Bud 2,602059991D Becks 0,698970004E Becks 2,079181246E Bud 2,079181246F Bud 4,041392685G Bud 3,113943352H Bud 3,505149978H Becks 3I Bud 2,130333768

Media 2,585697Scarto medio assoluto 0,791394Deviazione standard 1,016144Min 0,69897Primo Quartile 2,079181Mediana 2,539591Secondo Quartile 3,211745Max 4,041393

Page 67: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 67

Stabilizzare varianze

Trasformazione in radicep = 1/c, c numero interoper omogeneizzare varianze di distribuzioni particolari, e.g., di Poisson

Trasformazione reciprocap < 0per l’analisi di serie temporali, quando la varianza aumenta in modo molto pronunciato rispetto alla media

baxxT p +=)(

Page 68: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 68

Asimmetria dei dati

Simmetria e Media interpercentile

Se la media interpercentile è sbilanciata, allora la distribuzione dei dati è asimmetrica

sbilanciata a destra

sbilanciata a sinistra

Mxx

MxxM pppp =

+⇔−=− −

− 21

1

Mxp >

Mxp <

Page 69: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 69

Asimmetria nei dati: esempioVerifichiamo la simmetria (valori di un unico attributo)

2.808 14.001 4.227 5.913 6.719 3.072 29.508 26.463 1.583 78.811 1.803 3.848 1.643 15.147 8.528

43.003 11.768 28.336 4.191 2.472 24.487 1.892 2.082 5.419 2.487 3.116 2.613 14.211 1.620 21.567 4.201 15.241 6.583 9.853 6.655 2.949 11.440 34.867 4.740 10.563 7.012 9.112 5.732 4.030 28.840

16.723 4.731 3.440 28.608 995

Page 70: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 70

Asimmetria: esempioI valori della media interpercentile crescono col percentile consideratoDistribuzione sbilanciata a destra

Percentile Media Low HighM 6158 6158 6158F 9002 3278 14726E 12499 2335 22662D 15420 2117 28724C 16722 2155 31288

1 39903 995 78811

Page 71: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 71

Creare simmetria nei dati: Trasformation plot

Trovare una trasformazione Tp che crei simmetriaConsideriamo i percentili xU e xL

I valori c ottenuti tramite la formula

suggeriscono dei valori adeguati per pIntuitivamente, compariamo la differenza assoluta e relativa tra mediana e medie interpercentiliil valore medio (mediano) dei valori di cè il valore della trasformazione

MxMMxcMxx LULU

4)()()1(

2

22 −+−−=−

+

Page 72: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 72

Trasformation plot: esempio

Calcolando la mediana dei valori cotteniamo p=0.5188Proviamo con p=1/2...

(xL-xU)/2-M ((M- xL)^2+(xU –M)^2)/4M c2844.5 3317.5 0.142586341 11652.8 0.455839262.7 21338.8 0.5659210564.3 26292.5 0.59820

Page 73: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 73

La curva si tempera, ma i valori alti continuano a produrre differenze notevoliProviamo a diminuire p…

Trasformazione 1: radice quadrataPercentile Media Low HighM 78,42283 78,42283 78,42283 0,50000F 89,28425 57,23633 121,33217 0,25000E 99,37319 48,27950 150,46688 0,12500D 107,58229 45,68337 169,48122 0,06250C 110,87427 45,05801 176,69054 0,03125

1 156,13829 31,54362 280,73297

xxT =)(

Page 74: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 74

Trasformazione 2: radice quarta

I valori alti continuano ad influenzareProviamo con il logaritmo…

4)( xxT =Percentile Media Low HighM 8,85434 8,85434 8,85434 0,50000F 9,28978 7,56489 11,01467 0,25000E 9,60590 6,94676 12,26503 0,12500D 9,88271 6,74694 13,01849 0,06250C 9,97298 6,65710 13,28886 0,03125

1 11,18573 5,61637 16,75509

Page 75: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 75

Trasformazione 3: logaritmo

xxT log)( =Percentile Media Low HighM 3,78836502 3,78836502 3,78836502 0,50000F 3,84144850 3,51507795 4,16781905 0,25000E 3,86059853 3,36672764 4,35446943 0,12500D 3,88578429 3,31332721 4,45824138 0,06250C 3,88573156 3,27798502 4,49347811 0,03125

1 3,94720496 2,99782308 4,89658684

Abbiamo ottenuto simmetria!

Page 76: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 76

Semplificare le relazioni tra attributiEsempio: caso della regressione

La formula

può essere individuata studiando la relazione

dove z = log y e w = log x

pxy α=

pwz += αlog

Page 77: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 77

DiscretizzazioneUnsupervised vs. SupervisedGlobale vs. LocaleStatica vs. DinamicaTask difficile

Difficile capire a priori qual’èla discretizzazione ottimale

bisognerebbe conoscere la distribuzione reale dei dati

Page 78: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 78

Discretizzazione: VantaggiI dati originali possono avere valori continui estremamente sparsiI dati originali possono avere variabili multimodaliI dati discretizzati possono essere più semplici da interpretareLe distribuzioni dei dati discretizzate possono avere una forma “Normale”

I dati discretizzati possono essere ancora estremamente sparsi

Eliminazione della variabile in oggetto

Page 79: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 79

Unsupervised DiscretizationCaratteristiche:

Non etichetta le istanzeIl numero di classi è noto a priori

Tecniche di binning:Natural binning

Intervalli di identica ampiezzaEqual Frequency binning

Intervalli di identica frequenzaStatistical binning

Uso di informazioni statistiche (Media, varianza, Quartili)

Page 80: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 80

Quante classi?Se troppo poche

perdita di informazione sulla distribuzioneSe troppe

disperde i valori e non manifesta la “forma” della distribuzioneIl numero ottimale C di classi è funzione del numero N di elementi (Sturges, 1929)

L’ampiezza ottimale delle classi dipende dalla varianza e dal numero dei dati (Scott, 1979)

)(log3

101 10 NC +=

Nsh ⋅

=5,3

Page 81: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 81

Natural BinningSempliceOrdino i valori, quindi divido il rangedi valori in k parti della stessa dimensione

L’elemento xj appartiene alla classe i sexj ∈ [xmin + iδ, xmin + (i+1)δ)

Può produrre distribuzioni molto sbilanciate

kxx minmax −=δ

Page 82: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 82

Esempio

δ =(160-100)/4 = 15classe 1: [100,115)classe 2: [115,130)classe 3: [130,145)classe 4: [145,160]

Bar Beer Price

A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135

Page 83: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 83

Equal Frequency BinningOrdino e conto gli elementi, quindi definisco k intervalli di f elementi, dove:

L’elemento xj appartiene alla classe i se:i × f ≤ j < (i+1) × f

Non sempre adatta ad evidenziare correlazioni interessanti

kNf =

Page 84: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 84

Esempio

f = 12/4 = 3classe 1: {100,110,110}classe 2: {120,120,125}classe 3: {130,130,135}classe 4: {140,150,160}

Bar Beer Price

A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135

Page 85: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 85

Supervised DiscretizationCaratteristiche:

La discretizzazione ha un obiettivo quantificabileIl numero di classi non è noto a priori

Tecniche:ChiMergeDiscretizzazione basata sull’entropiaDiscretizzazione basata sui percentili

Page 86: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 86

Supervised Discretization: ChiMerge

Procedimento Bottom-up:Inizialmente, ogni valore è un intervallo a séIntervalli adiacenti sono iterativamente uniti se sono similiLa similitudine è misurata sulla base dell’attributo target, contando quanto i due intervalli sono “diversi”

Page 87: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 87

ChiMerge: criterio di similitudineBasato sul test del chi quadrok = numero di valori differenti dell’attributo targetAij = numero di casi della j-esima classe nell’i-esimo intervalloRi = numero di casi nell’i-esimo intervallo

Cj = numero di casi nella j-esima classe

Eij = frequenza attesa di Aij (Ri *Cj /N)

∑ =

k

j ijA1

∑ =

2

1i ijA

Page 88: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 88

Test del Chi Quadro per la discretizzazione

1 2 … K Total1 A11 A12 … A1k R1

2 A21 A22 … A2k R2

Total C1 C2 … Ck N

Si individua quanto due intervalli sono “distinti”k-1 gradi di libertàLa significativitàdel test è data da una soglia δ

Probabilità che l’intervallo in questione e la classe siano indipendenti

∑∑= =

−=

2

1 1

22 )(

i

k

j ij

ijij

EEA

χ

Page 89: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 89

EsempioDiscretizzazionerispetto a Beersoglia 50% confidenzaVogliamo ottenere una discretizzazionedel prezzo che permetta di mantenere omogeneità su Beer

Bar Beer Price

A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135

Page 90: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 90

Esempio: valori di ChiScegliamo i elementi adiacenti con Chi-Value minimo

Bud Becks100 1 0110 2 0120 1 1125 1 0130 2 0135 1 0140 0 1150 0 1160 0 1

Page 91: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 91

Esempio: passo 1

Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0

150-160 0 2 1.38629

Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0150 0 1 0160 0 1 1.38629

Page 92: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 92

Esempio: passo 2

Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 4

140-150-160 0 3 1.38629

Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0

150-160 0 2 1.38629

Page 93: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 93

Esempio: passo 3Bud Becks Chi Value

100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 4

140-150-160 0 3 1.38629

Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0

130-135 3 0 6140-150-160 0 3 1.38629

Page 94: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 94

Esempio: passo 4Bud Becks Chi Value

100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0

130-135 3 0 6140-150-160 0 3 1.38629

Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 2.4

125-130-135 4 0 7140-150-160 0 3 1.38629

Page 95: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 95

Esempio: passo 5Bud Becks Chi Value

100 1 0 0110 2 0 1.33333120 1 1 2.4

125-130-135 4 0 7140-150-160 0 3 1.38629

Bud Becks Chi Value100-110 3 0 1.875

120 1 1 2.4125-130-135 4 0 7140-150-160 0 3 1.38629

Tutti i valori sono oltre il 50% di confidenza(min = 1.38)

Page 96: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Appendice

Misure descrittive dei dati

Page 97: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 97

Media AritmeticaPer effettuare la correzione di errori accidentali

permette di sostituire i valori di ogni elemento senza cambiare il totale

Sostituzione di valori NULL

Monotona crescente

∑=

=n

iix

nx

1

1

xxkxkn

n

ii =⎟

⎞⎜⎝

⎛+

+ ∑=1

1

Page 98: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 98

Media Geometrica

Per bilanciare proporzioniDati moltiplicativi

La media aritmetica dei logaritmi è il logaritmo della media geometricaMonotona crescente

nn

iig xx ∏

=

=1

∑=

=n

iig x

nx

1log1log

Variazioni PrezziProdotto1996 1997

A 100 200B 100 50Media 100 125

100=gx

Page 99: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 99

Media ArmonicaMonotona decrescentePer misure su dimensioni fisicheEs., serie temporali ∑

=

= n

i i

a

x

nx

1

1

Page 100: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 100

MedianaIl valore centrale in un insieme ordinato di datiRobusta

poco influenzata dalla presenza di dati anomali

1 7 12 18 23 34 54

3.21=x

23=M

Page 101: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 101

Mediana e QuartiliDivide un insieme di dati a metà

statistica robusta (non influenzata da valori con rilevanti differenze)ulteriori punti di divisione

Interquartilimediane degli intervalli dei dati superiore e inferioreun quarto dei dati osservati è sopra/sotto il quartile

Percentilidi grado p: il p% dei dati osservati è sopra/sotto il percentilemediana: 50-esimo percentileprimo quartile: 25-esimo percentilesecondo quartile: 75-esimo percentile

max, minrange = max-min

Page 102: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 102

PercentiliRappresentati con xp

Utilizziamo le lettere per esprimerli

Etichetta P

M ½= 0.5

F ¼=0.25

E 1/8=.125

D 1/16=0.625

C 1/32=0.3125

B 1/64

A 1/128

Z 1/256

Y 1/512

X 1/1024

Page 103: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 103

ModaMisura della frequenza dei dati

a a b b c c a d b c a e c b a a

moda = a (f = 6)Significativo per dati categoriciNon risente di picchiMolto instabile

Page 104: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 104

Range, Deviazione mediaIntervallo di variazione

Scarti interquantili

Scarto medio assoluto

Scarto medio assoluto dalla mediana

In generale, S.5 ≤ Sn

r = max-min

ppp xxr −= −100

∑=

−=n

iin xx

nS

1

1

∑=

−=n

iiM Mx

nS

1

1

Page 105: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 105

Varianza, deviazione standardmisure di mutua variabilità tra i dati di una serieDevianza empirica

Varianza

Coefficiente di variazionemisura relativa

( )∑=

−=n

ii xx

ns

1

22 1

( )∑=

−=n

ii xxdev

1

2

xsV =

Page 106: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 106

SimmetriaSi ha simmetria quando media, moda e mediana coincidono

condizione necessaria, non sufficiente Asimmetria sinistra: moda, mediana, mediaAsimmetria destra: media, mediana, moda

Page 107: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 107

Simmetria (Cont.)Indici di asimmetria

medie interquartili

Momenti centrali

indice di Fisherγ nullo per distribuzioni simmetricheγ >0: sbilanciamenti a destraγ<0: sbilanciamento a sinistra

( )∑=

−−

=n

i

kik xx

nm

111

33

sm

2)( 1 ppp xxx += −

Page 108: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 108

CurtosiGrado di appiattimento della curva di distribuzione rispetto alla curva normale

mesocurtica: forma uguale alla distribuzione normale; leptocurtica: una frequenza minore delle classi intermedie, frequenza maggiore delle classi estreme e dei valori centrali;platicurtica: una frequenza minore delle classi centrali e di quelle estreme, con una frequenza maggiore di quelle intermedie

numero più ridotto di valori centrali.

Page 109: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 109

Curtosi (cont.)Indice di Pearson

β=3: distribuzione mesocurticaβ >3: distribuzione leptocurticaβ <3: distribuzione platicurtica

Coefficiente di curtosiUna distribuzione leptocurtica ha K ~ 1/2platicurtosi: K~0

44

sm

( )( )10.90.

25.75.21

xxxxK

−−

=

Page 110: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa

Data preparation 110

Coefficienti di CorrelazioneCovarianza

Coefficiente di Pearson yx

xy ssyxCovr ),(

=

∑=

−−−

=n

iii yyxx

nyxCov

1))((

11),(