Metodologie e sperimentazione di confronto tra tool di data integration

108
Università degli studi di Salerno Dipartimento di Studi e Ricerca Aziendale (Management & Information Technology) Corso di Laurea Magistrale in Tecnologie Informatiche e Management Davide De Chiara, Gianmarco Del Pozzo, Alessandro Longo Metodologie e Sperimentazione di Confronto tra Tool di Data Integration

Transcript of Metodologie e sperimentazione di confronto tra tool di data integration

Page 1: Metodologie e sperimentazione di confronto tra tool di data integration

Università degli studi di SalernoDipartimento di Studi e Ricerca Aziendale (Management & Information Technology)Corso di Laurea Magistrale in Tecnologie Informatiche e Management

Davide De Chiara, Gianmarco Del Pozzo, Alessandro Longo

Metodologie e Sperimentazione di Confronto tra Tool di Data

Integration

Page 2: Metodologie e sperimentazione di confronto tra tool di data integration

Obiettivi

Page 3: Metodologie e sperimentazione di confronto tra tool di data integration

ObiettiviLivello Pratico

Confronto tra CoDIT e OPEN II

Page 4: Metodologie e sperimentazione di confronto tra tool di data integration

ObiettiviLivello Teorico

Tool Aggiuntivi

Page 5: Metodologie e sperimentazione di confronto tra tool di data integration

ObiettiviLivello Teorico

Tool Aggiuntivi

Metodologie per il confronto tra diversi Tool

Page 6: Metodologie e sperimentazione di confronto tra tool di data integration

Data Integration

Page 7: Metodologie e sperimentazione di confronto tra tool di data integration

Data IntegrationCoDIT

Page 8: Metodologie e sperimentazione di confronto tra tool di data integration

Data IntegrationCoDIT

Le Finestre ai lati sono gli schemi da comparare

Page 9: Metodologie e sperimentazione di confronto tra tool di data integration

Data IntegrationCoDIT

Le Finestre ai lati sono gli schemi da comparare

La Finestra centrale riporta gli operatori iconici

Page 10: Metodologie e sperimentazione di confronto tra tool di data integration

Data IntegrationCoDIT - Operatori

Decomposizione Orizzontale(Aggregazione Orizzontale)

Page 11: Metodologie e sperimentazione di confronto tra tool di data integration

Data IntegrationCoDIT - Operatori

Decomposizione Verticale(Aggregazione Verticale)

Page 12: Metodologie e sperimentazione di confronto tra tool di data integration

Data IntegrationCoDIT - Esempio

Il bordo verde indica che per la riconciliazione è stata scelta quella soluzione

Page 13: Metodologie e sperimentazione di confronto tra tool di data integration

Tool

Page 14: Metodologie e sperimentazione di confronto tra tool di data integration

Similarity FloodingMatching in

4 Steps

Page 15: Metodologie e sperimentazione di confronto tra tool di data integration

Similarity FloodingMatching in

4 Steps

Costruzione del Grafo

Page 16: Metodologie e sperimentazione di confronto tra tool di data integration

Similarity FloodingMatching in

4 Steps

Costruzione del Grafo

String Match

Page 17: Metodologie e sperimentazione di confronto tra tool di data integration

Similarity FloodingMatching in

4 Steps

Costruzione del Grafo

String Match

Algoritmo Similarity Flooding

Page 18: Metodologie e sperimentazione di confronto tra tool di data integration

Similarity FloodingMatching in

4 Steps

Costruzione del Grafo

String Match

Algoritmo Similarity Flooding

Selezione

Page 19: Metodologie e sperimentazione di confronto tra tool di data integration

Prison Break

Web Similarity Matcher

NGD (Normalized Google Distance)

Page 20: Metodologie e sperimentazione di confronto tra tool di data integration

CrowdMatcher

Individuazione Matcher tramite domande

CCQ (Correspondance Correcteness Queries)

Page 21: Metodologie e sperimentazione di confronto tra tool di data integration

CrowdMatcher

Individuazione Matcher tramite domande

CCQ (Correspondance Correcteness Queries)

Page 22: Metodologie e sperimentazione di confronto tra tool di data integration

COMACombinazione di diversi approcci

Probabilità più alta di effettuare matching esatti

Page 23: Metodologie e sperimentazione di confronto tra tool di data integration

COMAMatching in4 Steps

Trasformazione schemi in grafi

Feedback utenti per matching e mismatching

Esecuzione dei vari match, risultato inserito in repository

Selezione del valore dal repository

Page 24: Metodologie e sperimentazione di confronto tra tool di data integration

Similarity FloodingMatching in

3 Steps

Costruzione del Grafo

Linguistic Matching

Structural Matching

Page 25: Metodologie e sperimentazione di confronto tra tool di data integration

OPEN II

Diversi Match per trovare corrispondenze

GUI che permette di accettare e rifiutare Matching

Possibilità di aggiungere altri algoritmi di Matching

Page 26: Metodologie e sperimentazione di confronto tra tool di data integration

ArgSM

Confronto tra diversi esperti

Il Tool genera decisioni per risolvere eventuali conflitti

Page 27: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT Vs OPEN II

Page 28: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIImpostazione della Sperimentazione

Page 29: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IITool di supporto

Page 30: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IITool di supporto

Page 31: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

Page 32: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

Page 33: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIEsecuzione della sperimentazione

Page 34: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

CoDIT

Consegna documenti (schema concettuale) e suggerimenti

Avvio cronometro

Esecuzione questionario finale

Page 35: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

OPEN II

Consegna documenti (schema logico)Consegna schemi da riconciliare

Avvio cronometro e conteggio click

Esecuzione questionario finale

Page 36: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIQuestionario

CoDIT

Page 37: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIQuestionario

OPEN II

Page 38: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIRisultati

Page 39: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIRisultati

Page 40: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIRisultati

Page 41: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIRisultati

OPEN IICoDIT

Page 42: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIRisultati

OPEN IICoDIT

Page 43: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN IIRisultati

CoDIT

Page 44: Metodologie e sperimentazione di confronto tra tool di data integration

Metodologie per il confronto tra tool

Page 45: Metodologie e sperimentazione di confronto tra tool di data integration

Metodologie per il confronto tra tool

Aspetto Quantitativo

Page 46: Metodologie e sperimentazione di confronto tra tool di data integration

Metodologie per il confronto tra tool

Aspetto Quantitativo

Aspetto Qualitativo

Page 47: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto Quantitativo

Page 48: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto Quantitativo

Suggerimenti

Page 49: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto Quantitativo

RisultatiSuggerimenti

Page 50: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto QuantitativoMetriche Quantitative per i suggerimenti

TP: Matching giusti proposti

FP: Matching proposti ma errati

FN: Matching corretti ma scartati

TN: Matching correttamente

scartati

Page 51: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto QuantitativoMetriche Quantitative per i suggerimenti

TP: Matching giusti proposti

FP: Matching proposti ma errati

FN: Matching corretti ma scartati

TN: Matching correttamente

scartati

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛=𝑇𝑃/𝑇𝑃+𝐹𝑃

Page 52: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto QuantitativoMetriche Quantitative per i suggerimenti

TP: Matching giusti proposti

FP: Matching proposti ma errati

FN: Matching corretti ma scartati

TN: Matching correttamente

scartati

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛=𝑇𝑃/𝑇𝑃+𝐹𝑃

𝑅𝑒𝑐𝑎𝑙𝑙=𝑇𝑃/𝑇𝑃+𝐹𝑁

Page 53: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto QuantitativoMetriche Quantitative per i suggerimenti

TP: Matching giusti proposti

FP: Matching proposti ma errati

FN: Matching corretti ma scartati

TN: Matching correttamente

scartati

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛=𝑇𝑃/𝑇𝑃+𝐹𝑃

𝑅𝑒𝑐𝑎𝑙𝑙=𝑇𝑃/𝑇𝑃+𝐹𝑁

𝐹𝑀𝑒𝑎𝑠𝑢𝑟𝑒(𝛼)=𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛∗𝑅𝑒𝑐𝑎𝑙𝑙/  (1−𝛼)∗𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+  𝛼∗𝑅𝑒𝑐𝑎𝑙𝑙  0<𝛼<1

Page 54: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto QuantitativoMetriche Quantitative per i risultati

Page 55: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto QuantitativoMetriche Quantitative per i risultati

Correctness Rate= TP Matching Accepted/Total Matching AcceptedDeception Rate= FP Matching Accepted/FPGoodness Rate= TP Matching Accepted/TP

Page 56: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto QuantitativoMetriche Quantitative per i risultati

Correctness Rate= TP Matching Accepted/Total Matching AcceptedDeception Rate= FP Matching Accepted/FPGoodness Rate= TP Matching Accepted/TP

Schema Matching Accomplished Rate= TP Matching Accepted + Correct Matching Proposed/#MAT

User Error Committed Rate= Wrong Matching Proposed/Total Matching Proposed

*#MAT: Number of matching to accomplish the task

Page 57: Metodologie e sperimentazione di confronto tra tool di data integration

Valutazione Qualitativa dei Tool

Page 58: Metodologie e sperimentazione di confronto tra tool di data integration

Perchè?

“Usability is like oxygen. You don’t notice it until it’s missing”

“1 $ spent in usability results in a return of 30.25 $“

Usability and the bottom line [Donahue]

Usability is good business [Donahue et al.]

Aspetto QualitativoTesting di usabilità

Page 59: Metodologie e sperimentazione di confronto tra tool di data integration

Aspetto QualitativoTesting di usabilità

Page 60: Metodologie e sperimentazione di confronto tra tool di data integration

5 Componenti Da Considerare

Aspetto QualitativoTesting di usabilità

Page 61: Metodologie e sperimentazione di confronto tra tool di data integration

Learnability

5 Componenti Da Considerare

Aspetto QualitativoTesting di usabilità

Page 62: Metodologie e sperimentazione di confronto tra tool di data integration

EfficiencyLearnability

5 Componenti Da Considerare

Aspetto QualitativoTesting di usabilità

Page 63: Metodologie e sperimentazione di confronto tra tool di data integration

EfficiencyLearnability

Memorability

5 Componenti Da Considerare

Aspetto QualitativoTesting di usabilità

Page 64: Metodologie e sperimentazione di confronto tra tool di data integration

EfficiencyLearnability

Memorability Errors

5 Componenti Da Considerare

Aspetto QualitativoTesting di usabilità

Page 65: Metodologie e sperimentazione di confronto tra tool di data integration

EfficiencyLearnability

Memorability Errors

Satisfaction

5 Componenti Da Considerare

Aspetto QualitativoTesting di usabilità

Page 66: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare L’usabilità?

Aspetto QualitativoTesting di usabilità

Page 67: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare L’usabilità?

Nielsen’s Ten Usability Heuristics

Aspetto QualitativoTesting di usabilità

Page 68: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare L’usabilità?

Nielsen’s Ten Usability Heuristics Task Analysis

Aspetto QualitativoTesting di usabilità

Page 69: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare L’usabilità?

Empirical Evaluation choosing a tool

Task AnalysisNielsen’s Ten Usability Heuristics

Aspetto QualitativoTesting di usabilità

Page 70: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare L’usabilità?

Nielsen’s Ten Usability Heuristics

Empirical Evaluation choosing a tool

Task Analysis

Aspetto QualitativoTesting di usabilità

Page 71: Metodologie e sperimentazione di confronto tra tool di data integration

Visibility of system status

User control and freedom

Match between system and the real world

Consistency and standards

Error preventionRecognition rather than recall

Flexibility and efficiency of use

Aesthetic and minimalist design

Help users recognize, diagnose, and recover from errors

Help and documentation

Page 72: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare L’usabilità?

Empirical Evaluation choosing a tool

Task AnalysisNielsen’s Ten Usability Heuristics

Aspetto QualitativoTesting di usabilità

Page 73: Metodologie e sperimentazione di confronto tra tool di data integration

Come DefinireI Task?

Aspetto QualitativoTesting di usabilità

Page 74: Metodologie e sperimentazione di confronto tra tool di data integration

Come DefinireI Task?

Avviare il tool di Data Integration

Aspetto QualitativoTesting di usabilità

Page 75: Metodologie e sperimentazione di confronto tra tool di data integration

Come DefinireI Task?

Avviare il tool di Data Integration

Caricare gli Schemi delle due basi di dati

Aspetto QualitativoTesting di usabilità

Page 76: Metodologie e sperimentazione di confronto tra tool di data integration

Come DefinireI Task?

Avviare il tool di Data Integration

Caricare gli Schemi delle due basi di dati

Elaborare l’integrazione dei dati

Aspetto QualitativoTesting di usabilità

Page 77: Metodologie e sperimentazione di confronto tra tool di data integration

Come DefinireI Task?

Avviare il tool di Data Integration

Caricare gli Schemi delle due basi di dati

Elaborare l’integrazione dei dati

Scegliere quali componenti integrare

Aspetto QualitativoTesting di usabilità

Page 78: Metodologie e sperimentazione di confronto tra tool di data integration

Come DefinireI Task?

Avviare il tool di Data Integration

Caricare gli Schemi delle due basi di dati

Elaborare l’integrazione dei dati

Salvare la nuova Base di dati integrata

Scegliere quali componenti integrare

Aspetto QualitativoTesting di usabilità

Page 79: Metodologie e sperimentazione di confronto tra tool di data integration

Come MisurareL’Usabilità?

NOS Numero di secondi necessari

all’utente per completare il task

NOC Numero di click necessari all’utente

per completare il task

NOE Numero di errori compiuti dall’utente

nel compimento di un task

Aspetto QualitativoTesting di usabilità

Page 80: Metodologie e sperimentazione di confronto tra tool di data integration

Come scegliereGli Utenti?

Novice Users

Expert Users

Aspetto QualitativoTesting di usabilità

Page 81: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare L’usabilità?

Empirical Evaluation choosing a tool

Task AnalysisNielsen’s Ten Usability Heuristics

Aspetto QualitativoTesting di usabilità

Page 82: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare L’usabilità?

Empirical Evaluation choosing a tool

Task AnalysisNielsen’s Ten Usability Heuristics

Aspetto QualitativoTesting di usabilità

Page 83: Metodologie e sperimentazione di confronto tra tool di data integration

Per ridurre il fattore di condizionamento bisogna

optare per una tecnica: Within Group Design

Aspetto QualitativoTesting di usabilità

Page 84: Metodologie e sperimentazione di confronto tra tool di data integration

1) Consenso al trattamento dei dati2) Pre-execution Survey

3) Lista dei TaskWithin Group Design

NOSNOCNOE

4) Post-execution Survey

Pre-execution

Execution

Post-execution

Come OrganizzareI Task

Aspetto QualitativoTesting di usabilità

Page 85: Metodologie e sperimentazione di confronto tra tool di data integration

Come Verificare i Dati

Page 86: Metodologie e sperimentazione di confronto tra tool di data integration

Come VerificareI Risultati Ottenuti

One tail t-test

Aspetto QualitativoTesting di usabilità

Page 87: Metodologie e sperimentazione di confronto tra tool di data integration

Impostazione di una sperimentazione di confronto tra Tool di Data Integration

Page 88: Metodologie e sperimentazione di confronto tra tool di data integration

3 FasiSperimentazione di confronto

Prima Fase (Pre-Execution)

Seconda Fase (Execution)

Terza Fase (Post-Execution)

Page 89: Metodologie e sperimentazione di confronto tra tool di data integration

3 FasiSperimentazione di confronto

Prima Fase (Pre-Execution)

Seconda Fase (Execution)

Terza Fase (Post-Execution)

Page 90: Metodologie e sperimentazione di confronto tra tool di data integration

Sperimentazione di confrontoDefinire i Task

Page 91: Metodologie e sperimentazione di confronto tra tool di data integration

Sperimentazione di confrontoDefinire i questionari

Page 92: Metodologie e sperimentazione di confronto tra tool di data integration

3 FasiSperimentazione di confronto

Prima Fase (Pre-Execution)

Seconda Fase (Execution)

Terza Fase (Post-Execution)

Page 93: Metodologie e sperimentazione di confronto tra tool di data integration

Sperimentazione di confrontoEsecuzione

Page 94: Metodologie e sperimentazione di confronto tra tool di data integration

3 FasiSperimentazione di confronto

Prima Fase (Pre-Execution)

Seconda Fase (Execution)

Terza Fase (Post-Execution)

Page 95: Metodologie e sperimentazione di confronto tra tool di data integration

Sperimentazione di confrontoStudio Qualitativo e Quantitativo

Page 96: Metodologie e sperimentazione di confronto tra tool di data integration

Lavori Futuri

Page 97: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

Page 98: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

Questionario pre-sperimentazione

Page 99: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

Questionario pre-sperimentazione

Metriche quantitative di valutazione dei suggerimenti

Page 100: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

Questionario pre-sperimentazione

Metriche quantitative di valutazione dei suggerimenti

Metriche quantitative per i risultati

Page 101: Metodologie e sperimentazione di confronto tra tool di data integration

CoDIT vs OPEN II

Questionario pre-sperimentazione

Metriche quantitative di valutazione dei suggerimenti

Metriche quantitative per i risultati Validazione Statistica

Page 102: Metodologie e sperimentazione di confronto tra tool di data integration

In Conclusione…

Page 103: Metodologie e sperimentazione di confronto tra tool di data integration

In Conclusione…

Page 104: Metodologie e sperimentazione di confronto tra tool di data integration

In Conclusione…

Page 105: Metodologie e sperimentazione di confronto tra tool di data integration

In Conclusione…

Page 106: Metodologie e sperimentazione di confronto tra tool di data integration

In Conclusione…

Page 107: Metodologie e sperimentazione di confronto tra tool di data integration

In Conclusione…

Page 108: Metodologie e sperimentazione di confronto tra tool di data integration

In Conclusione…