D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee
description
Transcript of D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee
D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee
Francesco Buccafurri, Luigi Palopoli, Domenico Rosaci,
Giorgio Terracina, Domenico Ursino
SIPE – Prototipo per l’estrazione di proprietà inter-sorgente
Estrazione di Proprietà inter-sorgente
• Le proprietà intersorgente considerate sono:
– Sinonimie
– Omonimie
– Similarità tra sotto-sorgenti
Rappresentazione delle sorgenti
• Data una sorgente S, la SDR-Network Net(S) associate è
Net(S) = < N(S), A(S) >
• N(S) rappresenta l’insieme dei nodi; ciascun nodo e’ associato ad un concetto ed e’ caratterizzato dal nome del concetto che rappresenta
• A(S) indica un insieme di archi; ciascun arco è rappresentato dalla tripletta < x, y, Lxy > ed indica una relazione tra concetti
– x è il nodo sorgente,
– y è il nodo target,
– Lxy = [dxy, rxy] è un’etichetta associata all’arco
• dxy rappresenta la distanza semantica
• rxy indica la rilevanza semantica
Esempio
Estrazione delle proprietà inter-sorgente• Estrazione di Sinonimie ed omonimie
– Per derivare la similarità tra due concetti C1 and C2, si analizzano i due concetti ed i loro vicinati
– L’influenza della similarità tra i vicinati di C1 e C2 nel calcolo della similarità tra C1 e C2 è inversamente proporzionale alla distanza dei vicinati dai concetti in considerazione
– La similarità tra i vicinati è ottenuta calcolando una funzione obiettivo associata ad un problema di maximum weight matching; il matching è calcolato su un grafo bipartito costruito a partire dall’insieme dei nodi appartenenti ai vicinati
– I coefficienti di distanza semantica e di rilevanza semantica sono utilizzati per pesare l’importanza (relativa) di ciascun concetto all’interno della sorgente
Estrazione di proprietà inter-sorgente
• Estrazione di similarità tra sotto-sorgenti
– La similarità tra due sotto-sorgenti è ottenuta calcolando una funzione obiettivo associata ad un problema di maximum weight matching; il matching è calcolato su un grafo bipartito costruito a partire dai nodi che compongono la sotto-sorgente
– Tuttavia, il numero di possibili sotto-sorgenti è esponenziale nel numero dei nodi in Net(S)
– Attraverso l’uso di tecniche che tengono conto delle similarità tra i singoli concetti delle sorgenti si seleziona un numero polinomiale di sotto-sorgenti “promettenti” da analizzare