D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee
Francesco Buccafurri, Luigi Palopoli, Domenico Rosaci, Giorgio
Terracina, Domenico Ursino SIPE Prototipo per lestrazione di
propriet inter-sorgente
Slide 2
Estrazione di Propriet inter-sorgente Le propriet intersorgente
considerate sono: Sinonimie Omonimie Similarit tra
sotto-sorgenti
Slide 3
Rappresentazione delle sorgenti Data una sorgente S, la
SDR-Network Net(S) associate Net(S) = N(S) rappresenta linsieme dei
nodi; ciascun nodo e associato ad un concetto ed e caratterizzato
dal nome del concetto che rappresenta A(S) indica un insieme di
archi; ciascun arco rappresentato dalla tripletta ed indica una
relazione tra concetti x il nodo sorgente, y il nodo target, L xy =
[d xy, r xy ] unetichetta associata allarco d xy rappresenta la
distanza semantica r xy indica la rilevanza semantica
Slide 4
Esempio
Slide 5
Estrazione delle propriet inter-sorgente Estrazione di
Sinonimie ed omonimie Per derivare la similarit tra due concetti C1
and C2, si analizzano i due concetti ed i loro vicinati Linfluenza
della similarit tra i vicinati di C1 e C2 nel calcolo della
similarit tra C1 e C2 inversamente proporzionale alla distanza dei
vicinati dai concetti in considerazione La similarit tra i vicinati
ottenuta calcolando una funzione obiettivo associata ad un problema
di maximum weight matching; il matching calcolato su un grafo
bipartito costruito a partire dallinsieme dei nodi appartenenti ai
vicinati I coefficienti di distanza semantica e di rilevanza
semantica sono utilizzati per pesare limportanza (relativa) di
ciascun concetto allinterno della sorgente
Slide 6
Estrazione di propriet inter-sorgente Estrazione di similarit
tra sotto-sorgenti La similarit tra due sotto-sorgenti ottenuta
calcolando una funzione obiettivo associata ad un problema di
maximum weight matching; il matching calcolato su un grafo
bipartito costruito a partire dai nodi che compongono la
sotto-sorgente Tuttavia, il numero di possibili sotto-sorgenti
esponenziale nel numero dei nodi in Net(S) Attraverso luso di
tecniche che tengono conto delle similarit tra i singoli concetti
delle sorgenti si seleziona un numero polinomiale di sotto-sorgenti
promettenti da analizzare