D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee

D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee

Francesco Buccafurri, Luigi Palopoli, Domenico Rosaci,

Giorgio Terracina, Domenico Ursino

SIPE – Prototipo per l’estrazione di proprietà inter-sorgente

Estrazione di Proprietà inter-sorgente

• Le proprietà intersorgente considerate sono:

– Sinonimie

– Omonimie

– Similarità tra sotto-sorgenti

Rappresentazione delle sorgenti

• Data una sorgente S, la SDR-Network Net(S) associate è

Net(S) = < N(S), A(S) >

• N(S) rappresenta l’insieme dei nodi; ciascun nodo e’ associato ad un concetto ed e’ caratterizzato dal nome del concetto che rappresenta

• A(S) indica un insieme di archi; ciascun arco è rappresentato dalla tripletta < x, y, Lxy > ed indica una relazione tra concetti

– x è il nodo sorgente,

– y è il nodo target,

– Lxy = [dxy, rxy] è un’etichetta associata all’arco

• dxy rappresenta la distanza semantica

• rxy indica la rilevanza semantica

Esempio

Estrazione delle proprietà inter-sorgente• Estrazione di Sinonimie ed omonimie

– Per derivare la similarità tra due concetti C1 and C2, si analizzano i due concetti ed i loro vicinati

– L’influenza della similarità tra i vicinati di C1 e C2 nel calcolo della similarità tra C1 e C2 è inversamente proporzionale alla distanza dei vicinati dai concetti in considerazione

– La similarità tra i vicinati è ottenuta calcolando una funzione obiettivo associata ad un problema di maximum weight matching; il matching è calcolato su un grafo bipartito costruito a partire dall’insieme dei nodi appartenenti ai vicinati

– I coefficienti di distanza semantica e di rilevanza semantica sono utilizzati per pesare l’importanza (relativa) di ciascun concetto all’interno della sorgente

Estrazione di proprietà inter-sorgente

• Estrazione di similarità tra sotto-sorgenti

– La similarità tra due sotto-sorgenti è ottenuta calcolando una funzione obiettivo associata ad un problema di maximum weight matching; il matching è calcolato su un grafo bipartito costruito a partire dai nodi che compongono la sotto-sorgente

– Tuttavia, il numero di possibili sotto-sorgenti è esponenziale nel numero dei nodi in Net(S)

– Attraverso l’uso di tecniche che tengono conto delle similarità tra i singoli concetti delle sorgenti si seleziona un numero polinomiale di sotto-sorgenti “promettenti” da analizzare

D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee

Documents

Transcript of D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee