Post on 21-Jan-2016
description
1
Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Sede di ModenaCorso di Laurea in Ingegneria Informatica – Nuovo Ordinamento
Gestione dei Database in Architetture Peer-to-Peer
Relatore: Candidato:Prof. Sonia Bergamaschi Andrea Galavotti
Anno Accademico 2003-2004
2
Peer Data Management Systems (PDMS)
• Sono sistemi distribuiti di gestione delle informazioni nelle reti P2P • Obbiettivo dei PDMS è quello di permette la condivisione di dati e
risorse in un ambiente decentralizzato, senza l’utilizzo di uno Schema Globale
CARATTERISTICHE PRINCIPALI• Decentralizzazione e supporto all’eterogeneità delle sorgenti• Autonomia• Uguaglianza dei nodi • Scalabilità• Supporto alla dinamicità dei partecipanti
3
Peer Data Management Systems (PDMS)
PRINCIPALI PROBLEMATICHE• Dinamicità dei partecipanti• Eterogeneità delle sorgenti• Estensione dei sistemi P2P• Vincoli fra autonomia, efficienza e robustezza nella ricerca dei
dati• Sicurezza:
- Disponibilità dei dati e delle risorse
- Autenticità dei dati
- Anonimia
- Controllo di accesso
4
Peer Data Management Systems (PDMS)
STATO DELL’ARTE
1. SWAP (Semantic Web And P2P) - coniuga il paradigma P2P con le tecnologie del Semantic Web - ogni nodo è composto principalmente da una o più sorgenti di conoscenza, da un integratore di conoscenza, da un deposito locale e dal peer selector.
2. coDB1
3. LRM (Local Relational Model)1
4. Piazza1
5. SON (Semantic Overlay Networks)1
1 http://www.dbgroup.unimo.it/tesi/galavotti.pdf
5
Modello logico dei PDMS
• Insieme di definizioni e regole che caratterizzano un PDMS
• Si basano sulla definizione di mapping semantici tra i database dei peer- Regole per la rilevazione di similarità semantiche fra le relazioni dei
database della rete- Permettono lo scambio di dati e risorse fra i peer della rete
• Coordinazione tra database• No Schema Globale• Mapping locale
6
Mapping semantici:un esempio
University.Section SYN Computer_Science.Course
• UNI.Section → CS.Course ∧ CS.Course.course_name = UNI.Section.section_name ∧CS.Course.course_code = UNI.Section.section_code ∧
CS.Course.taught_in = UNI.Section.room_code
• CS.Course → UNI.Section ∧ UNI.Section.section_name = CS.Course.course_name ∧UNI.Section.section_code = CS.Course.course_code ∧UNI.Section.room_code = CS.Course.taught_in
Sorgente University (UNI) Sorgente Computer_Science (CS)
7
Modello logico di SWAP• Non presenta mapping semantici definiti come per gli altri sistemi• La semantica è definita in base alle ontologie del sistema• Modello dei metadati composto da due classi RDFS:
Swabbi: alla quale appartengono tutte le informazioni disponibili in un nodo
Peer: alla quale appartengono le informazioni sui peer conosciuti da un nodo
8
Modello logico di SWAP
FUNZIONAMENTO DEL MODELLO DEI METADATI
• Integrazione della conoscenza delle sorgenti- Estrazione- Selezione- Annotazione - Fusione
• Valutazione del contenuto di un nodo- Assegnamento della stima di fiducia- Aggiornamento delle stime di fiducia- Determinazione dei nodi da interrogare (nodi “esperti”)
9
Bibster
• Sviluppato all’interno del progetto SWAP
• Sistema P2P per la condivisione di metadati bibliografici
• Basa il suo funzionamento sull’utilizzo di due ontologie, SWRC e Gerarchia degli Argomenti ACM, utilizzate per memorizzare i dati, formulare e instradare le query, e presentare le risposte.
• La sua architettura è la stessa di SWAP http://bibster.semanticweb.org
10
Bibster: funzionamento• Estrazione semantica dei metadati bibliografici - traduzione del documento in una risorsa RDF basata sulle ontologie
- memorizzazione del risultato nel deposito locale RDF
• Formulazione di query semantiche - ogni query può contenere argomenti derivati dalle ontologie
• Meccanismo di selezione dei peer - utilizzato per l’instradamento delle query - basato sulla rilevazione della similarità dell’argomento della query e del contenuto dei peer (descrizione di abilità dei peer) effettuata dalla funzione di similarità - permette di individuare i peer che contengono informazioni che soddisfano le query
• Rilevazione semantica dei duplicati - basata sulla rilevazione della similarità tra la semantica di due documenti- permette di unire in un unico documento due o più metadati considerati
simili
11
Bibster: test e considerazioni
• Test del meccanismo di selezione dei peer
• Ogni query è stata posta tre volte: prima è stata indirizzata a tutti i nodi della rete, poi ai nodi selezionati dal meccanismo di selezione e infine ad un insieme casuale di peer
• Risultati compromessi dal basso numero di utenti nel sistema
0
50
100
150
200
250
300
350
400
450
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Numero queryN
um
ero
ris
po
ste
Tutti i nodi
Nodi casuali
Nodi abili
12
Conclusioni e lavoro futuro
• Gestione dei dati nelle reti P2P attraverso i PDMS• I PDMS permettono la condivisione dei dati eterogenei in modo
distribuito e scalabile e la coordinazione tra i database• Trasferimento dati e formulazione query tramite:
- Definizione di mapping semantici tra gli elementi delle sorgenti coinvolte- Utilizzo di ontologie condivise dagli utenti (Bibster)
LAVORO FUTURO• Prestazioni dei PDMS (algoritmi di ricerca e di aggiornamento dei
dati)• Sicurezza dei dati (controllo di accesso, autenticità dei dati)