Metodologia di Progettazione database relazionali · Metodologia di progettazione database...

37
Metodologia di Progettazione database relazionali I&T Informatica e Telecomunicazioni S.p.A Via dei Castelli Romani, 9 00040 Pomezia (Roma) – Italy Tel. +39-6-911611 Fax +39-6-91601162 http://www.iet.it Marketing Operativo e Innovazione Hi Tech - Knowledge Technology Relatore: Nino RUSSO [email protected] Informatica e Telecomunicazioni S.p.A. Febbraio 1999

Transcript of Metodologia di Progettazione database relazionali · Metodologia di progettazione database...

Metodologiadi

Progettazione database relazionali

I&T Informatica e Telecomunicazioni S.p.AVia dei Castelli Romani, 900040 Pomezia (Roma) – ItalyTel. +39-6-911611Fax +39-6-91601162http://www.iet.it

Marketing Operativo e InnovazioneHi Tech - Knowledge Technology

Relatore: Nino [email protected]

Informatica e Telecomunicazioni S.p.A.

Febbraio 1999

Metodologia di progettazione database relazionali

2I&T Informatica e Telecomunicazioni SpA

Indice

1 Introduzione alla progettazione 3

1.1 Ciclo di vita dei sistemi informativi 31.2 Metodologia e fasi di progettazione 4

1.2.1 Progetto concettuale del database 51.2.1.1 Livello vista 51.2.1.2 Schemi ed Istanze 6

1.2.2 Progetto logico del database 61.2.3 Progetto fisico del database 71.2.4 Indipendenza dei dati 7

1.3 Prodotti delle varie fasi della progettazione 7

2 Progettazione concettuale 10

2.1 Raccolta e analisi dei requisiti 102.2 Modello Entità-Relazione 122.3 Criteri generali di rappresentazione 142.4 Documentazione dei diagrammi Entità-Relazione 142.5 Utilità dei diagrammi Entità-Relazione 152.6 Strategie di progetto 16

2.6.1 Strategia top-down 162.6.2 Strategia bottom-up 172.6.3 Strategia inside-out 182.6.4 Stategia mista 18

2.7 Qualità di uno schema concettuale 182.8 Metodologia generale 19

3 Progettazione logica 22

3.1 Analisi delle prestazioni su schemi E-R 233.2 Ristrutturazione di schemi E-R 243.3 Modello dati logico 253.4 Modello dati relazionale 263.5 Traduzione verso il modello relazionale 263.6 Vincoli di integrità 27

3.6.1 Vincoli di chiave 273.6.2 Vincoli di integrità referenziale 27

3.7 Algebra relazionale 283.7.1 Operatori di base 283.7.2 Operatori derivati 29

3.8 Normalizzazione dei dati 303.8.1 Ridondanza e anomalie 303.8.2 Dipendenze 313.8.3 Scomposizioni 313.8.4 Prima forma normale 323.8.5 Seconda forma normale 333.8.6 Terza forma normale 333.8.7 Linee guida sulla normalizzazione 33

3.9 Implementazione dello schema logico 35

4 Progettazione fisica 36

Metodologia di progettazione database relazionali

3I&T Informatica e Telecomunicazioni SpA

1 Introduzione alla progettazione

Progettare una base di dati (o banca dati o database) significa definire struttura, caratteristiche econtenuto: si tratta di un processo nel quale bisogna prendere molte decisioni strategiche e l’uso diopportune metodologie è fondamentale per la realizzazione di un prodotto di alta qualità.La metodologia cui fa riferimento la I&T è articolata in tre fasi: la progettazione concettuale, laprogettazione logica e la progettazione fisica.

1.1 Ciclo di vita dei sistemi informativi

La progettazione di una base di dati costituisce solo una componente del processo di sviluppo,all’interno di una organizzazione, di un sistema informativo complesso e va quindi inquadrata in uncontesto più ampio, quello del ciclo di vita dei sistemi informativi.Come illustrato in figura 1.1, il ciclo di vita di un sistema informativo comprende, generalmente, leseguenti attività.

• Studio di fattibilità. Serve a definire, in maniera per quanto possibile precisa, i costi delle variealternative possibili e a stabilire le priorità di realizzazione delle varie componenti del sistema.

• Raccolta e analisi dei requisiti. Consiste nella individuazione e nello studio delle proprietà edelle funzionalità che il sistema informativo dovrà avere. Questa fase richiede una interazionecon gli utenti del sistema e produce una descrizione completa, ma generalmente informale, deidati coinvolti (anche in termini di previsione sulla loro frequenza). Vengono inoltre stabiliti irequisiti software e hardware del sistema informativo.

Studio difattibilità

Raccolta e analisidei requisiti

Progettazione

Implementazione

Validazione ecollaudo

Funzionamento

Fig. 1.1 Ciclo di vita di un sistema informativo

Metodologia di progettazione database relazionali

4I&T Informatica e Telecomunicazioni SpA

• Progettazione. Si divide generalmente in progettazione dei dati e progettazione delleapplicazioni. Nella prima si individua la struttura e l’organizzazione che i dati dovranno avere,nell’altra si definiscono le caratteristiche dei programmi applicativi. Le due attività sonocomplementari e possono procedere in parallelo o in cascata. Le descrizioni dei dati e deiprogrammi prodotte in questa fase sono formali e fanno riferimento a specifici modelli.

• Implementazione. Consiste nella realizzazione del sistema informativo secondo la struttura e lecaratteristiche definite nella fase di progettazione. Viene costruita e popolata la base di dati eviene sviluppato il codice dei programmi.

• Validazione e collaudo. Serve a verificare il corretto funzionamento e la qualità del sistemainformativo. La sperimentazione deve prevedere, per quanto possibile, tutte le condizionioperative.

• Funzionamento. In questa fase il sistema informativo diventa operativo e richiede, a meno dimalfunzionamenti o revisioni delle funzionalità del sistema, solo operazioni di gestione emanutenzione.

Va detto che accanto alle attività citate, viene oggi spesso effettuata anche un’attività diprototipizzazione, che consiste nell’uso di specifici strumenti software per la realizzazione rapida diuna versione semplificata del sistema informativo, con la quale sperimentare le sue funzionalità. Laverifica del prototipo può portare a una modifica dei requisiti e una eventuale revisione del progetto.Le basi di dati costituiscono in effetti solo una delle componenti di un sistema informativo chetipicamente include anche programmi applicativi, le interfacce con l’utente e altri programmi diservizio. Comunque, il ruolo centrale che i dati hanno in un sistema informativo giustifica unostudio autonomo relativo alla progettazione delle basi di dati e che si individua nella terza fase delciclo di vita riportato in figura 1.1. Con questo approccio, in linea di principio, viene primaprogettata la base di dati e, successivamente, le applicazioni che la utilizzano.

1.2 Metodologia e fasi di progettazione

Una metodologia di progettazione è una combinazione di una serie di passi e di proprietà chepermettono di ottenere prodotti di alta qualità. In buona sostanza, una metodologia di progettazioneconsiste in:

• una decomposizione in passi successivi indipendenti dell’intera attività di progetto,

• una serie di strategie da seguire nei vari passi e alcuni criteri per la scelta in caso di alternative,

• alcuni modelli di riferimento per descrivere i dati di ingresso e uscita delle varie fasi.

Le proprietà che una metodologia deve garantire sono principalmente:

• la generalità rispetto alle applicazioni e ai sistemi in gioco (e quindi la possibilità di utilizzoindipendente dal problema allo studio e dagli strumenti a disposizione),

• la qualità del prodotto in termini di correttezza, completezza ed efficienza rispetto alle risorseimpiegate,

• la faciltà d’uso sia delle strategie che dei modelli di riferimento.

Nel corso degli anni, nell’ambito delle basi di dati, si è consolidata una metodologia di progettoarticolate in tre fasi principali da effettuare in cascata. Essa si fonda su un principio molto semplice

Metodologia di progettazione database relazionali

5I&T Informatica e Telecomunicazioni SpA

ma efficace: quello di separare in maniera netta le decisioni relative a “cosa” rappresentare in unabase dati (prima fase), da quelle relative a “come” farlo (fasi successive).Ogni fase si riferisce a un livello di astrazione nella rappresentazione dei dati e delle relazioni traessi, e ha lo scopo di separare le attività di risoluzione dei problemi e di garantire la possibilità dimodificare delle soluzioni adottate ai livelli inferiori senza dover riprogettare quanto definito neilivelli superiori.A ciascuna fase di progettazione corrispondono diversi modelli per la rappresentazione dei dati,ovvero tecniche per la rappresentazione degli aspetti rilevanti della realtà da modellare, definite dastrumenti e vincoli specifici. La rappresentazione generata seguendo le regole del modello vienedefinita schema (vedi fig. 1.2).

Le fasi riconosciute fondamentali nella progettazione di un database sono le seguenti: progettoconcettuale, progetto logico e progetto fisico (vedi figura 1.3).

1.2.1 Progetto concettuale del database

Obiettivo della fase di progettazione concettuale è la rappresentazione completa (formale) dellarealtà di interesse (informale) ai fini informativi, in maniera indipendente da qualsiasi specificoDBMS (Database Management System) e quindi senza tenere conto degli aspetti implementativi.Tale rappresentazione, detta schema concettuale (che fa riferimento a un modello concettuale deidati), è la rappresentazione più astratta, ovvero più vicina alla logica umana, nella definizione didati e relazioni.I modelli dei dati usati nella progettazione concettuale vengono definiti modelli semantici. Nelcorso degli anni sono stati definiti diversi modelli dei dati ad iniziare da quelli reticolari egerarchici seguiti da quello entità-relazione e infine quelli orientati agli oggetti e alla logica.

1.2.1.1 Livello vistaUna vista, sottoschema, o subschema, è una parte del database concettuale o un’astrazione di partedel database concettuale. In un certo senso, la costruzione delle viste è l’inverso del processo diintegrazione di un database: per ogni collezione dei dati che hanno contribuito alla costruzione deldatabase concettuale globale, possiamo costruire una vista che contenga proprio quei dati. Le vistesono importanti anche per far valere la sicurezza in un sistema di database, permettendo solo agliutenti che ne hanno l’autorizzazione di osservare i sottoinsiemi dei dati.Spesso una vista è proprio come un piccolo database concettuale ed ha lo stesso livello diastrazione. Però, in un certo senso, una vista può essere “più astratta” di un data base concettuale, inquanto i dati in essa coinvolti possono essere costruiti a partire dal database concettuale, senza peròessere effettivamente presenti in quel database.

realtà di interesse

schema

modello (regole di rappresentazione)

Fig. 1.2 Realtà/modello/schema

Metodologia di progettazione database relazionali

6I&T Informatica e Telecomunicazioni SpA

1.2.1.2 Schemi ed IstanzeQuando si progetta un database si è interessati al suo schema, quando invece si usa si è interessati aidati effettivamente presenti in esso. Si noti che i dati nel database cambiano frequentemente, mentregli schemi rimangono gli stessi per lungo tempo.Il contenuto corrente del database si chiama istanza del database (o estensione del database o statodel database).Come visto, il termine schema è usato nelle varie fasi della progettazione di un database, cosìavremo schema concettuale per riferirsi al livello di progettazione concettuale del database, schemalogico per il progetto logico, schema fisico per il progetto fisico e semplicemente sottoschema per illivello delle viste.

1.2.2 Progetto logico del database

La fase di progettazione logica del database ha lo scopo di tradurre lo schema concettuale espressomediante un modello semantico in una rappresentazione mediate un modello logico dei dati. Larappresentazione che si ottiene viene definita schema logico del database.

Fig. 1.3 Fasi della progettazione di una base di dati

Progetto fisico

Modello concettuale

Modello logico

Modello fisico

Progetto concettuale

Progetto logico

Schema concettuale

Schema logico

Schema fisico

Progettazione dibase di dati

Prodotti della progettazione

Requisitidella base di

dati

Metodologia di progettazione database relazionali

7I&T Informatica e Telecomunicazioni SpA

A differenza dello schema concettuale, lo schema logico dipende strettamente dalla categoria diDBMS utilizzato e in particolare del suo modello logico dei dati. Un modello logico dei dati èquindi la tecnica di organizzazione e di accesso ai dati utilizzata da specifiche categorie di DBMS.In particolare, in riferimento al modello logico dei dati su cui si basano, vengono distinti DBMSgerarchici, reticolari, relazionali, ad oggetti e basati sulla logica.

Un ulteriore compito della progettazione logica è quello di dichiarare le viste, tramite il DDL (DataDefinition Language) o gli specifici linguaggi di definizione dei dati del sottoschema.Successivamente per presentare interrogazioni ed operazioni su tali viste, può essere previsto unlinguaggio di manipolazione del sottoschema altrimenti viene usato il DML (Data ManipulationLanguage) generico.

1.2.3 Progetto fisico del database

Nel progetto fisico viene stabilito come le strutture a livello logico debbano essere organizzate negliarchivi e nelle strutture del file system: esso dipende quindi non solo dal tipo di DBMS utilizzato,ma anche dal sistema operativo e in ultima istanza dalla piattaforma hardware del sistema che ospitail DBMS.È pertanto il livello di progettazione in cui si può far uso del minor livello di astrazione, dovendorispettare i vincoli tecnici imposti dal sistema ospite.

1.2.4 Indipendenza dei dati

La catena di astrazione della figura 1.3, dal database concettuale, a quello logico e a quello fisico,fornisce due livelli di “indipendenza dei dati”. È ovvio che in un database ben progettato, lo schemafisico possa essere modificato senza alterare quello logico e senza richiedere una ridefinizione deisottoschemi. Questa indipendenza è nota come indipendenza fisica dei dati. Ciò implica che lemodifiche all’organizzazione del database fisico possono alterare l’efficienza dei programmiapplicativi, ma non sarà mai chiesto di riscrivere tali programmi solo perché lo schema fisico hamodificato l’implementazione dello schema logico.Anche la relazione tra vista e il database concettuale, fornisce un tipo di indipendenza chiamataindipendenza logica dei dati. L’uso del database può rendere necessario modificare lo schemaconcettuale, per esempio aggiungendo informazioni su diversi tipi di entità o altre informazioni suentità già esistenti. Lo schema concettuale può subire molte modifiche, senza coinvolgere isottoschemi esistenti, mentre altri tipi di variazione allo schema concettuale possono essere fattesolo ridefinendo la corrispondenza tra sottoschema e schema concettuale. Ancora una volta nonsono necessari variazioni ai programmi applicativi. L’unico tipo di variazione dello schemaconcettuale che non si riflette in una semplice ridefinizione della corrispondenza col sottoschema, siverifica quando vengono cancellate alcune informazioni del sottoschema. Naturalmente talivariazioni richiederanno la riscrittura o l’eliminazione di alcuni programmi applicativi.

1.3 Prodotti delle varie fasi della progettazione

I requisiti delle base di dati vengono utilizzati in maniera differente nelle varie fasi dellaprogettazione. Nella progettazione concettuale si fa uso soprattutto delle specifiche sui dati mentrele specifiche sulle operazioni servono solo a verificare che lo schema concettuale sia completo,contenga cioè le informazioni necessarie per eseguire tutte le operazioni previste. Nellaprogettazione logica si fa invece riferimento allo schema concettuale per quanto riguarda i dati (cioè

Metodologia di progettazione database relazionali

8I&T Informatica e Telecomunicazioni SpA

non si fa più uso diretto delle specifiche sui dati), mentre le specifiche sulle operazioni si utilizzano,insieme alle previsioni sul carico applicativo, per ottenere uno schema logico che renda talioperazioni eseguibili in maniera efficiente. In questa fase bisogna anche conoscere il modello logicoadottato ma non è ancora necessario conoscere il particolare DBMS scelto (solo la categoria a cuiappartiene). Infine, nella progettazione fisica si fa uso dello schema logico e delle specifiche sulleoperazioni per ottimizzare le prestazioni del sistema. In questa fase bisogna anche tener conto dellecaratteristiche del particolare sistema di gestione di base di dati utilizzato.Il risultato della progettazione di una base dati non è solo lo schema fisico, ma è costituito anchedallo schema concettuale e dallo schema logico. Lo schema concettuale fornisce infatti unarappresentazione della di base di dati ad alto livello, che può essere molto utile a scopodocumentativo, mentre lo schema logico fornisce una descrizione concreta del contenuto della basedi dati che, prescindendo dagli aspetti implementativi, può essere utile come riferimento per leoperazioni di interrogazione e aggiornamento.Nella figura 1.4 vengono mostrati i prodotti delle varie fasi nel caso della progettazione di una basedi dati relazionale, basata sull’uso del più diffuso modello concettuale dei dati, il modello Entità-Relazione. A partire da requisiti rappresentati da documenti e moduli di vario genere, acquisitianche attraverso l’interazione con l’utente, viene costruito uno schema Entità-Relazione(rappresentato da un diagramma) che descrive a livello concettuale la base di dati. Questarappresentazione viene poi tradotta in uno schema relazionale, costituito da una collezione ditabelle. Infine, i dati vengono descritti da un punto di vista fisico (tipo e dimensione dei campi) evengono specificate strutture ausiliarie per l’accesso efficiente ai dati.Nel seguito del documento saranno affrontati in maniera dettagliata i vari passi della progettazionedi base di dati secondo la decomposizione di figura 1.3 e con riferimento ai modelli usati nellafigura 1.4.

Metodologia di progettazione database relazionali

9I&T Informatica e Telecomunicazioni SpA

Progettazione concettuale

Realtà

SchemaEntità-Relazione

SchemaRelazionale

Strutturefisiche

d’accesso

Progettazione fisica

Progettazione logica

Fig. 1.4 Prodotti delle varie fasi del progetto di una base dati relazionale con il modello Entità-Relazione

Metodologia di progettazione database relazionali

10I&T Informatica e Telecomunicazioni SpA

2 Progettazione concettuale

La progettazione concettuale è la prima fase che viene eseguita nella costruzione di una base di dati,e in essa si produce, uno schema concettuale che rappresenta la realtà di interesse.Anche nel caso di applicazioni non particolarmente complesse, lo schema che si ottiene puòcontenere molti concetti correlati in una maniera piuttosto complicata. Ne consegue che lacostruzione dello schema finale è, necessariamente, un processo graduale: il nostro schemaconcettuale viene progressivamente raffinato e arricchito attraverso una serie di trasformazioni edeventuali correzioni. Di seguito verranno descritte le strategie che è possibile seguire in questoprocesso di sviluppo graduale di uno schema concettuale e il più diffuso modello che permette direalizzare il suddetto schema, il modello Entità-Relazione.Prima di iniziare a parlare di queste strategie, vale però la pena spendere qualche parola sull’attivitàche precede la progettazione vera e propria: la raccolta e l’analisi dei requisiti. Questa fase, infatti,non è completamente separata da quella della progettazione, ma procede, in molti casi,parallelamente ad essa. Possiamo, infatti, iniziare a definire uno schema Entità-Relazione quandonon abbiamo ancora terminato di raccogliere e analizzare tutti i requisiti, per poi arricchirloprogressivamente man mano che le informazioni in nostro possesso aumentano.

2.1 Raccolta e analisi dei requisiti

Va detto innanzitutto che il reperimento e l’analisi dei requisiti di una applicazione sono attivitàdifficilmente standardizzabili perché dipendono molto dall’applicazione con cui si a che fare.Vogliamo però parlare di alcune regole pratiche che è conveniente seguire in questa fase di sviluppodi una base di dati.Per raccolta dei requisiti si intende la completa individuazione dei problemi che il sistema darealizzare deve risolvere e le caratteristiche che tale sistema dovrà avere. Per caratteristiche delsistema si intendono sia gli aspetti statici (i dati) che gli aspetti dinamici (le operazioni sui dati). Irequisiti vengono inizialmente raccolti in specifiche espresse in linguaggio naturale e, per questomotivo, spesso ambigue e disorganizzate. L’analisi dei requisiti consiste nel chiarimento enell’organizzazione delle specifiche dei requisiti. Si tratta ovviamente di attività fortementeinterconnesse: l’attività di analisi inizia con i primi requisiti ottenuti per poi procedere di pari passocon attività di raccolta.I requisiti di una applicazione provengono, nella maggior parte dei casi, da fonti diverse. Leprincipali fonti di informazione sono, in genere, le seguenti.

• Gli utenti dell’applicazione. In questo caso le informazioni si acquisiscono mediante opportuneinterviste, anche ripetute, oppure attraverso una documentazione scritta che gli utenti possonoaver predisposto appositamente per questo scopo.

• Tutta la documentazione esistente che ha qualche attinenza con il problema allo studio: moduli,regolamenti interni, procedure aziendali e normative. È richiesta, in questo caso, un’attività diraccolta e selezione che viene assistita dagli utenti, ma è a carico del progettista.

• Eventuali realizzazioni esistenti, ovvero applicazioni che si devono rimpiazzare o che devonointeragire in qualche maniera con il sistema da realizzare. La conoscenza delle caratteristiche diquesti pacchetti software (tracciati record, maschere, algoritmi, documentazione associata) puòfornirci importanti informazioni anche in relazione ai problemi esistenti che è necessariorisolvere.

Metodologia di progettazione database relazionali

11I&T Informatica e Telecomunicazioni SpA

Risulta chiaro che, nella fase di acquisizione delle specifiche, gioca un importante ruolol’interazione con gli utenti del sistema informativo. Durante questa interazione, avviene spesso chegli utenti diversi forniscono informazioni diverse, spesso complementari ma qualche voltacontraddittorie. Gli utenti a livello più alto possiedono in genere una visione più ampia, ma menodettagliata. Possono però indirizzare verso gli esperti dei singoli sottoproblemi.Come criterio generale da seguire possiamo dire che, nel corso delle interviste, è opportunoeffettuare con l’utente verifiche di comprensione e consistenza sulle informazioni che si stannoraccogliendo. Questo può essere fatto attraverso esempi (generali e relativi a casi simili) oppurerichiedendo definizioni e classificazioni precise. È inoltre molto importante in questa fase cercare diindividuare gli aspetti essenziali rispetto a quelli marginali e procedere per raffinamenti successivi.Partendo quindi dai principali aspetti del problema allo studio, dei quali si ha inizialmente unaconoscenza solo parziale, si procede cercando di acquisire via via maggiori dettagli.Come abbiamo già accennato, la specifica dei requisiti raccolti avviene spesso, almeno in primabattuta, facendo uso di descrizioni in linguaggio naturale. Sappiamo bene però che il linguaggionaturale è fonte di ambiguità e fraintendimenti. È molto importante quindi effettuare una profondaanalisi del testo che descrive le specifiche per filtrare le eventuali inesattezze e i termini ambiguipresenti.Alcune regole generali per ottenere una specifica dei requisiti più precisa e senza ambiguità sono leseguenti:

• Scegliere il corretto livello di astrazione. È bene evitare l’utilizzo di termini troppo generici otroppo specifici che rendono poco chiaro un concetto.

• Standardizzare la struttura delle frasi. Nella specifica dei requisiti è preferibile utilizzaresempre lo stesso stile sintattico. Ad esempio, “per <dato> rappresentiamo <proprietà>” per ladescrizione dei dati e “se <condizione> allora <azione1> altrimenti <azione2> per descrivere leazioni.

• Evitare frasi contorte. Le definizioni devono essere semplici e chiare.• Individuare sinonimi/omonimi e unificare i termini. I sinonimi indicano termini diversi con

lo stesso significato; gli omonimi indicano termini uguali con diversi significati. Questesituazioni possono generare ambiguità e vanno chiarite: nel caso di sinonimi, unificando itermini, nel caso di omonimi, utilizzando termini diversi o specificandoli meglio.

• Rendere esplicito il riferimento tra termini. Può succedere che l’assenza di un contesto diriferimento renda alcuni concetti ambigui: in questi casi bisogna esplicitare il riferimento tratermini.

• Costruzione di un glossario dei termini. È molto utile, per la comprensione e precisazione deitermini usati, definire un glossario che, per ogni termine, contenga: una breve descrizione,possibili sinonimi e altri termini contenuti nel glossario con i quali esiste un legame logico.

Dopo aver individuato le varie ambiguità e le imprecisioni, esse vanno eliminate sostituendo itermini non corretti con i termini più adeguati. In caso di dubbio, è necessario intervistarenuovamente colui che ha fornito il dato o consultare la documentazione relativa. A questo punto sipossono riscrivere le specifiche apportando le modifiche proposte.

Naturalmente, accanto alle specifiche sui dati, vanno raccolte le specifiche sulle operazioni(inserimenti, consultazioni, aggiornamenti, stampe, ecc.) da effettuare su questi dati. Bisognacercare di utilizzare la medesima terminologia usata per i dati (possiamo per questo fare riferimentoal glossario dei termini) e informarci anche sulla frequenza con la quale le varie operazioni vengonoeseguite. Come vedremo, la conoscenza di questa informazione sarà determinante nella fase diprogettazione logica.

Metodologia di progettazione database relazionali

12I&T Informatica e Telecomunicazioni SpA

Dopo questa strutturazione dei requisiti, siamo pronti ad avviare la prima fase della progettazioneche consiste nella costruzione di uno schema concettuale in grado di descrivere in maniera adeguatale specifiche dei dati raccolte. A tal fine noi usiamo il modello Entità-Relazione.

2.2 Modello Entità-Relazione

Lo scopo del modello Entity-Relationship (Entità-Relazione E-R) è quello di permettere ladescrizione dello schema concettuale di una situazione reale senza preoccuparsi dell’efficienza odella progettazione del database fisico, che ci si aspetta invece nella maggior parte dei modellifisici. Di solito si pensa che lo schema entità-relazione così costruito sia poi tradotto in uno schemalogico di un modello logico dei dati, ad esempio quello relazionale, che al momento è il più diffuso.Di seguito sono descritti i costrutti che il modello mette a disposizione per esprimere la realtà diinteresse in maniera formale e facile da comprendere, e che prescinde dai criteri di organizzazionedei dati negli elaboratori.

EntitàIl modello entità-relazione, prevede come prima attività della progettazione concettuale, laindividuazione delle entità.Una entità è qualcosa che esiste ed è distinguibile: possiamo cioè riconoscere un’entità tra le altre.Ad esempio ogni persona è un’entità, così come ogni automobile.

Set di entitàUn gruppo composto da entità tutte “simili” forma un set di entità. Il termine “entità simili” non èdefinito in modo preciso e si possono stabilire infinite proprietà diverse con cui definire set dientità.Nella progettazione del modello concettuale di un database, la scelta dei set di entità, è unaoperazione fondamentale così come è importante individuare tutte le proprietà caratteristiche di unset di entità che vengono descritte mediante gli attributi. Dalla “somiglianza”, quindi, nasce lanecessità dell’individuazione di un insieme di caratteristiche comuni a tutti gli elementi del set dientità.Il set di entità è un concetto a livello di schema, mentre il corrispondente concetto a livello diistanza è il relativo sottoinsieme corrente di tutti gli elementi del dato set di entità nel database.

Lo schema entità-relazione ha una rappresentazione grafica che permette di avere immediatamentela visione globale dello schema concettuale del database. La rappresentazione grafica che si ottiene,a volte, invece di schema, viene chiamata diagramma entità-relazione (Entity-RelationshipDiagram – ERD). In questa rappresentazione grafica si usa una convenzione per rappresentare i varioggetti. I set di entità vengono rappresentate con dei rettangoli con il nome del set di entitàall’interno.

Attributi e chiaviCome già detto, i set di entità possiedono delle proprietà, chiamate attributi, le quali associano adogni entità del set un valore appartenente al dominio dei possibili valori per quell’attributo. Di solitoil dominio sarà un insieme di interi, numeri reali, stringhe di caratteri, valori booleani ma ancheimmagini, audio e video come nei più recenti database multimediali.La scelta degli attributi caratteristici per i set di entità è un punto abbastanza critico nell’ideare loschema concettuale di un database. Tra tutti gli attributi di un particolare set di entità ne va sceltouno o un insieme, i cui valori identificano in modo univoco ogni entità del set. Questo attributo oinsieme di attributi è chiamato chiave per quel dato set. In linea di principio ogni set di entitàpossiede una chiave soddisfacendo la richiesta che ogni entità sia distinguibile da ogni altra. Ma se

Metodologia di progettazione database relazionali

13I&T Informatica e Telecomunicazioni SpA

per un set di entità scegliamo un insieme di attributi tra i quali non si possa individuare una chiave,non saremo in grado di distinguere una entità dall’altra. Però è possibile fornire un codiceidentificativo arbitrario da usare come chiave.

La rappresentazione grafica degli attributi è un’ellisse con il nome dell’attributo scritto all’interno esi collega con il rispettivo set di entità con dei segmenti (non orientati). Agli attributi che fannoparte della chiave per il rispettivo set, viene aggiunta una sottolineatura al nome. Nel caso specialedi set di entità con un singolo attributo, a volte si identifica il set con l’attributo stesso, chiamando ilset col il nome dell’attributo. In tal caso, invece che con un rettangolo, il set di entità èrappresentato con un’ellisse collegata a qualunque relazione con cui sia coinvolto il set di entità.

RelazioniLe dipendenze o associazioni di interesse informativo tra i dati da rappresentare vengono espressenel modello entity-relationship mediante relazioni tra le corrispondenti entità. Le relazioni dellostesso tipo compongono l’insieme di relazioni (relation set) tra i due insiemi di entità.Per ottenere un modello adeguato del mondo reale, spesso è necessario classificare le relazioni aseconda del numero di entità associabili tra un set di entità e l’altro.

Relazioni uno-a-unoLa relazione più semplice, e più rara, fra le relazioni che collegano due set è quella uno-a-uno, cioèche ogni entità di un set è legata con al più un elemento dell’altro set.Le relazioni vengono rappresentate graficamente con dei rombi e vengono collegati ai propri set dientità con dei segmenti orientati o non a seconda del tipo di relazione. Nel caso di relazione uno-a-uno il segmento è orientato in entrambi i versi. Un’alternativa all’utilizzo dei segmenti orientati èquella di mettere sui segmenti che collegano la relazione ai set dei numeri che indicano lacardinalità della relazione.Un esempio di relazione 1:1 è la relazione tra nazioni e capitali. Ogni nazione ha un’unica capitale,ad una capitale corrisponde un’unica nazione.

Relazione uno-a-moltiDue set E1 ed E2 sono in relazione uno-a-molti da E1 ad E2 se una entità nel set E1 è associata conzero o più entità nel set E2, ma ogni entità in E2 è associata con al più una entità in E1.Un esempio di relazione 1:N è la relazione tra madri e figli. Una madre può avere più figli, mentread un figlio corrisponde un’unica madre.La rappresentazione grafica della relazione 1:N è un rombo con segmenti che uniscono i set dientità coinvolti e orientati soltanto nella direzione del set di entità con cardinalità uno.

Relazione molti-a-moltiDue set E1 ed E2 sono in relazione molti-a-molti se ad ogni elemento di E1 possono corrisponderepiù elementi di E2 e viceversa.Sulle relazioni molti-a-molti è da notare il fatto che non esistono efficienti strutture dati per la loroimplementazione, spesso è richiesto di scomporre tali relazioni con varie relazioni molti-a-uno.Un esempio di relazione N:M è la relazione tra corsi e studenti. Un corso è seguito da più studenti, elo stesso studente segue più corsi.La rappresentazione grafica della relazione N:M è un rombo con segmenti non orientati cheuniscono i set di entità coinvolti.

Gerarchia ISAUn tipo particolare di relazione è quella chiamata ISA o sottotipo/supertipo. Diciamo che A isa B,cioè “A è un B” (A è il sottotipo e B è il supertipo), se il set di entità B è una generalizzazione dientità del set A, o in modo equivalente se A è un tipo particolare (specializzazione) di B. Lo scopo

Metodologia di progettazione database relazionali

14I&T Informatica e Telecomunicazioni SpA

principale per dichiarare le relazioni isa tra i set di entità A e B è che in tal modo A eredita gliattributi di B, ma avrà anche attributi che non avrebbero necessariamente significato per glielementi di B che non siano anche elementi di A.La rappresentazione grafica della gerarchia isa è un rombo con etichetta isa con segmenti orientatinella direzione del set supertipo.

Un esempio di relazione isa è quello di una società che può avere un set di entità Dipendenti conattributi Matricola, Nome e Stipendio. Se la società fosse una squadra di calcio, alcuni deidipendenti, i Giocatori, avrebbero altri importanti attributi come Ruolo (portiere, difensore,attaccante), che non riguarderebbero gli altri dipendenti. Il modo migliore per progettare questoschema, è quello di avere un altro set di entità, Giocatori, legato con la relazione isa al setDipendenti. Gli attributi (anche le chiavi) che appartengono a Dipendenti (Matricola, Nome,Stipendio), verrebbero ereditati da Giocatori, ma solo Giocatori avrebbe un attributo come Ruolo.

Attributi delle relazioniIl modello entità-relazione prevede che anche gli insiemi delle relazioni abbiano degli attributi chene specificano le caratteristiche. Tali attributi vengono rappresentati graficamente con una ellisse,cioè come per gli attributi di un set di entità, con un segmento orientato nel verso che va dal romboall’ellisse.

2.3 Criteri generali di rappresentazione

Prima di affrontare le metodologie di progetto, è conveniente stabilire alcune criteri generali pertradurre una specifica informale in un costrutto del modello Entità-Relazione. Va precisato chespesso non esiste una rappresentazione univoca di un insieme di specifiche, perché la stessa realtàpuò essere rappresentata in modi differenti e non comparabili. Comunque, quando ci si trovadavanti a diverse possibilità, è utile avere delle indicazioni sulle scelte più opportune. Nel caso dellaprogettazione concettuale conviene, in buona sostanza, seguire le “regole concettuali” del modelloE-R.

• Se un concetto ha proprietà significative e/o descrive classi di oggetti con esistenza autonoma, èopportuno rappresentarlo con una entità.

• Se un concetto ha una struttura semplice e non possiede proprietà rilevanti associate, èopportuno rappresentarlo con un attributo di un altro concetto a cui si riferisce.

• Se sono state individuate due (o più) entità e nei requisiti compare un concetto che le associa,questo concetto può essere rappresentato da una relazione.

• Se uno o più concetti risultano essere casi particolari di un altro, è opportuno rappresentarlifacendo uso di una generalizzazione.

I criteri visti hanno validità generale, sono cioè indipendenti dalla strategia di progettazione scelta.Come vedremo in seguito, in ogni strategia esiste prima o poi un momento in cui va presa ladecisione sul costrutto da scegliere per rappresentare un certa specifica.

2.4 Documentazione dei diagrammi Entità-Relazione

Gli schemi Entità-Relazione ben congeniati sono in genere autoesplicativi e quindi facilmentecomprensibili. È buona norma però corredare uno schema con una documentazione di supporto, che

Metodologia di progettazione database relazionali

15I&T Informatica e Telecomunicazioni SpA

possa servire a facilitare l’interpretazione dello schema stesso e a descrivere proprietà dei datirappresentati che non possono essere espressi direttamente dai costrutti del modello.I concetti rappresentati in uno schema possono essere documentati facendo uso di uno dizionariodei dati. Esso è composto da due tabelle: la prima descrive le entità dello schema (dizionario deidati delle entità) con il nome, una descrizione informale, l’elenco degli attributi e gli identificatori,l’altra descrive le relazioni (dizionario dei dati delle relazioni) con il nome, una descrizioneinformale, le entità coinvolte, la cardinalità e gli attributi.L’uso del dizionario dei dati è particolarmente importante nei casi in cui lo schema è complesso(molti concetti collegati in maniera complicata) e risulta pesante aggiungere allo schema tutti gliattributi di entità e relazioni.Inoltre, esiste un altro aspetto molto importante di uno schema E-R che va documentato: la presenzadi vincoli di integrità sui dati che non possono essere rappresentati con i costrutti del modello. Adesempio un vincolo non esprimibile direttamente potrebbe essere il fatto che un impiegato non puòavere uno stipendio maggiore del direttore del dipartimento al quale afferisce. In questi casi, la cosamigliore è di aggiungere allo schema delle annotazioni (una tabella dei vincoli di integrità sui dati)che completano la descrizione delle proprietà associate ai concetti presenti nello schema e nonesprimibili altrimenti.

2.5 Utilità dei diagrammi Entità-Relazione

Perché dovremmo essere interessati al modello dati di un sistema? In primo luogo perché lestrutture di dati e le relazioni possono essere così complesse che vogliamo evidenziarle edesaminarle indipendentemente dall’elaborazione che avrà luogo. In effetti, ciò è particolarmentevero quando il modello del sistema viene mostrato agli utenti esecutivi di livello superiore inun’organizzazione (ad esempio, i vicepresidenti o direttori di reparto). Tali utenti sono spessointeressati ai dati: quali dati servono per condurre gli affari? In che modo i dati sono correlati adaltri dati? Chi possiede i dati? A chi è consentito l’accesso ai dati?La risposta ad alcune di queste domande – ad esempio, l’accesso ai dati e l’identificazione deiproprietari – è fornita dai DA (Data Administrator). Ogni volta che si inizia a costruire un nuovosistema informativo, si ha bisogno di parlare con queste persone in modo da poter coordinare leproprie informazioni sul sistema col loro modello di informazioni globale a livello aziendale.

• Il diagramma entità-relazione è un utile strumento per svolgere la conversazione col gruppo deiDA.

Si dovrà altresì conversare con il gruppo dei DBA (Data Base Administrator), situato solitamentenel reparto di elaborazione dati (mentre i DA non vi appartengono necessariamente), il cui compitoè quello di garantire che i database computerizzati siano organizzati, gestiti e controllatiefficacemente. Quindi essi costituiscono spesso la squadra di implementazione che ha laresponsabilità di prendere un modello essenziale (cioè, un modello indipendente dalla tecnologiaspecifica) e convertirlo in un progetto di database fisico efficace ed efficiente per Oracle, Informix,DB2 o qualche altro sistema di gestione di database.

• Il diagramma di entità-relazione è un efficace strumento di modellamento per comunicare colgruppo di DBA.

In base alle informazioni presentate dal diagramma E-R, il gruppo di amministrazione del databasepuò iniziare a determinare i tipi di chiave o di indici o di puntatori che servono per accedereefficientemente ai record del database.

Metodologia di progettazione database relazionali

16I&T Informatica e Telecomunicazioni SpA

Quindi il modello dei dati fornisce, oltre alla rappresentazione dei dati del sistema che si vuolegestire, un utile strumento di conversazione con gli altri gruppi di lavoro che interagiscono in unprogetto.In realtà fornendo rappresentazioni facili da comprendere dei dati coinvolti da un’applicazione, glischemi E-R possono essere utilizzati anche indipendentemente dallo scopo finale di realizzareun’applicazione.Esistono diversi esempi di possibile uso degli schemi concettuali che prescindono dall’attività diprogettazione:

• gli schemi E-R possono essere per esempio utilizzati a scopo documentativo, perché sonofacilmente comprensibili anche da non specialisti di base di dati;

• possono essere utilizzati per descrivere e analizzare un sistema informatico già esistente e, nelcaso di sistema costituito da diversi sottoinsiemi, c’è il vantaggio di poter rappresentare le variecomponenti con un linguaggio astratto e quindi unificante;

• possono essere infine utilizzati per comprendere, in caso di modifica dei requisiti di unaapplicazione, su quali porzioni di sistema si deve operare e in cosa consistono le modifiche daeffettuare.

2.6 Strategie di progetto

Lo sviluppo di uno schema concettuale a partire dalle sue specifiche può essere considerato a tuttigli effetti un processo di ingegnerizzazione e, come tale, risultano ad esso applicabili le comunistrategie di progetto utilizzate anche in altre discipline. Vediamo quali sono queste strategie conspecifico riferimento alla modellazione di una base di dati.

2.6.1 Strategia top-down

In questa strategia, lo schema concettuale viene prodotto mediante una serie di raffinamentisuccessivi a partire da uno schema iniziale che descrive tutte le specifiche con pochi concetti moltoastratti. Lo schema viene poi via via raffinato mediante opportune trasformazioni che aumentano ildettaglio dei vari concetti presenti. Si procede definendo vari piani di raffinamento del processo:ognuno di questi piani contiene uno schema che descrive le medesime informazioni a un diversolivello di dettaglio. Con questa strategia quindi, tutti gli aspetti presenti nello schema finale sonopresenti, in linea di principio, a ogni livello di raffinamento.Nel passaggio da un livello di raffinamento ad un altro, lo schema viene modificato facendo uso dialcune trasformazioni elementari che vengono denominate primitive di trasformazione top-down.Queste primitive operano su un singolo concetto dello schema e lo trasformano in una struttura piùcomplessa in grado di descrivere il concetto di partenza con maggiore dettaglio. Di seguito sonoelencate queste primitive.

• Trasformazione da entità a relazione tra entità. Si applica quando si comprende che unaentità descrive due concetti diversi legati logicamente tra di loro.

• Trasformazione da entità a generalizzazione. Si applica quando si comprende che una entità ècomposta da sotto-entità distinte.

• Trasformazione da relazione a insieme di relazioni. Si applica quando si comprende che unarelazione descrive in realtà due relazioni diverse tra le medesime entità.

Metodologia di progettazione database relazionali

17I&T Informatica e Telecomunicazioni SpA

• Trasformazione da relazione a entità con relazioni. Si applica quando si comprende che unarelazione descrive un concetto con esistenza autonoma ai fini dell’applicazione.

• Introduzione di attributi su entità. Si applica per aggiungere proprietà (attributi) a entità.• Introduzione di attributi su relazioni. Si applica per aggiungere attributi a relazioni.

Il vantaggio della strategia top-down è che il progettista può descrivere inizialmente tutte lespecifiche dei dati trascurandone i dettagli, per poi entrare nel merito di un concetto alla volta (siosservi che le primitive di trasformazione agiscono su singoli concetti). Questo però è possibile soloquando si possiede, sin dall’inizio, una visione globale e astratta di tutte le componenti del sistema,ma ciò è estremamente difficile quando si ha a che fare con applicazioni di una certa complessità.

2.6.2 Strategia bottom-up

In questa strategia, le specifiche iniziali sono suddivise in componenti via via sempre più piccole,fino a quando queste componenti descrivono un frammento elementare della realtà di interesse. Aquesto punto, le varie componenti vengono rappresentate da semplici schemi concettuali chepossono consistere anche di un singolo concetto. I vari schemi così ottenuti vengono poi fusi fino agiungere, attraverso una completa integrazione di tutte le componenti, allo schema concettualefinale. Questo procedimento consiste, quindi, di una fase di decomposizione delle specifiche, di unasuccessiva fase di rappresentazione delle componenti di base e di una fase finale di integrazionedegli schemi elementari. A differenza della strategia top-down, con questa strategia i vari concettipresenti nello schema finale vengono via via introdotti durante le varie fasi.Anche in questo caso, lo schema finale si ottiene attraverso alcune trasformazioni elementari chevengono denominate primitive di trasformazione bottom-up. Queste primitive introducono nelloschema nuovi concetti non presenti precedentemente e in grado di descrivere aspetti della realtà diinteresse che non erano ancora stati rappresentati. Vediamo queste primitive.

• Generazione di entità. Si applica quando si individua nelle specifiche una classe di oggetti conproprietà comuni.

• Generazione relazione. Si applica quando si individua nelle specifiche un legame logico tradue entità.

• Generazione di una generalizzazione. Si applica quando si individua nelle specifiche unlegame tra diverse entità riconducibili a una generalizzazione.

• Aggregazione di attributi su entità. Si applica quando, a partire da una serie di attributi, siindividua una entità che può essere vista come aggregazione di tali attributi.

• Aggregazione di attributi su relazione. Si applica in maniera simile alla trasformazioneprecedente, quando si individua una relazione che può essere vista come aggregazione di alcuniattributi.

Il vantaggio della strategia bottom-up è che si adatta ad una decomposizione del problema incomponenti più semplici, facilmente individuabili, il cui progetto può essere affrontato anche daprogettisti diversi. È quindi un tipo di strategia che si presta bene a lavori svolti in collaborazione osuddivisi all’interno di un gruppo. Lo svantaggio di questa strategia è invece il fatto che richiededelle operazioni di integrazione di schemi concettuali diversi che, nel caso di schemi complessi,presentano quasi sempre grosse difficoltà.

Metodologia di progettazione database relazionali

18I&T Informatica e Telecomunicazioni SpA

2.6.3 Strategia inside-out

Questa strategia può essere vista come un caso particolare della strategia bottom-up. Si individuanoinizialmente solo alcuni concetti importanti e poi si procede, a partire da questi, a “macchia d’olio”.Si rappresentano cioè prima i concetti concettualmente più vicini ai concetti iniziali, per poimuoversi verso quelli più lontani attraverso una “navigazione” tra le specifiche.Questa strategia ha il vantaggio di non richiede passi di integrazione. D’altro canto è necessario, divolta in volta, esaminare tutte le specifiche per individuare concetti non ancora rappresentati edescrive i nuovi concetti nel dettaglio. Non è quindi possibile procedere per livelli di astrazionecome avviene nella strategia top-down.

2.6.4 Stategia mista

La strategia mista cerca di combinare i vantaggi della strategia top-down con quelli della strategiabottom-up. Il progettista suddivide i requisiti in componenti separate, come nella strategia bottom-up, ma allo stesso tempo definisce uno schema scheletro contenente, a livello astratto, i concettiprincipali dell’applicazione. Questo schema scheletro fornisce una visione unitaria, sia pure astratta,dell’intero progetto e favorisce le fasi di integrazione degli schemi sviluppati separatamente.Definito lo schema scheletro possiamo procedere considerando, anche separatamente, i concettiprincipali e proseguire per raffinamenti successivi (procedendo quindi in maniera top-down) oppureestendere il (sotto)schema con concetti non ancora rappresentati (procedendo quindi in manierabottom-up).La strategia mista è probabilmente la più flessibile tra le strategie viste perché si adatta bene aesigenze contrapposte: quella di suddividere un problema complesso in sottoproblemi e quella diprocedere per raffinamenti successivi. In effetti, questa strategia ingloba anche la strategia inside-out che, che come abbiamo detto, è solo un caso particolare della strategia bottom-up. È infattiabbastanza naturale, durante uno sviluppo bottom-up di una sottocomponente di un progetto,procedere a macchia d’olio per rappresentare le specifiche della nostra base di dati non ancorarappresentate.C’è anche da dire che, in quasi tutti i casi pratici di una certa complessità, la strategia mista èl’unica che si può effettivamente adottare perché, come abbiamo detto precedentemente, è spessonecessario cominciare la progettazione quando non sono ancora disponibili tutti i dati e, dei datinoti, abbiamo spesso delle conoscenze a livello di dettaglio non omogenei.

2.7 Qualità di uno schema concettuale

Nella costruzione di uno schema concettuale vanno comunque garantite alcune proprietà generaliche uno schema concettuale di buona qualità deve possedere. Analizziamo le qualità più importantie vediamo come è possibile verificare, durante la progettazione, queste qualità.

CorrettezzaUno schema concettuale è corretto quando utilizza propriamente i costrutti messi a disposizione dalmodello concettuale di riferimento. Come avviene nei linguaggi programmativi, gli errori possonoessere sintattici o semantici. I primi riguardano un uso non ammesso di costrutti come, per esempio,una generalizzazione tra relazioni invece che tra entità. I secondi riguardano invece un uso dicostrutti che non rispettano la loro definizione. Per esempio, l’uso di una relazione per descrivere ilfatto che un’entità è specializzazione di un’altra. La correttezza di uno schema si può verificare perispezione, confrontando i concetti presenti nello schema in via di costruzione con le specifiche econ le definizioni dei costrutti del modello concettuale usato.

Metodologia di progettazione database relazionali

19I&T Informatica e Telecomunicazioni SpA

CompletezzaUno schema concettuale è completo quando rappresenta tutti i dati di interesse e quando tutte leoperazioni possono essere eseguite a partire dai concetti descritti nello schema. La completezza diuno schema si può verificare controllando che tutte le specifiche sui dati siano rappresentate daqualche concetto presente nello schema che stiamo costruendo, e che tutti i concetti coinvolti in unaoperazione presente nelle specifiche siano raggiungibili “navigando” attraverso lo schema.

LeggibilitàUno schema concettuale è leggibile quando rappresenta i requisiti in maniera naturale e facilmentecomprensibili. Per garantire questa proprietà è necessario rendere lo schema autoesplicativo, peresempio, mediante una scelta opportuna dei nomi da dare ai concetti. La leggibilità dipende ancheda criteri puramente estetici: la comprensione di uno schema è per esempio facilitata se tracciamo ilrelativo diagramma su una griglia nella quale i vari costrutti hanno le stesse dimensioni. Alcunisuggerimenti per rendere lo schema più leggibile sono i seguenti:

• disporre i costrutti in una griglia scegliendo come elementi centrali quelli con più legami(relazioni) con gli altri;

• tracciare solo linee perpendicolari e cercare di minimizzare le intersezioni (si noti che leintersezioni si possono evitare se lo schema è un grafo planare);

• disporre le entità che sono padri di generalizzazioni sopra le relative entità figlie.

La leggibilità di uno schema si può verificare facendo delle prove di comprensione con gli utenti.

MinimalitàUno schema è minimale quando tutte le specifiche sui dati sono rappresentate una sola volta nelloschema. Uno schema quindi non è minimale quando esistono delle ridondanze, ovvero concetti chepossono essere derivati da altri. Una fonte di ridondanza tipica in uno schema E-R è la presenza dicicli dovuta alla presenza di relazioni e/o generalizzazioni. A differenza delle altre proprietàcomunque, non sempre una ridondanza è indesiderata, ma può nascere da precise scelte progettuali.In ogni caso però, queste situazioni vanno documentate. La minimalità di uno schema si puòverificare per ispezione, controllando se esistono concetti che possono essere eliminati dallo schemache stiamo costruendo senza inficiare la sua completezza. Per quanto detto, si deve prestareparticolare attenzione ai cicli presenti nello schema.

Nel prossimo paragrafo illustreremo come la verifica delle qualità di uno schema concettualeappena viste, possa essere inglobata in una metodologia di progettazione generale.

2.8 Metodologia generale

In quest’ultimo paragrafo vogliamo cercare di tirare le somme su quanto detto relativamente allaprogettazione concettuale di base di dati. Per quel che riguarda le strategie di progetto viste, vaprecisato che, in pratica, non accade quasi mai che un progetto proceda sempre in maniera top-down o bottom-up. Indipendentemente dalla strategia scelta, nelle situazioni reali capita infatti dimodificare lo schema in via di costruzione sia con trasformazioni che raffinano un concetto presente(e quindi tipicamente top-down) sia con trasformazioni che aggiungono un concetto non presente (equindi tipicamente bottom-up). Presentiamo quindi una metodologia per la progettazioneconcettuale con il modello E-R con riferimento alla strategia mista che, come abbiamo detto, fa usodelle tecniche su cui si basano le altre e le comprende come caso particolare. La metodologia ècomposta dai passi seguenti.

Metodologia di progettazione database relazionali

20I&T Informatica e Telecomunicazioni SpA

1) Analisi dei requisiti

a) Costruzione di un glossario dei termini;

b) Analizzare i requisiti ed eliminare le ambiguità presenti;

c) Raggruppare i requisiti in insiemi omogenei;

2) Passo base

a) Individuare i concetti più rilevanti e rappresentarli in uno schema scheletro;

3) Passo di decomposizione (da effettuare se opportuno o necessario)

a) Effettuare una decomposizione dei requisiti con riferimento ai concetti presenti nelloschema scheletro;

4) Passo iterativo: da ripetere, per tutti i sotto-schemi (se presenti), finché ogni specifica è statarappresentata.

a) Raffinare i concetti presenti sulla base delle loro specifiche;

b) Aggiungere nuovi concetti allo schema per descrivere specifiche non ancoradescritte;

5) Passo di integrazione (da effettuare se sono presenti diversi sotto-schemi)

a) Integrare i vari sottoschemi in uno schema generale facendo riferimento allo schemascheletro;

6) Analisi di qualità

a) Verificare la correttezza dello schema ed eventualmente ristrutturare lo schema;

b) Verificare la completezza dello schema ed eventualmente ristrutturare lo schema;

c) Verificare la minimalità, documentare le ridondanze ed eventualmente ristrutturare loschema;

d) Verificare la leggibilità dello schema ed eventualmente ristrutturare lo schema.

Si osservi che se il passo 3) e il passo 5) non vengono effettuati e nel passo 4) si procede solomediante raffinamenti (azione a)), abbiamo una strategia top-down pura. Viceversa se il passo basenon viene effettuato e nel passo 5) vengono solo aggiunti nuovi concetti, ci stiamo muovendosecondo la strategia bottom-up pura. Infine, nelle trasformazioni bottom-up, si può procedere a“macchia d’olio”, cioè secondo la strategia inside-out. Si noti inoltre che nell’ultimo passo c’è unaverifica finale della completezza, sebbene la verifica di tale proprietà viene fatta anche a ogniesecuzione del passo iterativo.Concludiamo questa presentazione con una breve riflessione sulla fase finale della metodologiapresentata, quello dell’analisi della qualità del progetto. Questo ultimo passo costituisce in effetti unimportante momento di verifica del risultato dell’intera attività di progettazione, nel quale è spessonecessario dover effettuare delle ristrutturazioni per rimediare a “errori” fatti nelle fasi precedenti.Bisogna porre, in questa fase, particolare attenzione a concetti dello schema aventi proprietàparticolari: per esempio, entità senza attributi, insiemi di concetti che formano cicli, gerarchie digeneralizzazione troppo complesse o porzioni dello schema particolarmente contorte. Comeaccennato in precedenza, non è detto che questa analisi porti necessariamente a delleristrutturazioni, ma solo a una riorganizzazione dello schema che ne aumenta la leggibilità. È

Metodologia di progettazione database relazionali

21I&T Informatica e Telecomunicazioni SpA

comunque molto importante garantire che alla fine, tutte le caratteristiche dello schema concettualeprodotto, corrispondono a ben ponderate scelte progettuali.

Metodologia di progettazione database relazionali

22I&T Informatica e Telecomunicazioni SpA

3 Progettazione logica

L’obiettivo della progettazione logica è quello di costruire uno schema logico in grado didescrivere, in maniera corretta ed efficace, tutte le informazioni contenute nello schema Entità-Relazione prodotto nella fase di progettazione concettuale. Diciamo subito che non si tratta di unasemplice traduzione da un modello ad un altro perché, prima di passare allo schema logico, loschema Entità-Relazione va strutturato per soddisfare due esigenze: quello di “semplificare” latraduzione e quella di “ottimizzare” il progetto. La semplificazione dello schema si rende necessariaperché non tutti i costrutti del modello Entità-Relazione hanno una traduzione naturale nei modellilogici. Per esempio, mentre un’entità può essere facilmente rappresentata da una relazione nelmodello relazionale (avente gli stessi attributi dell’entità), per le generalizzazioni esistono variealternative. Inoltre, mentre la progettazione concettuale ha come obiettivo la rappresentazioneaccurata e naturale dei dati di interesse dal punto di vista del significato che hannonell’applicazione, la progettazione logica costituisce la base per l’effettiva realizzazionedell’applicazione e deve tener conto, per quanto possibile, delle sue prestazioni: questa necessitàpuò portare a una ristrutturazione dello schema concettuale che renda più efficiente l’esecuzionedelle operazioni previste. Pertanto, è necessario prevedere sia un’attività di riorganizzazione, siaun’attività di traduzione (dal modello concettuale a quello logico). Poiché la riorganizzazione puòessere in buona misura discussa indipendentemente dal modello logico, è utile di solito articolare laprogettazione logica in due fasi, come schematizzato in figura 3.1.

• Ristrutturazione dello schema Entità-Relazione: è una fase indipendente dal modello logicoscelto e si basa su criteri di ottimizzazione dello schema e di semplificazione della fasesuccessiva;

Traduzione versoun modello logico

Ristrutturazionedello schema E-R

SchemaE-R

Caricoapplicativo

Modellologico

Progettazione logica

Schema E-R ristrutturato

Schema logico

Vincolid’integrità

Schemalogico

Documentazionedi supporto

Fig. 3.1 Progettazione logica di base di dati

Metodologia di progettazione database relazionali

23I&T Informatica e Telecomunicazioni SpA

• Traduzione verso il modello logico: fa riferimento ad uno specifico modello logico (nel nostrocaso il modello relazionale) e può includere una ulteriore ottimizzazione che si basa sullecaratteristiche del modello logico stesso.

I dati di ingresso della prima fase sono lo schema concettuale prodotto nella fase precedente e ilcarico applicativo previsto, in termini di dimensione dei dati e caratteristiche delle operazioni. Inrisultato che si ottiene è uno schema E-R ristrutturato, che non è più uno schema concettuale nelsenso stretto del termine, in quanto costituisce una rappresentazione dei dati che tiene conto degliaspetti realizzativi. Questo schema e il modello logico scelto costituiscono i dati di ingresso dellaseconda fase, che produce lo schema logico della nostra base di dati. In questa seconda fase èpossibile effettuare verifiche della qualità dello schema (la normalizzazione) ed eventuali ulterioriottimizzazioni mediante tecniche basate sulle caratteristiche del modello logico.

Come premessa alla prima fase della progettazione logica parleremo degli strumenti e delle tecnicheche si possono usare per analizzare le prestazioni di una base di dati facendo riferimento al suoschema concettuale.

3.1 Analisi delle prestazioni su schemi E-R

Uno schema E-R può essere modificato per ottimizzare gli indici di prestazione del progetto.Parliamo di indici di prestazione e non di prestazioni perché, in realtà, le prestazioni di una base didati non sono valutabili in maniera precisa in sede di progettazione logica, in quanto dipendentianche da parametri fisici, dal sistema di gestione di basi di dati che verrà utilizzato e da altri fattoridifficilmente prevedibili in questa fase. È comunque possibile, facendo uso di alcuneschematizzazioni, effettuare studi di massima dei due parametri che generalmente regolano leprestazioni dei sistemi software:

• costo di una operazione: viene valutato in termini di numero di occorrenze di entità eassociazioni (relazione del modello E-R) che mediamente vanno visitate per rispondere a unaoperazione sulla base dei dati;

• occupazione di memoria: viene valutato in termini dello spazio di memoria (misurato in generein byte) necessario per memorizzare i dati descritti dallo schema.

Per studiare questi parametri abbiamo bisogno di conoscere, oltre allo schema, le seguentiinformazioni.

• Volume dei dati. Ovvero:

♦ numero (medio) di occorrenze di ogni entità e associazione dello schema,♦ dimensione di ciascun attributo (di entità o associazione)

• Caratteristiche delle operazioni. Ovvero:

♦ tipo dell’operazione (interattiva o batch),♦ frequenza (numero medio di esecuzioni in un certo intervallo di tempo),♦ dati coinvolti (entità e/o associazioni).

Il volume dei dati e le caratteristiche generali delle operazioni possono essere descritti facendo usodi tabelle, dette tavole dei volumi, che riportano tutti i concetti dello schema (entità e associazioni)con il volume previsto a regime. Mentre una tavola delle operazioni riporta, per ogni operazione, lafrequenza prevista e un simbolo che indica se l’operazione è interattiva o batch. Da notare che nella

Metodologia di progettazione database relazionali

24I&T Informatica e Telecomunicazioni SpA

tavola dei volumi, il numero delle occorrenze delle associazioni uno a molti (e uno a uno) dipendedal volume dell’entità che partecipa all’associazione con cardinalità massima pari a uno. Nel casoinvece di relazioni molti a molti, il volume delle associazioni dipende dal numero medio dipartecipazioni delle entità coinvolte.Per ogni operazione, possiamo inoltre descrivere graficamente i dati coinvolti con uno schema dioperazione che consiste nel frammento dello schema E-R interessato dall’operazione, sul qualeviene assegnato il “cammino logico” (con delle frecce) da percorrere per accedere alle informazionidi interesse.Avendo a disposizione queste informazioni, è possibile fare una stima del costo di un’operazionesulla base di dati contando il numero di accessi alle occorrenze di entità e relazioni necessario pereseguire l’operazione. Tutto questo può essere riassunto in una tavola degli accessi che riporta ilconcetto, il costrutto (entità o relazione), il numero degli accessi e il tipo dell’operazione (lettura,scrittura). La specificazione del tipo dell’operazione è importante in quanto le operazioni di scritturasono più onerose di quelle di lettura e devono essere eseguite in modo esclusive e possonorichiedere l’aggiornamento di indici (strutture ausiliarie per l’accesso efficiente ai dati).

Questi strumenti di analisi possono essere utilizzati per prendere decisioni durante laristrutturazione di schemi E-R mediante la costruzione degli indici di prestazione.

3.2 Ristrutturazione di schemi E-R

La fase di ristrutturazione di uno schema E-R si può suddividere in una serie di passi da effettuarein sequenza come mostrato in figura 3.2.

Fig. 3.2 Fasi di ristrutturazione della progettazione logica di base di dati

SchemaE-R

Caricoapplicativo

Ristrutturazione delloschema E-R

Schema E-R ristrutturato

Partizionamento /Accorpamento di entità

e associazioni

Analisi delle ridondanze

Eliminazione dellegeneralizzazioni

Scelta degliidentificatori principali

Metodologia di progettazione database relazionali

25I&T Informatica e Telecomunicazioni SpA

• Analisi delle ridondanze. Si decide se eliminare o mantenere eventuali ridondanze presentinello schema. La ridondanza corrisponde alla presenza di un dato che può essere derivato daaltri dati. La decisione di mantenere o eliminare una ridondanza va presa confrontando il costodi esecuzione delle operazioni che coinvolgono il dato ridondante e la relativa occupazione dimemoria, nei casi di presenza e assenza di ridondanza. A tale scopo vengono calcolati gli indicidi prestazione usando gli strumenti di valutazione visti in precedenza nei due casi, assenza epresenza di ridondanza, e si decide sulla base dei valori che si ottengono.

• Eliminazione delle generalizzazioni. Tutte le generalizzazioni presenti nello schema vengonoanalizzati e sostituite con altri costrutti supportati dal modello logico. Sostanzialmente esistonotre tecniche di eliminazione delle gerarchie ISA:

♦ Accorpamento delle figlie della generalizzazione nel padre;♦ Accorpamento del padre della generalizzazione nelle figlie;♦ Sostituzione della generalizzazione con relazioni 1:1.

• Partizionamento/accorpamento di entità e associazioni. Si decide se è opportuno partizionareconcetti dello schema (entità e/o associazioni) in più concetti o, viceversa, accorpare concettiseparati in un unico concetto. Queste modifiche sono rivolte a garantire una maggiore efficienzadelle operazioni in base al seguente principio: gli accessi si riducono separando attributi di unostesso concetto che vengono acceduti da operazioni diverse e raggruppando attributi di concettidiversi che vengono acceduti dalle medesime operazioni.

• Scelta degli identificatori primari. Si seleziona un identificatore per quelle entità che ne hannopiù di uno. Nei casi in cui esistono entità per le quali sono stati specificati più identificatori,bisogna decidere quali di questi identificatori verrà utilizzato come chiave principale. I criteri didecisione per questa scelta sono i seguenti:

♦ Gli identificatori con valori nulli non possono essere principali (non garantisconol’accesso a tutte le occorrenze dell’entità corrispondente);

♦ Un identificatore semplice (cioè composto da uno o da pochi attributi) è da preferire aindentificatori complessi (le operazioni sono più efficienti e si hanno indici di dimensioniridotte);

♦ Per gli stessi motivi del punto precedente un identificatore interno con pochi attributi èpreferibile ad un identificatore esterno che coinvolge diverse entità.

♦ Un identificatore che viene utilizzato da molte operazioni per accedere alle occorrenze diuna entità è da preferire rispetto agli altri.

È comunque buona norma tenere traccia, in qualche maniera, degli identificatori nonselezionati come primari in questa fase e che vengono utilizzati da qualche operazione peraccedere ai dati. Per questi identificatori è, infatti, possibile definire, in fase di progettazionefisica, strutture per l’accesso efficiente ai dati (indici).

3.3 Modello dati logico

Un modello dati a livello logico di progettazione è definito come un formalismo matematicocomposto da due parti:

• una notazione per descrivere i dati,• un insieme di operazioni per manipolare i dati.

Metodologia di progettazione database relazionali

26I&T Informatica e Telecomunicazioni SpA

Un modello matematico dei dati consente l’utilizzo di linguaggi e metodologie formali per l’accessoai dati. In particolare le due metodologie su cui si basano i linguaggi di accesso ai dati di undatabase relazionale sono l’algebra relazionale e il calcolo relazionale. In seguito verrà introdottala prima metodologia, in quanto costituisce la base del linguaggio SQL (Structured QueryLanguage), ormai affermato come standard nell’accesso ai database relazionali.

3.4 Modello dati relazionale

La rappresentazione dei dati nel modello logico relazionale è basata su un unico concettofondamentale, ovvero la relazione: questa va intesa in termini algebrici, e non va confusa con lerelazioni tra i dati del modello concettuale.Il concetto di relazione algebrica è quello secondo la teoria degli insiemi, cioè un sottoinsieme delprodotto cartesiano di una lista di domini. Non vogliamo qui entrare nei dettagli matematici e cilimitiamo a dire che le relazioni possono essere rappresentate graficamente sotto forma tabellare.Nella tabella che rappresenta la relazione algebrica, ogni riga è una tupla (o record) e a ognicolonna corrisponde una componente (o campo). Alle colonne si danno spesso dei nomi e sono gliattributi.L’insieme dei nomi di attributi (delle colonne) di una relazione si chiama schema di relazione. Sedenotiamo con REL una relazione e il suo schema di relazione ha gli attributi A1, A2, … , Ak si scrivespesso lo schema di relazione come:

REL(A1, A2, … , Ak)

L’insieme degli schemi di relazione usati per rappresentare informazioni viene chiamato schema didatabase (relazionale), e i valori correnti delle corrispondenti relazioni formano un’istanza deldatabase o semplicemente il database (relazionale).

Nella definizione di relazione come insieme seguono due osservazioni fondamentali:• in una tabella non possono esistere due righe uguali• l’ordine tra le righe di una tabella non è significativo.

Da tali osservazioni deriva che è possibile, e necessario, individuare in ciascuna tabella un insiemedi attributi (colonne) in base alle quali identificare le singole righe, che rappresentano quindi unachiave di accesso univoca alle informazioni contenute nella tabella stessa. Questo insieme dicolonne, definito in fase di ristrutturazione dello schema E-R, è detto chiave primaria (PrimaryKey - PK) della tabella.

3.5 Traduzione verso il modello relazionale

Per la creazione di uno schema logico relazionale è necessario, partendo da uno schema concettualedefinito in precedenza, in base al modello entità-relazione, applicare le seguenti regole.

1) Le entità dello schema concettuale diventano tabelle nello schema logico.2) Le relazioni tra entità dello schema concettuale, vengono rappresentate nello schema logico,

facendo uso delle cosiddette chiavi esterne. Una chiave esterna (Foreign Key - FK) di unatabella è un insieme di attributi che corrispondono a quelli che costituiscono la chiave primariadi un’altra tabella, e stabiliscono quindi, un riferimento tra le righe delle due tabelle (vincoli diintegrità referenziale).In particolare per rappresentare una relazione tra le tabelle T1 e T2 bisogna distinguere tra lerelazioni 1:1, 1:N, N:N.

Metodologia di progettazione database relazionali

27I&T Informatica e Telecomunicazioni SpA

2.1) Relazione 1:1Agli attributi di T1 vanno aggiunti, come chiave esterna, gli attributi che costituisconola chiave primaria di T2, o alternativamente a T2 vanno aggiunti, come chiave esterna,gli attributi che costituiscono la chiave primaria di T1. Le due soluzioni sono del tuttoequivalenti.

2.2) Relazione 1:NSupponiamo che la relazione sia 1:N tra T1-T2. Agli attributi di T2 vanno aggiunti,come chiave esterna, gli attributi che costituiscono la chiave primaria di T1 (ma non ilviceversa!).

2.3) Relazione N:NIn questo caso va definita una nuova tabella T3, che contiene, come chiavi esterne, lechiavi primarie sia di T1 che di T2; è da notare come in questo caso la chiave primariadella tabella T3 possa essere costituita dalla totalità dei suoi attributi.

Gli eventuali attributi della relazione vengono inclusi come attributi della tabella in cui èrappresentata la relazione (T3), quella che contiene le chiavi esterne.

3.6 Vincoli di integrità

Le strutture del modello relazionale ci permettono di organizzare le informazioni di interesse per lenostre applicazioni. In molti casi, però, non è vero che qualsiasi insieme di tuple sullo schemarappresenti informazioni corrette per l’applicazione.A tale scopo è stato introdotto il concetto di vincolo di integrità, come proprietà che deve esseresoddisfatta dalle istanze che rappresentano informazioni corrette per l’applicazione.È possibile classificare i vincoli a seconda degli elementi di una base di dati che ne sono coinvolti.Distinguiamo due categorie, la prima delle quali ha alcuni casi particolari:

• Un vincolo è intrarelazionale se il suo soddisfacimento è definito rispetto a singole relazionidella base di dati:• Un vincolo di tupla è un vincolo che può essere valutato su ciascuna tupla indipendentemente

dalle altre.• Come caso più specifico, un vincolo definito con riferimento a singoli valori viene detto

vincolo su valori o vincolo di dominio, in quanto impone una restrizione sul dominio degliattributi. Ad esempio, se una componente di una tupla rappresenta il voto di un esameuniversitario in esso sono ammessi valori compresi tra 18 e 30.

• Un vincolo è interrelazionale se coinvolge più relazioni.Ad esempio se abbiamo una tabella Esami e una Studenti possiamo richiedere che un numero dimatricola compaia nella relazione Esami solo se compare nella relazione Studenti.

3.6.1 Vincoli di chiaveI vincoli di chiave sono i più importanti vincoli intrarelazionali. Nel modello relazionale ognirelazione deve possedere una chiave e tale chiave deve identificare univocamente tutte le tuple dellarelazione a cui afferisce. Anche se è permesso che delle tuple possano contenere valori nulli cheindicano l’assenza (o la non conoscenza) dell’informazione per il corrispondente componente, sullechiavi delle relazioni è vietata la presenza dei valori nulli pena l’identificazione stessa delle tuple.

3.6.2 Vincoli di integrità referenzialeI vincoli di integrità referenziale, la più importante classe di vincoli interrelazionali, stabilisconodelle regole da seguire per salvare le relazioni definite tra tabelle durante l’immissione o

Metodologia di progettazione database relazionali

28I&T Informatica e Telecomunicazioni SpA

l’eliminazione di record. Quando si applica l’integrità referenziale non è possibile aggiungere unrecord ad una tabella correlata se nella tabella primaria non esistono record associati, modificarevalori contenuti nella tabella primaria che genererebbero record isolati in una tabella correlata edinfine eliminare record della tabella primaria se in una tabella correlata sono inclusi dei recordcorrelati corrispondenti.

3.7 Algebra relazionale

Gli operatori dell’algebra relazionale permettono di eseguire le operazioni sui dati di un databaserelazionale. Essi definiscono le operazioni rilevanti nella gestione delle tabelle (relazionialgebriche) e possono essere classificati in operatori di base e operatori derivati.I primi costituiscono un insieme funzionalmente completo, ovvero permettono di realizzare tutte leoperazioni di dati all’interno di uno di schema relazionale. I secondi sono derivabili dai primimediante opportune operazioni algebriche a volte complesse.Gli operatori di base sono proiezione, selezione, prodotto, ridenominazione, unione e differenza. Glioperatori derivati sono intersezione, giunzione naturale e giunzione.Tutti gli operatori relazionali hanno la caratteristica comune di avere come argomento dellerelazioni (tabelle) e fornire come risultato altre relazioni (ancora tabelle). Nel seguito saranno usaticome sinonimi i termini relazione e tabella.

3.7.1 Operatori di base

ProiezioneData una tabella e un insieme di attributi, la proiezione restituisce una tabella con tutte le righe diquella di partenza ma con alcune colonne (attributi) eliminati e/o risistemati nell’ordine desiderato.

Selezione o restrizioneData una tabella e una condizione logica sui suoi attributi, la selezione restituisce una tabella con glistessi attributi di quella di partenza ma con le sole righe che soddisfano la condizione.

Prodotto (cartesiano) o congiunzioneDate due tabelle, il loro prodotto restituisce una tabella le cui righe sono ottenute concatenando ogniriga della prima con tutte le righe della seconda.

RidenominazioneData una tabella e una sequenza di attributi, la ridenominazione restituisce una tabella ottenuta dallatabella di partenza cambiandone tutti gli attributi ordinatamente in quelli della sequenza data comeargomento. Espressa in altri termini, la ridenominazione di una tabella in base a un insieme di nomiconsente di ridenominarne le colonne assegnando loro tali nomi.

UnioneDate due tabelle con gli stessi attributi restituisce come risultato una tabella contenente tutte le righedelle due tabelle considerate.

DifferenzaAnche in questo caso le tabelle devono avere la stessa struttura; il risultato è una tabella checontiene tutte le righe della prima escluse quelle contenute nella seconda. In altre parole la tabellarestituita è uguale alla prima tabella epurata dalle righe uguali, cioè contenente gli stessi valori, arighe presenti nella seconda tabella.

Metodologia di progettazione database relazionali

29I&T Informatica e Telecomunicazioni SpA

3.7.2 Operatori derivati

IntersezioneDate due tabelle con gli stessi attributi, restituisce come risultato una tabella contenente tutte lerighe comuni alle due tabelle considerate.

Natural join (giunzione naturale)Date due tabelle con un dominio in comune, restituisce una tabella ottenuta mediante il seguenteprocedimento:

1) viene effettuato il prodotto cartesiano tra le due tabelle;2) sulla tabella così risultante viene eseguita la selezione delle righe in cui gli attributi

appartenenti al dominio comune sono uguali;3) vengono infine ridenominati gli attributi comuni con uno stesso nome, in modo che

compaiono una sola volta.

È possibile definire il natural join anche tra tabelle aventi più domini in comune. Se le tabelle nonhanno domini in comune il natural join si riduce al prodotto cartesiano.

Join (giunzione)Date due tabelle con un dominio in comune, ed una condizione nella forma

A1 op A2

Dove A1 e A2 sono gli attributi delle due tabelle corrispondenti al dominio in comune e op è unoperatore di confronto (>, <, ≤, ecc.), la join restituisce una tabella ottenuta mediante il seguenteprocedimento:

1) viene effettuato il prodotto cartesiano tra le due tabelle:2) sulla tabella così risultante viene eseguita la selezione delle righe in cui gli attributi

appartenenti al dominio comune soddisfano la condizione:3) vengono infine ridenominati gli attributi comuni con lo stesso nome, in modo che

compaiono una volta sola.

Se op è l’operazione di = la join viene chiamata equijoin.

SemijoinIl semijoin della relazione R con la relazione S è la proiezione sugli attributi di R del natural join diR e S.

Metodologia di progettazione database relazionali

30I&T Informatica e Telecomunicazioni SpA

3.8 Normalizzazione dei dati

Una volta impostato uno schema logico relazionale è necessario effettuare una serie di verifichesulla correttezza del procedimento svolto. Queste potranno portare a modificare la struttura delloschema stesso, al fine di renderlo corretto ed evitare il verificarsi, nella gestione dei dati, di erroridifficilmente ovviabili a posteriori.Tale processo è detto normalizzazione dello schema relazionale ed è effettuabile medianteprocedimenti di tipo algebrico, basati sui concetti di dipendenza e di scomposizione.Esistono cinque (anche di più) forme normali di cui le prime due sono molto semplici mentre quellepiù significative sono la terza e quella di Boyce-Codd che hanno certe proprietà desiderabili:• assenza o quasi di ridondanza nelle relazioni• eliminazione delle anomalie• conservazione delle dipendenze• ricostruzione della relazione di partenza a partire da quelle scomposte• mantenimento dei vincoli di integrità del progetto originale.

3.8.1 Ridondanza e anomalie

Vediamo dei comportamenti poco desiderabili di uno schema di relazione tramite un esempio.Supponiamo di avere la relazione:

INFO_FORN(NOME_FORN, INDIR_FORN, NOME_PROD, PREZZO)

che comprende tutte le informazioni di un fornitore di un particolare prodotto.In questo schema si possono riscontrare diversi problemi.

• Ridondanza. L’indirizzo del fornitore è ripetuto una volta per ogni prodotto venduto.• Inconsistenza potenziale (anomalie di aggiornamento). Come conseguenza della ridondanza

potremmo aggiornare l’indirizzo del fornitore in una tupla, lasciandolo inalterato in un’altra.Non avremmo allora un unico indirizzo per ogni fornitore, come invece ci si aspetterebbe.

• Anomalie di inserimento. Non possiamo registrare un indirizzo di un fornitore, se questoattualmente non fornisce almeno un prodotto. In una tupla potremmo porre dei valori nulli nellecomponenti NOME_PROD e PREZZO per quel fornitore, ma allora, quando per esso siintroducesse un prodotto, ci ricorderemmo di cancellare la tupla dei valori nulli? E ancorapeggio, NOME_PROD e NOME_FORN insieme formano una chiave per la relazione, e non èammissibile che si inseriscono dei valori nulli in una chiave.

• Anomalie in cancellazione. L’inverso del problema precedente è che se cancellassimo tutti iprodotti di un fornitore, involontariamente perderemmo traccia del suo indirizzo.

Nell’esempio mostrato tutti i problemi precedenti svaniscono se sostituiamo la relazioneINFO_FORN con i due schemi di relazione seguenti:

FORNITORI(NOME_FORN, INDIR_FORN)FORNISCE(NOME_FORN, NOME_PROD, PREZZO)

In tal caso FORNITORI contiene l’indirizzo di ogni fornitore esattamente una volta, quindi non vi èridondanza. Inoltre possiamo introdurre l’indirizzo di un fornitore anche se attualmente non fornisceprodotti.

Metodologia di progettazione database relazionali

31I&T Informatica e Telecomunicazioni SpA

Adesso però abbiamo lo svantaggio di dover eseguire una join tra le due relazione per ottenere gliindirizzi dei fornitori di un certo prodotto.Quello che abbiamo appena eseguito non è altro che una normalizzazione della relazioneINFO_FORN scomponendo tale relazione in altre due relazioni che conservano tutti i dati e ledipendenze di partenza.Vediamo adesso brevemente i concetti dipendenze e di scomposizione che sono alla base delleforme normali.

3.8.2 Dipendenze

La ridondanza è strettamente legata alle dipendenze che esistono tra i vari attributi di una relazione.Le dipendenze possono essere di vario tipo. La più importante è la dipendenza funzionale chevedremo meglio di seguito. Un’altra interessante è la dipendenza a molti valori le cui ridondanzeintrodotte vengono eliminate da una generalizzazione della forma normale di Boyce-Codd, la quartaforma normale.

Dipendenze funzionaliLe dipendenze funzionali sono uno specifico strumento di lavoro che permette di studiare inmaniera sistematica i concetti introdotti in modo informale nel paragrafo precedente. Si tratta di unparticolare vincola di integrità per il modello relazionale che, come suggerisce il nome, descrivelegami di tipo funzionale tra gli attributi di una relazione.Se ad esempio un attributo ne determina un altro in modo unico, come potrebbe essere cheNome_Fornitore determina Indirizzo_Fornitore diciamo che vi è una dipendenza funzionale diIndirizzo_Fornitore da Nome_Fornitore, o anche che Nome_Fornitore determina funzionalmenteIndirizzo_Fornitore, e si indica come segue:

{Nome_Fornitore} à {Indirizzo_Fornitore}

Da notare che il vincolo di dipendenza funzionale generalizza il vincolo di chiave. Per l’insieme diattributi che formano una chiave per una relazione, si può dire che, gli altri attributi (anche unsottoinsieme della chiave) sono determinati funzionalmente dalla chiave. La chiave quindidetermina funzionalmente una relazione.

Un’altra dipendenza funzionale dello schema di relazione Info_Forn è:

{Nome_Forn, Nome_Prod} à {Prezzo}

che ritroviamo nella seconda tabella della scomposizione.

Individuazione delle dipendenzePer individuare tutte le dipendenze di uno schema di relazione non è plausibile andare a vedere letuple della relazione per dedurre le dipendenze valide.Il solo modo per determinare le dipendenze funzionali che valgono per uno schema di relazione èquello di considerare con attenzione il significato degli attributi.

3.8.3 Scomposizioni

Il motivo per eseguire una scomposizione è che essa permette di eliminare la maggior parte deiproblemi di ridondanza e anomalie. Abbiamo anche visto in precedenza che gli schemi di relazioniFORNITORI e FORNISCE sono una scomposizione per lo schema di relazione INFO_FORN, erisolvono i problemi riscontrati.

Metodologia di progettazione database relazionali

32I&T Informatica e Telecomunicazioni SpA

Ma adesso sorge un dubbio, noi ci aspettiamo che le relazioni correnti degli schemi scomposti sianola proiezione sui rispettivi attributi della relazione dello schema di partenza. Un modo percontrollarlo è quello di prendere il natural join delle relazioni scomposte e vedere se riotteniamo larelazione dello schema di partenza. Se però il natural join non permette di ricostruire la relazioneoriginale, non vi è alcun modo di ripristinarla in modo univoco.

Scomposizione lossless join (senza perdita)Le scomposizioni lossless join sono delle scomposizioni che soddisfano particolari proprietà chegarantiscono la ricostruzione della relazione originale dalle relazioni scomposte (si esegue tra questiultimi un natural join). In tal modo, interrogando le relazioni scomposte si ottengono gli stessirisultati che si otterrebbero interrogando la relazione originale.Per la scomposizione in soli due schemi vi è una regola molto semplice che dice che una relazionesi decompone senza perdita su due relazioni se l’insieme degli attributi comuni alle due relazioni èchiave per almeno una delle due relazioni scomposte.

Scomposizioni che conservano le dipendenzeUn’altra proprietà importante di una scomposizione di uno schema di relazione è che essa mantengale dipendenze.Diciamo che una scomposizione di uno schema di relazione conserva l’insieme delle dipendenze sel’unione di tutte le dipendenze nello schema scomposto implica logicamente tutte le dipendenzeiniziali.Il motivo per cui è desiderabile che una scomposizione mantenga le dipendenze è che le dipendenzesi possono considerare come vincoli di integrità (correttezza dei valori che si trovano nellecomponenti delle tuple) per lo schema di relazione.In modo intuitivo possiamo dire che una decomposizione conserva le dipendenze se in ognidecomposizione, ciascuna delle dipendenze funzionali dello schema originario coinvolge attributiche compaiono tutti insieme in uno degli schemi decomposti.In questo modo, è possibile garantire, sullo schema decomposto, il soddisfacimento degli stessivincoli il cui soddisfacimento è garantito dallo schema originario.

Una nota a sfavore delle scomposizioni è quella che aumentano i tempi di risposta delleinterrogazioni sul database quindi è apprezzabile nel momento in cui sia necessario risolvereproblemi come quello della ridondanza, ma non in altri casi.

Riassumendo possiamo dire che siamo interessati solo alle scomposizioni che sono senza perdita eche conservano le dipendenze e, in base a queste considerazioni, effettuare la normalizzazione delprogetto della base di dati, non prima però di aver individuato tutte le dipendenze funzionali delloschema di database.

3.8.4 Prima forma normale

Se lo schema di database non si trova già in prima forma normale lo riconduciamo.La prima forma normale (First Normal Form – 1NF) stabilisce che in una tabella (relazione) nonpossono esistere colonne (attributi) definite per contenere una molteplicità di valori. Una tabellaquindi non può contenere una struttura vettoriale o array, al contrario di quanto consentito inlinguaggi di programmazione tradizionali.Le tabelle che contengono una colonna non rispondente a questa condizione vanno trasformate,creando per ciascuna riga della tabella di partenza tante righe quanti sono i valori multipli presentinelle colonne della riga considerata, oppure, scomponendo in due tabelle in cui in una vengono

Metodologia di progettazione database relazionali

33I&T Informatica e Telecomunicazioni SpA

spostate le colonne ripetute. L’associazione tra le due tabelle è stabilita con la combinazione dellaprimary key e foreign key.Da notare che, nelle tabelle non normalizzate viene assegnato comunque spazio di memorizzazioneai “campi ripetuti” anche se in essi non sono specificati valori. Inoltre il numero dei “campiripetuti”, è fisso, vincolando il numero di valori al massimo numero previsto. In ultimo, ma non perimportanza, se vogliamo ricercare un valore nella tabella suddetta lo dobbiamo fare per tutte lecolonne ripetute di ogni riga. Tutti questi problemi si risolvono trasformando o decomponendocome detto sopra.

3.8.5 Seconda forma normale

La seconda forma normale (Second Normal Form – 2NF) riguarda le tabelle in cui la chiaveprimaria sia composta da più attributi e stabilisce che, in questo caso, tutte le colonne corrispondentiagli attributi dipendano dall’intera chiave primaria e non da una parte di essa. Naturalmente èrichiesto che la tabella sia già in 1NF. Se la tabella è dotata di chiave primaria mono attributo è giàin 2NF.Le violazioni alla 2NF si risolvono individuando, guidati dalle dipendenze funzionali, unadecomposizione per la tabella originale che soddisfa le proprietà di lossless join e di conservazionedelle dipendenze. Le tabelle così ottenute eliminano buona parte dei problemi di ridondanza e dianomalie.

3.8.6 Terza forma normale

La terza forma normale (Third Normal Form - 3NF) stabilisce che non esistono dipendenze tracolonne di una tabella se non basate sulla chiave primaria, o se esistono, l’attributo determinato èprimario. Un attributo è primario se è membro di una qualunque chiave della relazione.Naturalmente è richiesto che la tabella sia già in 2NF.

L’idea generale è di scomporre in modo che a ciascuna dipendenza corrisponde una diversarelazione la cui chiave è proprio il primo membro della dipendenza stessa. In tale modo, ilsoddisfacimento della 3NF è garantito, per la definizione stessa della 3NF.In molti casi pratici la struttura delle dipendenze stesse, “naturalmente” separate e indipendentil’una dall’altra, permette una decomposizione che produce tante relazioni quante sono ledipendenze funzionali definite (o meglio, le dipendenze funzionali con diverso primo membro).

In generale, purtroppo, le dipendenze possono avere una struttura complessa: può non esserenecessario (possibile) basare la decomposizione su tutte le dipendenze e può essere difficileindividuare quelle su cui si deve basare la decomposizione. Basti pensare al caso in cui ci sonodipendenze che ricoprono tutti gli attributi di una relazione non suggerendo alcuna decomposizionee quando ci sono più dipendenze funzionali fra loro interconnesse. In tal caso non si può fare ameno di trattare la normalizzazione in modo formale.

3.8.7 Linee guida sulla normalizzazione

1) Partire dalle tabelle non normalizzate.

2) Individuare le chiavi primarie, ed eventuali altre dipendenze funzionali.

Metodologia di progettazione database relazionali

34I&T Informatica e Telecomunicazioni SpA

3) Individuare e risolvere le violazioni della 1NF rimuovendo tutti gli attributi ripetuti.• Se esistono attributi ripetuti trasformare la tabella in questione creando per ciascuna riga

della tabella di partenza tante righe quanti sono i valori multipli presenti nelle colonnedella riga considerata oppure spostando le colonne ripetute in un’altra tabella dove lachiave primaria della prima tabella diventa chiave esterna in quest’ultima.

4) Individuare e risolvere le violazioni della 2NF assicurando che ciascun attributo dipendadall’intera chiave.

• Se alcuni attributi non dipendono dall’intera chiave (dipendenze funzionali in cui iltermine a sinistra non è l’intera chiave) creare una nuova tabella con gli altri attributi chedipendono da parte di questa.

• Definire in questa nuova tabella la chiave primaria coincidente con la parte determinantedella chiave originale.

• Eliminare dalla tabella originale gli attributi (non chiave) spostati nella nuova tabella.

5) Individuare e risolvere le violazioni della 3NF assicurando che non esistano attributi non chiaveche dipendano da altri attributi non chiave.

• Se esiste un tale attributo, rimuoverlo dalla tabella originale insieme da tutti gli altri chedipendono dallo stesso determinante (dipendenze funzionali tra attributi non chiave), ecreare una nuova tabella che li contenga.

• Gli attributi determinanti diventano chiave primaria nella nuova tabella e permangononella precedente tabella in qualità di chiavi esterne.

• (Eliminare gli attributi che sono dipendenti dai determinanti dalla tabella di partenza).

Il processo precedente permette di verificare la qualità delle relazioni, a volte non occorre farenessuna trasformazione, perché lo schema del database si trova già in 3NF, in questo contesto, lateoria della normalizzazione costituisce un utile strumento di analisi della qualità di un progetto.Il motivo per cui a volte non necessita fare alcuna trasformazione sullo schema del database èperché la metodologia di progettazione (concettuale, logica) porta a schemi di database già in 3NF,tramite l’individuazione e la separazione dei concetti fondamentali della realtà da modellarecreando entità e/o associazioni distinte.

Per la maggior parte delle situazioni quando un progetto di schema di database si trova in terzaforma normale è più che ottimo.Esistono diverse altre forme normali, la prima in sequenza è la forma normale di Boyce-Codd(BCNF) che stabilisce che non esistono dipendenze tra attributi di una relazione se non basate sullachiave primaria. La ragione che sta alla base della BCNF è quella di eliminare le ridondanze chepossono essere introdotte dalle dipendenze funzionali e non eliminate dalle precedenti formenormali. In tale forma normale, facendo uso solo delle dipendenze funzionali, non è possibileprevedere nessun valore dati gli altri.Segue la quarta forma normale (4NF), una generalizzazione della precedente, che si applica aschemi di relazione con dipendenze a molti valori, e che permette di eliminare le ridondanzeprovocate da queste dipendenze e non eliminate dalle precedenti forme normali.

Ricordiamo ancora che le due più importanti proprietà per schemi di database sono il lossless join ela conservazione delle dipendenze e sono viste come un tutt’uno.I risultati cui è giunta la teoria della normalizzazione sono che per qualunque schema relazionale viè una scomposizione lossless join in forma normale Boyce-Codd e una in terza forma normale cheha un lossless join e conserva anche le dipendenze. Tuttavia può non esserci una scomposizione diuno schema relazionale in forma normale Boyce-Codd che conservi le dipendenze.Si può quindi affermare che, talvolta, la forma normale di Boyce-Codd non è raggiungibile.

Metodologia di progettazione database relazionali

35I&T Informatica e Telecomunicazioni SpA

3.9 Implementazione dello schema logico

Ricapitolando, il corretto progetto di una base di dati relazionale dovrebbe partire dalla definizionedello schema derivato dall’esame della realtà di interesse, per arrivare alla definizione di unoschema logico relazionale normalizzato.Esistono strumenti informatici detti CASE (Computer Aided Software Engineering) che aiutanol’analista in questo processo; esempi di questa classe di strumenti sono Bachman della CayenneSoftware Inc e ERwin della LogicWorks.Lo schema relazionale deve essere tradotto utilizzando un RDBMS (Relational DatabaseManagement System); tra i più diffusi troviamo Oracle, Informix, DB2, SQL Server, Sybase,eccetera.Un RDBMS, tramite il suo DDL, permette di implementare lo schema logico attraverso la creazionedi tabelle, chiavi primarie e esterne, indici, viste e così via, fa rispettare i vincoli di tupla, didominio, di unicità, di Not Null, di integrità referenziale, eccetera.

Nella pratica, nella progettazione dello schema logico, per ragioni di efficienza si deve compierespesso un ulteriore passo detto di denormalizzazione in cui, in parziale contrasto con la teoriarelazionale, si ammette una certa ridondanza dei dati in cambio di migliori prestazioni del sistema intermini di tempi di risposta.

Metodologia di progettazione database relazionali

36I&T Informatica e Telecomunicazioni SpA

4 Progettazione fisica

Nell’ambito del progetto di una base di dati, la fase finale è costituita dalla progettazione fisica, che,ricevendo in ingresso lo schema logico di una base di dati e le caratteristiche del sistema scelto,produce in uscita lo schema fisico del database, costituito dalle effettive definizioni delle relazioni esoprattutto delle strutture fisiche di memorizzazione utilizzate, con i relativi parametri. Ad, esempiouna relazione può essere realizzata fisicamente per mezzo di un file sequenziale, o di un file hashedo di file sequenziale con uno o più indici. Ogni tupla della relazione viene memorizzata come unrecord fisico nella struttura dati scelta, e ogni componente della tupla è memorizzata in un campodel record fisico.L’attività di progettazione fisica di una base di dati relazionale, in realtà non è così semplice, perchéoltre alle scelte relative alle strutture fisiche può essere necessario definire molti parametri, chevanno dalle dimensioni iniziali dei file alle possibilità di espansione, dalla contiguità di allocazionealla quantità e alle dimensioni delle aree di transito per scambio di informazioni tra memoriaprincipale e secondaria.La maggior parte delle scelte da effettuare nel corso della progettazione fisica dipende in effettidallo specifico sistema di gestione utilizzato, e quindi risulta difficile fornire una panoramicacompleta. Indicheremo solo le linee principali, che possono però essere considerate sufficienti inpresenza di basi di dati di dimensioni non enormi o con carichi di lavoro non particolarmentecomplessi.Assumiamo che il DBMS a nostra disposizione preveda solo file non ordinati, con possibilità didefinizione di indici (strutture ausiliarie per il reperimento efficiente dei dati). In questo contesto,ignorando gli altri parametri, la progettazione fisica può essere ricondotta ad una attività diindividuazione degli indici da definire su ciascuna relazione (a parte l’attività semplice di specificadegli schemi delle relazioni nello specifico DDL del sistema usato, con i tipi di dati ammessi per ivari attributi).Per orientarci nella scelta degli indici, è opportuno ricordare che le operazioni più delicate in undatabase relazionale sono quelle di selezione (che corrisponde all’accesso ad uno o più record sullabase dei valori di uno o più attributi) e di join (che richiede di combinare ennuple di relazionidiverse sulla base dei valori di uno o più attributi di ciascuna di tali relazioni). Ciascuna delle dueoperazioni può essere eseguita in maniera più efficiente se sui campi interessati è definito un indice,che permette un accesso diretto.È interessante notare che molti dei join che si presentano nelle applicazioni sono equi-join e peralmeno una delle due relazioni i campi coinvolti formano una chiave (si può usare efficientemente ilmetodo dei nested-loop – si scandisce sequenzialmente una relazione e si accede direttamenteall’altra tramite l’indice). Al tempo stesso possiamo notare come quasi sempre la chiave di unarelazione sia coinvolta in operazioni di selezione o di join (o entrambe). Pertanto possiamo dire cheè ragionevole definire, su ciascuna relazione, un indice in corrispondenza della relativa chiave(indice primario). Tali indici solitamente vengono creati in automatico dal DBMS. Inoltre possonoessere definiti indici (indici secondari) su altri campi su cui vengono effettuate operazioni diselezione oppure su cui è richiesto un ordinamento in uscita (perché un indice ordina logicamente irecord di un file, rendendo nullo il costo di un ordinamento). Queste osservazioni costituiscono labase di una semplice strategia di progettazione fisica.Definiti in questo modo gli indici, si può sperimentare sul campo il comportamento della nostraapplicazione: se le prestazioni risultano insoddisfacenti, si possono aggiungere altri indici,procedendo però con grande attenzione, in quanto l’aggiunta di un indice comporta un aggravio delcarico per far fronte alle operazioni di modifica. Talvolta, inoltre, il comportamento del sistema èimprevedibile, e l’aggiunta di indici non altera la strategia di ottimizzazione delle interrogazioniprincipali, risultando del tutto inefficace. É buona norma, dopo l’aggiunta di un indice, verificareche le interrogazioni ne facciano effettivamente uso. Per questo motivo, l’attività di scelta degli

Metodologia di progettazione database relazionali

37I&T Informatica e Telecomunicazioni SpA

indici nell’ambito del progetto fisico delle basi di dati relazionali è svolta spesso in modo empirico,con un approccio per tentativi; più in generale, l’attività di regolazione (tuning) del progetto fisicoconsente spesso di migliorare le prestazioni della base di dati.