AIDAinformazioni - Aracne editrice · Roberto Guarasci Università della Calabria Direttore...

20
AIDAinformazioni R S ’I Fondata nel da Paolo B N. — Anno — luglio–dicembre Proprietario della rivista U C Direttore Scientifico Roberto G Università della Calabria Direttore Responsabile Fabrizia Flavia S Comitato scientifico Roberto Guarasci, U C Anna Rovella, U C Maria Guercio, S U R Giovanni Adamo, C N R Claudio Gnoli, U S P Ferruccio Diozzi, A I D A Gino Roncaglia, U T Laurence Favier, U C--G L Madjid Ihadjadene, U V-S-D P Comitato di redazione Antonietta Folino U C Erika Pasceri C N R Maria Taverniti C N R Segreteria di Redazione Valeria Rovella U C A

Transcript of AIDAinformazioni - Aracne editrice · Roberto Guarasci Università della Calabria Direttore...

AIDAinformazioniR S ’I

Fondata nel da Paolo B

N. – — Anno — luglio–dicembre

Proprietario della rivistaU C

Direttore ScientificoRoberto GUniversità della Calabria

Direttore ResponsabileFabrizia Flavia S

Comitato scientifico

Roberto Guarasci, U CAnna Rovella, U C

Maria Guercio, S U RGiovanni Adamo, C N R

Claudio Gnoli, U S PFerruccio Diozzi, A I D A

Gino Roncaglia, U TLaurence Favier, U C--G L

Madjid Ihadjadene, U V-S-D P

Comitato di redazione

Antonietta Folino U CErika Pasceri C N R

Maria Taverniti C N R

Segreteria di Redazione

Valeria Rovella U C

A

AIDAinformazioniRIVISTA SEMESTRALE

« AIDAinformazioni » è una rivista scientifica che pubblica articoli inerenti le Scienze dell’Informa-zione, la Documentazione, la Gestione Documentale e l’Organizzazione della Conoscenza. È statafondata nel quale rivista ufficiale dell’Associazione Italiana di Documentazione Avanzata e nelfebbraio è stata acquisita dal Laboratorio di Documentazione dell’Università della Calabria.La rivista si propone di promuovere studi interdisciplinari oltre che la cooperazione e il dialogo traprofili professionali aventi competenze diverse, ma interdipendenti. I contributi possono riguardaretopics quali Documentazione, Scienze dell’informazione e della comunicazione, Scienze del testoe del documento, Organizzazione e Gestione della conoscenza, Terminologia, Statistica testualee Linguistica computazionale e possono illustrare studi sperimentali in domini specialistici, casi distudio, aspetti e risultati metodologici conseguiti in attività di ricerca applicata, presentazioni dellostato dell’arte, ecc.

« AIDAinformazioni » è censita dall’ per le Aree – Scienze dell’antichità, filologico-letterariee storico-artistiche; – Scienze storiche, filosofiche, pedagogiche e psicologiche; – Scienze giu-ridiche; – Scienze politiche e sociali, così come dall’ (Agence d’évaluation de la rechercheet de l’enseignement supérieur) che la censisce tra le riviste scientifiche dell’ambito delle Scienzedell’informazione e della comunicazione. La rivista è, inoltre, indicizzata in: (Italian unioncatalogue of serials); (Bielefeld Academic Search Engine); (Elektronische Zeitschriftenbi-bliothek – Universitätsbibliothek Regensburg); (Italian Library Association); Italian ProfessionalLiterature; NewJour (Electronic Journals & Newsletters – University of Georgetown); (ItalianUnion Catalogue); SummonTM by Serials Solutions; Ulrich’s; Worldcat; (Karlsruhe VirtualCatalog); EPrints; (British Union Catalog); UniCiber (Comitato interuniversitario Base dati ededitoria in rete); (Union Catalogue of Swedish Libraries).

I contributi sono valutati seguendo il sistema del double blind peer review: gli articoli ricevuti dalcomitato scientifico sono inviati in forma anonima a due referee, selezionati sulla base della lorocomprovata esperienza nei topics specifici del contributo in valutazione.

Condizioni di acquistoAbbonamento annuale . . . . . . . euro ,Fascicolo . . . . . . . . . . . . . . . . . . . euro ,

Per ordinitelefono: –fax: e–mail: [email protected]: http://www.aidaweb.it/Skype: labdoc_unical

Modalità di pagamentoBonifico bancario intestato a:Università della Calabria, Dipartimento diLingue e Scienze dell’EducazioneIBAN: IT S presso Banca Unicredit – filiale di Arcavacatadi RendeCausale: Abbonamento « AIDAinformazioni »

EditoreAracne editrice S.r.l.via Raffaele Garofalo, /A-B Roma() [email protected]

Copyright © Aracne editrice

ISBN ----ISSN -

Indice

EditorialeRoberto Guarasci

EditorialeFabrizia Flavia Sernia

Contributi

An Innovative Content Repository to Explore Aerospace Docu-ments based on Document Warehousing TechnologyAssuntina Cembalo, Michele FerrucciFrancesca Maria Pisano, Rosa Sannino, Mafalda Viola

Construction et partage des savoirs de l’information–documentation.Le cas de professeurs–documentalistes en FranceCécile Gardies

Economia solidale. Riscoprire l’economia e la solidarietàCarmela Guarascio

Le banche dati di ambito religiosoManuela La Rosa

Concordanze geografiche miste. Lettura geografica del Piacerecon ....., Google Earth, Google Maps, Google DocsSilvana Possidente

Teaching Terminology Work with Databases. A Case StudyRossella Pugliese

Indice

Note e rubriche

Come mi vuoi, generale o speciale? Organizzazione della cono-scenzaClaudio Gnoli

Terminologia e comunicazione al cittadinoMaria Teresa Zanola

« AIDAinformazioni »: una sede di dibattito scientifico e di con-fronto. Lettera alle società operanti nel settore dell’informazionee della documentazioneFerruccio Diozzi

Associazione Italiana Documentalisti Brevettuali ()Alessandro Piras

Gruppo Italiano Documentalisti dell’Industria Farmaceutica edegli Istituti di Ricerca Biomedica (–)Silvia Molinari

Il knowledge managementPaola Capitani

Un PACALabs pour la société NodalysSophie Arvanitakis

AIDA informazioniISBN 978-88-548-7967-6DOI 10.4399/97888548796761pag. 5–7 (dicembre 2014)

Editoriale

R G∗

Nel febbraio di quest’anno l’Università della Calabria ha rilevato la proprie-tà di « AIDAinformazioni » dall’Associazione Italiana di DocumentazioneAvanzata della quale era, comunque, socia da diverso tempo. Ciò nel ten-tativo di impedire che l’unica rivista italiana di Documentazione, dopooltre trent’anni di attività, sparisse definitivamente dalla scena editoriale escientifica a causa delle difficoltà economiche che affliggono quasi tutte leassociazioni culturali.

Fondata da Paolo Bisogno nel , quale bollettino ed organo ufficialedell’Associazione, ha seguito le alterne vicende della Documentazioneitaliana: dall’iniziale slancio, in concomitanza con l’esplosione delle scienzedell’informazione, con le quali cerca di stringere una alleanza non mairiuscita, alla marginalizzazione progressiva all’interno delle stesse scienzedel testo e del documento. Paradossalmente la rivista gode — ancora oggi— di molto più credito scientifico in ambito internazionale di quanto nonne goda nel contesto italiano. Il lettore si chiederà probabilmente, a questopunto, perché in questo contesto non ci si è semplicemente limitati adaccompagnarla all’oblio dandole la dolce morte di ciò che è stato e non è più,affidandola alle “bianche case dei morti” di Crociana memoria. Tra l’altroanche il nome — che ovviamente si è deciso di mantenere — non è piùevocativo delle stesse suggestioni del passato. Non ha niente di digitale, noncompare nemmeno un termine inglese, non è “cool”. . .

Qualche maldicente potrebbe affermare che, visto che ricopro da tempouna delle pochissime cattedre di Documentazione in una università italiana,potrebbe trattarsi di un fatto puramente personale legato ad una qualchealterazione affettiva precocemente senile nella quale il ripiegamento suuna presunta e passata età dell’oro diventa una sorta di baluardo, un fortinoanti–tartari, che, come si sa, però non arrivano mai.

Eppure nel Google tributa a Paul Otlet, indiscusso padre della Do-cumentazione, gli onori di creatore di un “Internet de papier”, precursoredel web e teorico dell’informazione liberamente accessibile, nel ilResearch Center di Almaden nella Silicon Valley aveva già creato gli

∗ Dipartimento di Lingue e Scienze dell’Educazione, Università della Calabria, Rende (CS)[email protected].

Roberto Guarasci

“ingegneri umanisti” e da più anni l’ingegneria documentale è diventatala storia di successo di alcune start–up italiane e uno dei settori consoli-dati di consulenza a livello internazionale a fianco della più tradizionaleingegneria di processo e di prodotto. E non è il classico approccio italianodell’informatica per delle tecnologie ancillari ai saperi di dominio con unuso puramente strumentale delle scienze dell’informazione degradate amere tecniche e nemmeno, per contrario, una pretesa omnicomprensivadi queste che pretendono, a volte, di costruire un universo indistinto edequiprobabilistico nel quale “tutte le vacche sono nere”. È invece il tentativodi un approccio multidisciplinare nel quale l’apporto dei diversi ambiti dellaconoscenza produce un nuovo sapere sinergico basato sull’interrelazionecognitiva.

A un degré moins ultime serait créée un instrument agissant à distance qui com-binerait à la fois la radio, les rayons Röntgen, le cinéma et la photographie mi-croscopique. Toutes les choses de l’univers, et toutes celles de l’homme seraientenregistrées à distance à mesure qu’elles se produiraient. Ainsi serait établie l’imagemouvante du monde, sa mémoire, son véritable double. Chacun à distance pourraitlire le passage lequel agrandi, et limité au sujet désiré, viendrait se projeter surl’écran individuel. Ainsi, chacun dans son fauteuil pourrait contempler la création,en son entier ou en certaines de ses parties.

Assente in gran parte il mondo accademico di molte nazioni europee,Italia in testa, il mondo produttivo ha cominciato a realizzare quella interre-lazione dei saperi che sembrava essere destinata a restare il sogno visionariodi Otlet. I Documentalisti italiani si sono ritagliati nicchie ultra specializ-zate, ovvero hanno assunto denominazioni diverse e più accattivanti. Mail core business della professione, non solo non è sparito, ma è in ampiacrescita specie in quei settori ad alto contenuto tecnologico nei quali, nellaprima metà del secolo scorso, l’Italia faceva registrare una presenza estre-mamente consistente che la configurava come una delle nazioni guida nelpanorama europeo della gestione dell’informazione documentale. Soprav-vissuto nel mondo pubblico solo come documentalista o, secondo la dizioneconcorsuale, “documentarist” parlamentare, vive in maniera “spuria” neiKnowledge worker, di Peter Drucker, nell’Informationist di Davidoff e neitanti ricercatori internet free lance che gestiscono ed elaborano informazio-

. <http://artigianodibabele.blogspot.it///ingegneria-documentale-intervista-ad.html>.. <http://www.akka-italia.it/--akka-in-breve.php>.. P. O, Monde: essai d’universalisme: connaissance du monde, sentiment du monde, action

organisée et plan du monde, Editiones Mundaneum, Brussels , p. .. P. D, Landmarks of tomorrow: A Report on the New “Post–Modern” World, Harper &

Brothers, New York .. F. D, The Informationist: A New Health Profession?, « Annals of Internal Medicine », vol.

, n. , , pp. –.

Roberto Guarasci

ni documentali e testuali e, nel , è stato, nella sua corretta dizione di“Documentalista”, finalmente reintrodotto dall’Istat nella Classificazionedelle Professioni. Questa diversificazione degli accessi alla professione èanche la conseguenza dell’assenza di specifici percorsi formativi eppure« proprio Drucker insiste con forza che uno dei requisiti per poter clas-sificare una persona come knowledge worker è il suo essere dotato di undeterminato curriculum di studi: è la formal education che distingue questafigura professionale ».

In questo curriculum degli studi, condizione necessaria e sufficienteperché si configuri la professione, i paesi anglosassoni stanno riscoprendoil valore della cultura umanistica nella formazione di base come principa-le garanzia della necessaria flessibilità che caratterizza questa tipologia di“lavoratori della conoscenza”. La diversificazione della professione, pur nelperdurare di alcuni elementi cognitivi e culturali comuni e la necessità di unpercorso formativo definito e multidisciplinare, sono gli elementi centralidi riflessione nel variegato mondo dell’informazione documentale unita-mente alla necessità di un luogo di ascolto e di discussione nel quale questeproblematiche possano trovare voce e corpo. Tali elementi rappresenta-no la spinta motivazionale a far continuare a vivere « AIDAinformazioni »che, auspicabilmente, dovrebbe provare a raggiungere non solo il mondoaccademico ma, con buona pace dell’ e delle valutazioni, anche ilmondo delle professioni e dei liberi professionisti nel tentativo di rifletteresulla possibilità e necessità di una casa comune ovvero, almeno, di un . . .condominio multipiano.

. S. B, I Lavoratori della conoscenza e la fabbrica che dovrebbe produr-li, in « L’Ospite Ingrato », a. , n. , , p. , <http://www.actainrete.it/wp-content/uploads///Lavoratori_conoscenza-Bologna-.pdf>.

AIDA informazioniISBN 978-88-548-7967-6DOI 10.4399/97888548796762pag. 9–9 (dicembre 2014)

Editoriale

F F S∗

Dove eravamo rimasti? — chiese un volto noto della quando, dopo un’in-terruzione di lunghi mesi, riprese le puntate di un programma di grandesuccesso. Anche « AIDAinformazioni » riprende le pubblicazioni, dopo unperiodo di “fermata” cui ha fatto seguito l’approdo salvifico al Laboratorio diDocumentazione dell’Università della Calabria, che ha deciso così di rilanciarela prestigiosa testata. Nella ricerca scientifica anche un intervallo di tempo puòrappresentare un’infinità: un tempo dilatato, soprattutto nell’ambito di disci-pline come le scienze della documentazione e la linguistica computazionale,dove le contaminazioni trasversali e orizzontali con i più svariati ambiti dellaconoscenza procedono a ritmi incessanti, con interpolazioni continue fra inuovi risultati del sapere. Grazie alla ripresa della pubblicazioni il “discorsoiniziato” ripartirà. E riprende da qui. Con forza. Intensità. Determinazione.

« AIDAinformazioni » è una testata scientifica che, nel solco della tradizionepassata, vuol essere crocevia di discussione e di diffusione di nuove conoscenze,palcoscenico di confronto, osservatorio privilegiato di nuove tendenze e risultati.Ed anche catalizzatore di idee, acceleratore di innovazione e di visione.

Può riuscire in un obiettivo tanto ambizioso una testata che è valutata sullabase dei parametri scientifici? Noi crediamo di sì, e i contributi scientifici diquesto primo numero lo testimoniano. Se la stessa polare che ha ispirato laripresa delle pubblicazioni è l’impatto che le scienze della documentazionedeterminano in un ambito vastissimo di settori, sia della produzione delleconoscenze, sia nella produzione economica ed anche solidale, i lavori pubbli-cati in questo numero offriranno molteplici opportunità di verifica di questoimpegno. Un impegno, che la redazione tutta ha deciso di condividere, sot-to la guida del Direttore scientifico, Roberto Guarasci, a cui va il merito diaver voluto condurre in porto questa sfida, chiedendomi di affiancarlo comegiornalista scientifica nella direzione della testata.

A lui, alla redazione tutta, al Comitato Scientifico, gli auguri migliori dibuon lavoro. Ai lettori, l’invito a scriverci e a segnalare ogni elemento che possaessere di stimolo per migliorare e per essere sempre più una testata scientificaaperta anche agli occhi desiderosi di sapere di chi scienziato non è. Perché,come scrisse Galileo Galilei, « La luce della scienza cerco e’l beneficio ».

∗ Giornalista, [email protected].

CONTRIBUTI

AIDA informazioniISBN 978-88-548-7967-6DOI 10.4399/97888548796763pag. 13–30 (dicembre 2014)

An Innovative Content Repository to ExploreAerospace Documents based on Document

Warehousing Technology

A C, M FF M P, R S, M V∗

A: Italian research centres, and mainly s, have to face with the difficulty tomanage their Institutional Repository (), so the (Aerospace Information System)project focused on creating an innovative content repository where real–time particularlyinteresting information pertaining to the evolution of technology and to applied researchfor the aerospace community, can be found. The project main aim is to help the ae-rospace community (made by engineers, scientists, managers, stakeholders, authorities,and so on) to capitalize their outcomes and facilitate collaboration through the sharing ofinformation content, not always easily found. The idea developed in this paper concernsthe enhancement of a content repository using Document Warehousing as a support toolin the exploration of documents (e–books, e–journals, etc.) from heterogeneous sources,all related to aeronautics and aerospace domains, by performing queries. The chal-lenges of cleaning and integrating document information content in order to offer easynavigation are investigated and discussed, focusing on the issues of removing ambiguitiesfrom documents. Complex information objects and heterogeneous resources are handledthrough the innovative content repository, created for the aerospace community andusers, so that they can take advantage of interconnected information, interacting with amultiplicity of other users and, consequently, feeling part of a community.

Keywords: Document Warehousing, On–Line Analytical Processing, Extraction–Transforma-tion–Loading, Data Integration, Aeronautics and Aerospace domains.

. Introduction

How hard it is to find useful information disseminated in documents, digitallibraries, digital folders, websites, blogs, etc., is a common daily experience,whatever the topic of interest is. The challenge is even harder when scienti-fic and technological concerns are involved, because information sharing

∗ Assuntina C, Michele F, Francesca Maria P, Rosa S – ....,Italian Aerospace Research Center, via Maiorise snc, , Capua (CE), Italy.a.cembalo, m.ferrucci, f.pisano, r.sannino @cira.it.Mafalda V – Consultant at ...., Italian Aerospace Research Center, via Maiorise snc, ,Capua (CE), Italy.

A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola

among communities and typical rapid evolvement make the availability ofrecent information a key–enabler for successful research and technologicalactivities. In particular, the aerospace domain is strongly characterized byresearch and technology developments that need to be constantly updatedto the edge of the state–of–the–art.

The (Aerospace Information System) web portal has been createdwith the main purpose to define and satisfy these user needs throughscientific and technological information sharing and dissemination.

This paper focuses on the system component related to DocumentWarehousing, integrated in the web portal, which enriches the con-tent repository by offering a user–friendly approach to document navigationand exploration, over huge amount of information sources, passing over thedocument physical location (digital libraries, digital folders, websites, blogs,etc.).

Data Warehousing is one of the best known and widely used approa-ches to decision support system: it allows the user, usually not a computerexpert, to perform easily multidimensional queries, to get summary infor-mation about huge amounts of heterogeneous data, coming from differentsources, in different locations. With the increasing awareness that mostof information is contained in unstructured or semi–structured formats,we witnessed the born of Document Warehousing systems: they enableto navigate voluminous corpora in an integrated manner and to go backto the source document starting from aggregated information. Documentnavigation and exploration is based on the metadata of the documents, theircontent or their categories.

In this paper we describe a content repository using Document Warehou-sing as a support tool in the exploration of documents from heterogeneoussources, all related to aeronautics and aerospace domains, by performing queries involving pre–defined metadata dimensions such as author,title, publication date, publisher, language, subject, keyword, etc. This work wascarried on within the research project , funded by the Campania Regionand within the framework of Campania – , with theaim of facilitating the sharing of aerospace knowledge in the CampaniaRegion.

In this paper we describe the development process of a DocumentWarehousing system devoted to the aerospace domain. The portal offerseasy navigation thanks to the cleaning and the integration of any document

. E. T, J.E. A, T.P. L, R. S, Decision Support and Business IntelligenceSystems, Pearson International Edition .

. F.S.C. T, A.Y.H. C, The concept of Document Warehousing for multidimensional modelingof textual–based Business Intelligence, in « Decision Support System », vol. , n. , , pp. –.

. –Aerospace Information System, <http://sia.cira.it/>.

An Innovative Content Repository

information content and the removing of ambiguities, i.e. different waysof writing authors’ names and surnames. The Document Warehousingsystem for the content repository was implemented through the use ofopen–source technologies and was designed to be integrated within the web portal.

. SIA project

The project is an innovative system for accessing the largest number ofinformation sources in the aerospace field.

.. The main project purposes

The main project aim was to implement a system for access, retrievaland enhancement of technical, scientific, financial information, for usersbelonging to the aerospace community and neighbouring areas.

The main purpose of the system was to ensure the most effective accessto different information contents (scientific and technological data, technicaldata, simulation models, etc.) in order to increase the audience of real usersto as many as possible.

.. Description of the project

Thanks to the adoption of some innovative technological solutions for theinformation management systems, such as semantic web, in this projectthere was coexistence within the same network of library systems and othersystems for accessing different information.

Further, the system ensured complete interoperability with other im-portant networks currently operating and it was based on the creation of aflexible and modular system.

The access was ensured to institutional repositories, technical and scien-tific databases, simulation models and collections of innovative materials,electronic bibliographic resources, aerospace–oriented information services,original documents.

The main functionalities of the project can be here summarized asfollows:

. F. D, P. D G, G. P, et. al., Usability Issues for an Aerospace Digital Library,in “AVI , Proceedings of the International Working Conference on Advanced Visual Interfaces,Capri (Naples) Italy”, a cura di G. Tortora, S. Levialdi, M. Tucci, Università degli Studi di Salerno,maggio .

A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola

— management (that is discovery, locating and linking) of differentaccessible information content such as printed, digital or digitalizedinformation available through different resources;

— development of other activities related to information management,such as e–learning, education activities, and so on.

.. Project results

Nowadays, content repository services are accessible at the url <http://sia.cira.it/> as a web portal integrating functionalities supported by thefollowing components:

— Semantic Search Subsystem: this component, described in detail in,guarantees features in terms of automatic retrieval of predefinedinformation sources, content filtering, parsing, word disambiguation,data extraction and correlation, data classification, indexing and datastorage;

— Document Warehousing Subsystem: assures loading and storage of struc-tured information related to metadata in a Document Warehouse forfurther user search tasks based on features.

In order to make data accessible, the web portal makes informationavailable through Linked Open Data () paradigm which allowsstructuring and publishing data not only in human–readable but also inmachine–readable way.

.. Document Warehousing system features and use cases

Document Warehousing represents an innovative approach to documentcontent navigation over huge textual corpora, also distributed among fol-ders, websites and repositories, available in different electronic formats.When we are looking for particular information, we need summary anddescriptive information about available documents. So, many papers canbe grouped by topic, and/or author, and/or editor, and/or type, and/orpublication year/month/day, enabling each user to follow his own way ofexamining documents.

. SIA–Aerospace Information System, <http://sia.cira.it/>.. F. G, G. Z, G. R, et. al., Aerospace Information System Based on Seman-

tic Technologies and Ontology Management, in “rd International Conference on Data ManagementTechnologies and Applications (), Vienna, Austria, – September ”.

. Linked Data, <http://www.w.org/standards/semanticweb/data>.

An Innovative Content Repository

In order to offer such a way of navigation through huge amount ofdocuments, we identified system features needed, briefly listed hereafter:

FEAT Access and consultation of specialized technical scientific databasesand electronic bibliographic resources;

FEAT Interoperability with other networks of excellence currently opera-ting;

FEAT Services for multidimensional navigation () of the documentresources by means of default dimension analysis (authors, subject,etc.);

FEAT Management of user profile for customized and adaptive access toinformation and services;

FEAT Adoption of all necessary measures to ensure accessibility and usa-bility of the system, even from mobile devices, through the mostcommon browsers.

Based on the previous system features, some system use cases were ela-borated; the main one “Carrying out multidimensional query” is reportedbelow (Tab. ).

.. Document Dataset

In order to realize the Document Warehousing component, we startedwith an input dataset based on documents from various sources, all relatedto aeronautics and aerospace domains. In particular, the input dataset wasmade of e–books and e–journals from commercial suppliers and belongingto collections relating to aeronautics and aerospace domains, as follows:

— files related to e–books and e–journals, for each of which wehad an file containing tags that made possible the categorizationand the search for information based on keywords;

— files related to e–books and e–journals in format. We createdsome Excel files containing the metadata of these documents.

.. Document Warehousing system architecture

The Document Warehousing system was designed with the aim of provi-ding users with an easy–to–use tool to search for documents within a largedocumentary corpus, by means of the performing of multidimensionalqueries using pre–defined dimensions. Through a user–friendly interfacebased on technology, users can easily browse documents and retrievethem through their path.

A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola

Table : Document Warehousing System “Carrying out multidimensional query” use cases.

Title Carrying out multidimensional queryingBrief Description Data stored in the Document Warehouse can be searched by multidi-

mensional querying system through the analysis of dimensions andmeasures of interest among all the dimensions and measures availa-ble in the metadata hypercube (i.e. measures: number of documents,dimensions: author, date of publication, publisher, format, language).

Preconditions Data stored in the Document Warehouse. The connection to theserver for multidimensional queries is set up and functioning.

Postconditions The results of multidimensional queries are displayed.Flow of events . The user carries out a multidimensional query.

. The system displays the User Interface for document navigation.. The user selects dimensions of interest among those available(author, date of publication, publisher, format, language, etc.).. The user selects a measure of interest among those available(number of documents, etc.).. The user pushes the “Execute query” button.. The system carries out the query.. The system displays the resulted list of documents, includingmetadata and abstract for each document in the list.Extension Point: the user requires to download the document list inMicrosoft Excel format or Adobe Acrobat format.Extension Point: the user requires to open the source webpage of theselected document.. The use case ends.

Constraints None.Alternative courses None.Actors Registered users, Guest users.Extended by use cases Download query results. Open the source webpage of the document.

The architecture of the Document Warehousing system that we built,was defined according to the Data Warehousing methodology, suitablyadapted to the documental sources.

Starting from the analysis of data sources and user needs, we defined theDocument Warehousing system functional architecture, composed of thefollowing architectural layers (Fig. ).

— Data Sources Layer: it represents the set of input documents, introdu-ced in Section ., which includes e–books and e–journals comingfrom various commercial providers, all related to aeronautics andaerospace domains;

— Textual Layer: it represents the software layer where (Extract,Transform & Load) applications are performed. These applicationsextract information from the input data sources, perform cleaning

. M. G, S. R, Data Warehouse Design. Modern Principles and methodologies,McGrawHill, New York City .

An Innovative Content Repository

Figure : Document Warehousing system’s layered architecture

tasks, transform and integrate data to load it into the database repre-sented by the Document Warehouse. In this phase the processing ofdocuments, the extraction of their metadata and the classification arecarried out, too. This is the key point where raw input data becomesuseful data;

— Data Storage Layer: it is represented by the Document Warehouse(), i.e. the database, structured as a Data Warehouse, which lendsitself to being queried in multidimensional manner by the server, via interface. The design is characterized by thedefinition of the conceptual model and the corresponding logicalmodel, the creation of the fact schema and the associated star schema,and then, by the definition of the metadata hypercube;

— Data Logic Layer: it is characterized by the server that enablesthe interpretation and the execution of the query, built by theuser through the web application and the selection of dimensions ofinterest;

— User Layer: it consists of a web application that allows the user toquery the database according to the logic, through a pre–definedset of dimensions and measures.

.. Open–source tools

The Document Warehousing system was realized using only open–sourcetechnology based tools. In particular, to implement the layer, we chosethe –licensed GeoKettle ., which is a particular “geo–enabled” release ofthe generic tool Kettle (Pentaho Data Integration) and the –licensed

. GeoKettle, <http://www.spatialytics.org/projects/geokettle/>.. Kettle, <http://community.pentaho.com/projects/data-integration/>.

A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola

OpenRefine . (formerly GoogleRefine), which is a data wrangling tooloriginally supported and published by Google. We first used OpenRefine toperform an extensive cleaning of raw data and then we used GeoKettle toextract information from the data sources, transform it and load transformeddata, into the target , which was implemented through the use of theopen source database PostgreSQL .. To implement the Data Logic Layerwe chose Mondrian .. which is an open–source server able toperform multidimensional queries, written in MultiDimensional eXpressions() language, on the . Mondrian also provides a workbench by meansof which we built the file of the metadata hypercube. In order to displaythe results of multidimensional queries on table and statistical graphics,we used Java libraries JPivot ... At last, Tomcat was used as a webcontainer able to support and manage pages.

. The development process of the Document Warehousing system

The following paragraphs contain the description of the development pro-cess of the Document Warehousing component of the system. In parti-cular, we describe the textual source analysis, the design and the implemen-tation of the database, including the Document Warehouse loading and theweb application for queries.

.. Sources Analysis

Starting from the documents described in the section . we carried out anactivity of sources and domain analysis that included the deepening of do-main taxonomies for document categorization on the basis of their extractedkeywords. In particular, we referred to the Advisory Council for AeronauticsResearch in Europe () which developed a common European taxono-my for aeronautical research and technology. From a selection of nodesin the taxonomy and concepts typical of the aerospace domain, wedefined a taxonomy for documents categorization, which is hierarchicallystructured in the following way (Tab. ): Area/Domain/Subdomain/Keyword,

. OpenRefine, <http://openrefine.org/>.. PostgreSQL, <http://www.postgresql.org/>.. Mondrian, <http://community.pentaho.com/projects/mondrian/>.. Tutorial: Introduction to Multidimensional Expressions ().

<http://www.mdxtutorials.net/>.. JPivot, <http://jpivot.sourceforge.net/>.. Tomcat, <http://tomcat.apache.org/>.. , <http://www.lazio-aerospazio.it/documents///ACARE_Taxonomy.pdf>.