NODC Centro Nazionale di Dati...

52
NODC Centro Nazionale di Dati Oceanografici Better science through better data management” E. Partescano, A. Brosich, M. Lipizer Caffè Scientifico 25 febbraio 2014

Transcript of NODC Centro Nazionale di Dati...

NODC – Centro Nazionale di Dati Oceanografici

“Better science through better data management”

E. Partescano, A. Brosich, M. Lipizer

Caffè Scientifico – 25 febbraio 2014

Dati storici

• Accesso a dati e metadati

Dati Real-Time

Servizi

• OLAP

• Geoserver

• Standard OGC

Quality Control

Data Policy

DOI

NODC si occupa:

della raccolta, archiviazione, catalogazione di dati e metadati oceanografici e della loro standardizzazione;

dello sviluppo ed implementazione di procedure di QA/QC;

della gestione della banca dati oceanografici nazionale;

dello sviluppo e del mantenimento del portale per l’accesso e la visualizzazione di dati, metadati e prodotti;

Finalità

Complessità delle informazioni

Molteplicità di dati oceanografici

Dati trattati sono

di diverse discipline,

su diverse matrici,

acquisiti con strumenti e metodologie diverse,

a diversa risoluzione spaziale e temporale.

Procedure specifiche sono sviluppate per gestire e distribuire i dati in delayed-mode e in real-time.

Meta-dati e dati archiviati su database relazionali o file

Dati storici (Oracle) 210 milioni di misure (in un'unica tabella) 150 tabelle (principalmente meta-dati) Dal 1889 al 2012 Principalmente Mediterraneo e Mar Nero Principalmente dati fisico-chimici

Dati Real-Time (PostgreSQL) Boa MAMBO Miramare Rete protezione civile FVG

Dati Biologici (MySQL) Dati storici (ex-LBM/BIO) 1986-2007

Batimetrie Archiviate in file 1965-1972

Il contenuto della banca dati storica

368.720 profili di T, S, parametri bio-chimici (1889-2012)

Il contenuto della banca dati storica

Volume dati archiviati presso OGS-NODC:

Flusso

CSR

EDMED

http://seadatanet.maris2.nl/v_bodc_vocab_v2

Standardization / Interoperability

Accesso ai metadati

http://nodc.ogs.trieste.it

Accesso ai metadati

Metadata access: Cruise

http://nodc.ogs.trieste.it/cocoon/data/csr-search

Accesso ai dati

storici

http://nodc.ogs.trieste.it/nodc/homepage

Accesso ai dati storici

Accesso ai dati storici

Accesso ai dati storici

Accesso ai dati storici

Contesto nazionale e internazionale

NODC è di supporto a progetti di oceanografia operativa (es. PALME, MyOcean), reti osservative (es. EuroSites, Jerico, FixO3),…

Il sistema informativo OGS/NODC è integrato nella rete di database distribuiti a livello pan-Europeo (SeaDataNet, EMODnet,…).

Contesto nazionale e internazionale

http://seadatanet.maris2.nl/v_cdi_v3/search.asp

Il sistema informativo OGS/NODC è integrato nella rete di database distribuiti a livello pan-Europeo (SeaDataNet, EMODnet,…).

I dati Near Real Time

Near Real Time

Base di dati nata in collaborazione con il gruppo TECDEV in risposta alle esigenze della Protezione civile del FVG per la gestione della sua rete di rilevamento mareografico composta da:

3 ondametri

3 boe meteo-oceanografiche (MAMBO)

2 correntometri fluviali

Dal 2013 vengono inseriti i dati della MAMBO1 (Miramare)

Nel 2014 si aggiungeranno la piattaforma E2M3A, altre 2 boe meteo della Protezione Civile e le centraline meteo CAE delle boe MAMBO

Base di dati Circa 60 tabelle

Accesso ai dati in real-time

Attualmente è consentito

Alla protezione civile

Ai gruppi TECDEV ed NODC

Tramite

Web service RESTful

Maschera di ricerca

Periodicamente i dati vengono trasferiti nella banca dati storici e sono accessibili a tutti gli utenti secondo la policy concordata

JERICO

I dati Real Time vengono inviati quotidianamente al repository del progetto JERICO

I file sono nel formato netCDF OceanSites e vengono generati mediante un web service RESTful

http://nodc.ogs.trieste.it/rtws/search/site/MAMBO1/dataty

pe/TS/period/DAY?startDate=20130101&endDate=20130

102

Si è reso necessario aggiungere circa 30 tabelle alla base dati per i vocabolari OceanSites (diversi da quelli SeaDataNet) e le relative mappature

Servizi di analisi e mappatura

Analizzare le basi di dati A fronte di un elevato costo di realizzazione e gestione,

strutturare le informazioni in un database relazionale consente di interrogare e riaggregare i dati secondo molteplici punti di vista

Query SQL

OLAP

OLAP On-Line Analytical Processing

Software per l'analisi interattiva e veloce di grandi quantità di dati (interposto tra utente e database relazionale)

Consentono di “navigare” tra i dati seguendo delle direzioni (“dimensioni”) predefinite

http://nodc.ogs.trieste.it/mondrian/testpage.jsp

Standard OGC Moltissimi servizi si basano sugli standard OGC

(http://www.opengeospatial.org/) per la gestione e condivisione dei dati geospaziali

Consentono ad esempio di reperire facilmente via http “oggetti” geografici (eventualmente dinamici)

WMS (maps)

WFS (features)

WCS (coverages)

Oppure metadati e dati di sensori

Sensor Web Enablement (SWE)

SOS (Sensor Observations Service)

SensorML

O&M (Observations and Measurements)

...

Sensor Web Enablement (SWE)

The OGC's Sensor Web Enablement (SWE) standards enable developers to make all types of sensors, transducers and sensor data repositories discoverable, accessible and useable via the Web

Ridondanza e backup

Il gruppo NODC è dotato di 3 server (database, web, file server) dotati di hardware ridondato (dischi, alimentazione)

Viene eseguito regolare backup su supporti esterni (nastri)

Sviluppi futuri

Integrazione e standardizzazione dei dati biologici

Unificazione del discovery dei dati

Replicazione (live) presso il CINECA

Ampliamento dei tipi di dati gestibili (ad esempio glider)

Libreria di backup per una capacità totale in linea di 40 TByte

1. Quality control

2. Data policy

3. DOI

1. Quality control

Enorme eterogeneità di dati! Dati trattati sono

di diverse discipline,

su diverse matrici,

acquisiti con strumenti e metodologie diverse,

a diversa risoluzione spaziale e temporale.

Delayed mode

Near-real time

Dati in ingresso sono (dovrebbero essere!) validati dai singoli data originators 1

Es. “SCIENTIFIC/VISUAL” QUALITY CONTROL CHECKS:

Data visualization

Property-property plot (e.g. TS, N:P, nutrients-salinity, Oxygen-temperature...)

Compare with local climatology (if available!)

Comparison with min-max ranges for the regions (if known!)

Tools used: ODV visual inspection (broad range check)

Based on expert knowledge!

AUTOMATIC QUALITY CONTROL CHECKS:

On Metadata:

Date and time (valid format)

Latitude and longitude (valid format)

Position must not be on land!

On Data:

Global range (expected extremes encountered in the oceans)

Pressure increasing (Pressures from the profile monotonically increasing)

Regional range (expected extremes encountered in particular regions)

Spike (…large differences between adjacent values)

NODC esegue controlli di qualità secondo standards europei definiti in

ambito SeaDataNet 2

RANGE/SPIKE:

TEMP SEA TEMPERATURE PSAL PRACTICAL SALINITY FLUO FLUORESCENCE SLCA SILICATE (SIO4-SI) CONTENT TPHS TOTAL PHOSPHORUS (P) CONTENT NTRZ TOTAL NITR. (NO2+NO3) CONTENT ATMS ATMOSPHERIC PRESSURE AT SEA LEVEL TUR2 TURBIDITY-attenuation coeff NTOT TOTAL NITROGEN (N) CONTENT PHOS PHOSPHATE (PO4-P) CONTENT AIRT AIR TEMPERATURE CPHL CHLOROPHYLL-A CONTENT ……. ……….

TEMP SEA TEMPERATURE PSAL PRACTICAL SALINITY SLCA SILICATE (SIO4-SI) CONTENT PHOS PHOSPHATE (PO4-P) CONTENT NTRA NITRATE (NO3-N) CONTENT DOX1 DISSOLVED OXYGEN

CLIMATOLOGIES:

Quality flag assignement:

Code Entry term Term definition

0 no QC

No quality control procedures have been applied to the data value. This is the initial status for all data values entering the working archive

1 good value

Good quality data value that has been verified as consistent with real phenomena during the quality control process.

2 probably good value

Data value is probably consistent with real phenomena but it deviates from climatology.

3 probably bad value

Data value recognised as unusual during quality control, forms part of a feature that is probably inconsistent with real phenomena

4 bad value An obviously erroneous data value.

3

Exceeds broad range

spike

Exceeds regional range

Biological data

Vi è la necessità di definire un set minimo di QC tests

I dati biologici presentano un elevato livello di complessità che richiede una

dettagliata descrizione, ovvero di una ricca disponibilità di metadati (come sono

stati acquisiti i campioni, come sono stati analizzati, secondo quale protocollo,…).

Il processo di QC include, ad es., il riconoscimento di:

Il QC minimo richiesto riguarda: Tassonomia e Nomenclatura attraverso il WorMS data base

Outliers (geografici, statistici, temporali ed ambientali)

Riferimenti utili: O’Brien, T.D. 2005. COPEPOD: A Global Plankton Database. U.S. Dep. Commerce, NOAA Tech. Memo. NMFS-F/SPO-73, 136 p.

Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.

Chapman, A. D. 2005. Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data, version 1.0. Report for the

Global Biodiversity Information Facility, Copenhagen.

Errori spaziali

Identificazione inaccurata o “misidentifications (errori tassonomici)” e

“misspellings (errore di nomenclatura)

Delayed mode

Near-real time

E2M3A MAMBO

2. Data policy

A Data policy aims to strike a balance between the rights of originators and

the need for widespread access through the free and unrestricted sharing

and exchange of data, meta-data and data products.

Data originators Users:

Scientific

community,

public

organizations,

environmental

agencies

OGS-NODC follows SeaDataNet Data policy which is consistent with, and in the

spirit of, national and international policies and laws related to UN conventions

and EU Directives (INSPIRE, IOC, ICES,…).

The data provider defines the data policy, when not already explicit in the

project description.

The policy is part of the metadata and «follows» the data

• meta-data are freely accessible without any condition. • Access to data and products requires:

a. registration b. acceptance of additional conditions that may be requested by

the different nodes of the distributed database. The access rights are granted according to the “role” of the user.

c. acceptance of an user licence

From SeaDataNet Data Policy:

3. Digital Object Identification (DOI)

The EU now requires more and more open access to all

publications and data deriving from research funded by the EU,

including that funded by national funding bodies.

...all users of research data should acknowledge the

sources of their data

BUT…

SO…

Data Citation

The goal is to track data provenance and clearly attribute credit to

data creators/providers so that researchers will make their data

accessible. The assignment of persistent identifiers, specifically

Digital Object Identifiers (DOIs), enables accurate data citation.

Why cite data?

• Recognises and rewards data producers

• Impact and reach of data can be tracked

• Increases academic and institution profile

• Connects all research outputs

• Easy reuse

– New analyses to the big questions of our time

– Stimulates new data products

– Cross discipline collaborations

Conclusions:

Importance of QC procedures (possibly standardized)

Data of known quality are more

useful than data of unknown quality

Importance of proper acknowledgment of data originators together with enhanced data access and re-use

Better science and environmental status assessment

& management through better data management!

Usefulness of data publication & citation (DOI)

Importance of accurate “description” of data

Importance of data management (from collection to final use!)

Come possiamo migliorare la gestione

secondo gli utenti (data providers & users)?