Open data in Trentino e Sistemi Informativi provinciali · Modelli per la raccolta dati ... DAF ha...
Transcript of Open data in Trentino e Sistemi Informativi provinciali · Modelli per la raccolta dati ... DAF ha...
71
Open data in Trentino e Sistemi Informativi
provinciali
Marco Combetto
Informatica Trentina spa
Materiale interno a scopo didattico
72
Testo slide
● Modello di riferimento
● Cosa si intende per “messa a sistema”
● Modelli per la raccolta dati
● Dati dinamici (sensori e IoT)
● La piattaforma catalogo come hub per gli sviluppatori
Programma
Materiale interno a scopo didattico
73
Testo slide
https://dati.trentino.it/faq
Modello
Materiale interno a scopo didattico
74
Testo slide
Modello di riferimento: DAF (cap.9 Piano Triennale)
Il Data & Analytics Framework (DAF) fa parte delle attività atte a valorizzare il patrimonio informativo pubblico nazionale. Il DAF ha l’obiettivo di sviluppare e semplificare l’interoperabilità dei dati pubblici tra PA, standardizzare e promuovere la diffusione degli open data, ottimizzare i processi di analisi dati e generazione di conoscenza. L’idea è quella di aprire il mondo della Pubblica amministrazione ai benefici offerti dalle moderne piattaforme per la gestione e l’analisi dei big data.
Raffaele Lillohttps://teamdigitale.governo.it/en/people/11-profile.htm
https://avanzamentodigitale.italia.it/it
Materiale interno a scopo didattico
75
Un insieme di tool per l’analisi e l’elaborazione dei dati presenti
nel DAF che sfruttano le capacità di gestione ed elaborazione
di big data, tra cui:
● Un tool per generare dashboard e report.
● Un “notebook” per effettuare analisi sui dati presenti nel
DAF a cui l’utente ha accesso (non solo OD).
L’accesso a un insieme di dati utili per l’elaborazione di analisi
e visualizzazioni (analytics) dei dati che a tendere saranno
presenti nel DAF
Cosa è il DAF
Materiale interno a scopo didattico
76
● Dati delle basi di dati d’interesse nazionale: basi di dati autoritative rispetto
alle “entità” che gestiscono (ad es. ANPR è autoritativa per l’”entità” residente).
Nel DAF è possibile trovare una copia sempre aggiornata dei dati in esse
contenute, fatte salve le eccezioni di norme e regolamenti, e in accordo con il
Garante per la Privacy.
● Dati delle PA: le PA sincronizzeranno (cfr. Piano triennale) una copia dei dati
utili a svolgere il proprio mandato istituzionale nonché i dati generati dai propri
sistemi informatici (es. log). Tali dati sono accessibili da parte di tutte le PA, ad
eccezione di quei dati sui cui vigono norme in materia di protezione dei dati
personali.
● Dati di interesse pubblico di terze parti: il DAF raccoglie e mette a
disposizione di tutte le PA dati di terze parti di potenziale interesse pubblico (es.
dati provenienti dai social networks, dati forniti da aziende, ecc.).
Basi di dati in DAF
Materiale interno a scopo didattico
77
Mettere a sistema la pubblicazione dei dati
Marco Combetto
Informatica Trentina spa
Materiale interno a scopo didattico
78
Testo slide
Mettere a sistema gli opendata
● Abbiamo visto cosa si intende per formato aperto, licenza aperta e come è possibile con semplici operazioni manuali creare i dati in questo formato, ma in realtà per garantire la maggiore qualità, occorre:○ Avvicinarsi alla sorgente dei dati (dove vengono prodotti)○ Rendere automatico il processo di pubblicazione○ Economicità di pubblicazione
● Per la produzione sistematica dei dati occorre tenere conto anche della realtà attuale (e a tendere) dei sistemi informativi a supporto del sistema pubblico Trentino, tra cui del sistema informativo Provinciale SINET○ 3 + 1 passi da considerare
Materiale interno a scopo didattico
79
Testo slide
3 azioni necessarie
● La fase di censimento e documentazione delle basi informative e dei servizi informativi dei vari enti che aderiscono al sistema, in gestione presso e non solo gli enti pubblici e le società di sistema ad essi collegate.
● Le fasi di analisi e progettazione dei sistemi informativi, ove sono definite le specifiche tecniche che permettono la realizzazione dei sistemi informativi in collaborazione con i fornitori reperiti sul mercato con le procedure di procurement piu adeguate.
● La georeferenziazione dei dati è un passaggio molto importante per valorizzare i dati, cioè l'attribuzione a un dato dell’informazione relativa alla sua localizzazione geografica (latitudine e longitudine): tale posizione è espressa in un particolare sistema geodetico di riferimento.
Materiale interno a scopo didattico
80
Testo slide
Georeferenziare i dati
● Non è solo per gli esperti di dati geografici ma lo possono fare tutti○ usando OpenStreetMap dal proprio PC○ usando lo smartphone (nel caso)○ usando un GeoCoder online e verificando i risultati○ Aggiungendo due colonne alla tabella in oggetto (nel caso di
elenchi/dataset gestiti a mano)
● Attenzione alla licenza con cui sono fornite le coordinate (caso GMaps)
● Farlo/segnalarlo durante in fase di definizione del sistema ICT o nel “form” utilizzato per la richiesta di dati
https://www.openstreetmap.org/#map=19/46.05961/11.11882
Materiale interno a scopo didattico
81
Testo slide
+ 1: capitolati tecnici
● Inoltre Indicazioni Operative per i dati di tipo aperto nei capitolati di gara (cap 11 LG AGID 2014)
○ includere nello schema di contratto una clausola per includere all’interno della fornitura le funzionalità ed il codice necessario per la pubblicazione dei dati in modo programmatico nel catalogo dati.trentino.it
■ CASO 1: produzione dati aperti indiretta (documentare e esplicitare le modalità di passaggio dei dati dall’aggiudicatario all’amministrazione, se non previsto gia)
■ CASO 2: produzione dati aperti diretta (prevederlo nel capitolato)
Materiale interno a scopo didattico
82
Testo slide
Censimento banche dati (webservices, applicativi, …)
CatalogoNavigabile Interrogabile
Oggi (per Agid)In excel, ed
incompleto (2016)
Chi sta già facendo censimenti? O
richieste ?
AGID - Paniere Opendata
TEAM DIGITALE: bdati int. naz.
AGID - Censimento ICT
Privacy e GDPR
Elenco Applicazioni ICT PAT
FOIA
TRASPARENZA
Non necessariamente per aprirli
Ma per avere un catalogo unico che
serva ai diversi scopi
per tenerli in ordine
essere pronti per i monitoraggi
Avere un catalogo delle basi di dati riusabile per il sistema pubblico, non solo
le basi di dati presenti in SINET, ma anche database piu locali (se possibile)
82
DCAT-AP
ATTIVITA:
● Partenza dall’attuale file excel creato per AGID (2016)
e dal file Web Service di IT
● Metadatazione DCAT-AP e messa a disposizione su
catalogo CKAN (intraPAT e pubblico)
● Obiettivo: avere un catalogo di almeno 100 basi dati,
50 web services metadati in modo
Materiale interno a scopo didattico
83
Modelli di raccolta dati
e sistemi informativi
Marco Combetto
Informatica Trentina spa
Materiale interno a scopo didattico
84
Testo slide
Avvicinare la sorgente dei dati
● I dati sono prodotti e memorizzati nei sistemi informatici utilizzati normalmente da parte dell’amministrazione pubblica. ○ Office e strumenti per il desktop○ Sistemi Gestionali verticali (tanti)○ Siti web e sistemi CMS e DMS○ SAP (Gestionali/Bilancio)○ Servizi online e Pagamenti Elettronici○ Business Intelligence, Datawarehouse○ IT Service Management e altro…
● Centralizzati ma anche periferici, ma anche non in gestione diretta○ Un arcipelago di isole informative, più o meno accessibili,
con diverse tecnologie, modalità, limitazioni e vincoli
Materiale interno a scopo didattico
85
Testo slide
1. Elenco basi di dati chiave link● Trasporti (che include anche dati relativi in generale alla mobilità)
● Istruzione, cultura e sport (che include anche il turismo);
● Economia e finanze;
● Giustizia, sistema giuridico e sicurezza pubblica;
● Regioni e città.
1. Paniere opendata link (complemento a 1)
Quali dati? Ci sono delle priorità..
Materiale interno a scopo didattico
86
Testo slide
1. Contatto [email protected] che accompagnerà nelle scelte successive
2. Analisi dei dati secondo le indicazioni presenti nella checklist (titolarità, privacy, segreto, diritti di proprietà
intellettuale, disciplina dell'accesso agli atti e documenti amministrativi, formato)
3. Se non già presente, individuo un referente operativo per la Struttura e invio una lettera di autorizzazione alla
pubblicazione dei dati sul catalogo dati.trentino.it firmata dal dirigente responsabile della struttura
4. Modellazione dei dati per renderli pubblicabili come open data secondo quanto definito nelle linee guida
provinciali/nazionali.
5. Nel caso non fosse ancora presente, creazione dell'account del referente su dati.trentino.it
6. Compilazione dei metadati, scelta della licenza e pubblicazione dei dati.
7. Una volta pubblicato il dataset è importante tenerlo aggiornato nel caso di eventuali modifiche nel tempo dei
valori o della struttura.
Vorrei pubblicare dei dati aperti, cosa devo fare?
Materiale interno a scopo didattico
87
Testo slide
Pubblicazione semplificata
Non è sempre sostenibile lo sviluppo di uno specifico modulo di harvesting, in particolare se si tratta di pochi dataset e non aggiornati spesso
Alternative percorribili:
● Link inserito manuale: creazione di un collegamento nel catalogo al dataset messo a disposizione in un sistema informativo (accessibile dal web)
● Semimanuale: export automatico in un formato aperto dal sistema gestionale/ICT che contiene i dati e pubblicazione manuale nel catalogo
Materiale interno a scopo didattico
88
Testo slide
Il modello di raccolta dei metadati/dati
dati.trentino.itPRODCKAN
HarvesterControllo esecuzione
dati.trentino.itTESTCKAN
SINETe altri sistemi
Provinciali
1
2
3
1 - Raccolta dei dati/metadati dalla sorgente esterna definita e memorizzazione
in un database temporaneo locale
2 - Adattamento formati dati in vista dell’importazione
3 - Import dei metadati nel catalogo (ambiente di TEST e/o Produzione)
Internet
APIAPI
Internet
Materiale interno a scopo didattico
89
Testo slide
Integrazione in fase di progetto
Predisporre i sistemi informativi in fase di realizzazione (analisi e progettazione) con modalità che permettano di facilmente pubblicare come open data successivamente
● In fase di raccolta requisiti utente● In fase di pianificazione “evolutive”● Inserendo i costi implicati all’interno dei costi previsti
Importante:
● Opportunità per analizzare/rivedere la disponibilità dei dati (qualità, caratteristiche, riuso)
● I sistemi ICT sono in continua evoluzione...
Materiale interno a scopo didattico
90
Testo slide
Integrazione “a posteriori”
● Individuare la sorgente informativa nei sistemi○ Sappiamo il sistema che lo produce? (in gestione si/no, ..)○ Come è memorizzato? (in un database, applicativo, etc)○ Come è accessibile? (intranet, TELPAT, internet)○ Quali servizi di interoperabilità applicativa sono disponibili?
● Valutare l’intervento applicativo necessario, costi e competenze richieste e se “sostenibile” realizzare l’intervento applicativo○ Tipo 1: Realizzazione funzione di export○ Tipo 2: Integrazione con il sistema di harvesting
Materiale interno a scopo didattico
91
Dati dinamici e da sensori (IoT)
Marco Combetto
Informatica Trentina spa
Materiale interno a scopo didattico
92
Testo slide
Di cosa si parla?
I sensori sono dispositivi che convertono le grandezze ambientali in dati, cosi permettono di misurare, comunicare, elaborare e conservare le informazioni concernenti l’ambiente stesso.
Dispositivi come i sensori, ma non solo, creano un’interfaccia tra un sistema elettronico e l’ambiente esterno, con le seguenti caratteristiche: ● Produzione continua di dati (real time);● Continuo aggiornamento dei dati di una misura (diretta o calcolata);● Misurano fenomeni altrimenti difficilmente misurabili;● Permettono la creazione di serie storiche e modelli previsionali.
Materiale interno a scopo didattico
93
Testo slide
Dati da maneggiare con cura
Nell’utilizzo dei dati prodotti ha delle criticità specifiche:
• Problemi legati alla rilevazione e al trattamento dei dati (causa fattori esterni);
• I sensori producono dati molto grezzi;• L’elaborazione e la gestione dei dati dei sensori richiede
competenze tecniche specifiche;• Problemi legati alla protezione dei dati personali (es. targhe a
Trento);• Spesso i dati prodotti da sensori non sono standardizzati e non
infrastrutturati per essere distribuiti via web.
Materiale interno a scopo didattico
94
Testo slide
Varie tipologie in Dati.Trentino.it
94
Materiale interno a scopo didattico
95
Testo slide
Come raccogliere questi dati?
Dati generali:
• Files, sistemi informativi (databases, gestionali, etc)
Dati Geografici:
• Sistemi informativi Territoriali (SIAT, GeoCAT, etc)
Dati da Sensori?
● Web services generici
● WFS/WMS
● Sensor Observation Services
● Reti IoT
Materiale interno a scopo didattico
96
La piattaforma per il catalogo dei dati
Marco Combetto
Informatica Trentina spa
Materiale interno a scopo didattico
97
Testo slide
CKAN: Cosa è?
E’ un Data Management System (DMS)
● Un software open source per i cataloghi di dati aperti ● Serve per memorizzare metadati, non dati
○ possibile ma solo in caso di necessità● Semplifica il modo di trovare i dataset (anche via Google)● Permette di avere a portata di mano la documentazione sui dati● Permette di avere i dati a disposizione su Internet tramite una
URL permanente e quindi direttamente “collegabile”
Materiale interno a scopo didattico
98
Testo slide
CKAN: Cosa è?
E’ un Data Management System (DMS)
● Un software open source per i cataloghi di dati aperti ● Serve per memorizzare metadati, non dati
○ possibile ma solo in caso di necessità● Semplifica il modo di trovare i dataset (anche via Google)● Permette di avere a portata di mano la documentazione sui dati● Permette di avere i dati a disposizione su Internet tramite una
URL permanente e quindi direttamente “collegabile”
Materiale interno a scopo didattico
99
Testo slide
CKAN: funzionalità
● Permette di catalogare attraverso un interfaccia web o utilizzando le API
● Permette la ricerca in tutti i campi di metadati anche con un interfaccia
“a faccette”
● Sistema di profilazione utente sulla Organizzazione, in modo da
abilitare/disabilitare chi modifica le informazioni
● Permette di ordinare i dati come " set di dati " e " risorse"
● Anteprima dei Dati
● Permette di memorizzare e visualizzaze la cronologia delle modifiche di
un set di dati
● Permette di definire Categorie ed Organizzazioni
● Permette di fare un tema grafico custom
Materiale interno a scopo didattico
100
Testo slide
Struttura del catalogo
● Struttura home page
● Ricerca con parola chiave
● Organizzazioni
● Categorie
● Creazione di un nuovo dataset
● Modifica dei metadati di un nuovo dataset
● Elementi correlati (Bacheca applicazioni)
● Utenti, storia delle modifiche
Materiale interno a scopo didattico
101
Testo slide
Possibilità di automatizzare tasks
● utilizza le richieste http di tipo RESTful
● consuma e ritorna metadati in formato JSON
● si può fare a livello di codice qualsiasi operazione che si
può fare utilizzando l'interfaccia utente (ad esempio, la
ricerca)
● utilizzando una chiave di accesso sulle API è possibile
avere accesso ai dataset e fare operazioni quali
modifica/scrittura, se l'utente è autorizzato a fare tramite
l'interfaccia utente
● L’API utile per l'elaborazione dei dati e la catalogazione in
grandi volumi (ad esempio, applicare una correzione per
molti metadati in un batch, includere molte risorse simili in un
set di dati, fare harvest)
Materiale interno a scopo didattico
102
Testo slide
Roadmap di sviluppo
Allineamento standard
Piattaforma BZ
e AGID
Su interfaccia web e form di
metadatazione
Adeguamento
Sistema di Harvesting
API/processi schedulati
Competenze est. a supporto
GESOLUTIONS srl
Già in coord con BZ - Agid
Oggi si harvestano/da fare:
● SIAT/completamento migrazione STEM
● STATWEB/Miglioramento generale, Civici, etc.
● COMUNWEB BugFix e miglioramento UPDATE
Da avviare
● SINET TEMPLATE: implementazione
allineamento piattarma ComunWeb
MIGLIORAMENTO QUALITA’
Riduzione LINKS rotti, duplicati, imprecisioni (ID, etc) anche grazie a segnalazioni da Harvesting
nazionale (es. Bug ComunWeb)
Da valutare dopo l’upgrade in corso di CKAN, dal quale qualche strumento in piu c’è
Gruppo portali
102
Materiale interno a scopo didattico