Workshop pratico DDJ - Bari

Post on 18-Nov-2014

536 views 2 download

description

sessione Openrefine e Libreoffice su dati OpenCoesione

Transcript of Workshop pratico DDJ - Bari

OPEN DATA ______IN ACTION!_______

Workshop pratico DDJ su dati OpenCoesione

Bari 27 ott 2013

WORKFLOW DDJ

TROVARE E PRENDERE I DATI

SISTEMARE E PULIRE I DATI ANALIZZARE I DATI

SINTETIZZARE E RAPPRESENTARE

I DATI RACCONTARE UNA STORIA

INFRASTRUTTURE PUGLIA1. esploriamo i soggetti attuatori per capire

chi le sta costruendo e quali tipologie di progetti sono stati finanziati

2. facciamo una veloce analisi territoriale

3. scopriamo e monitoriamo i dieci progetti più grossi

TROVARE E PRENDERE I

DATI

INFRASTRUTTURE PUGLIA1) esploriamo i soggetti attuatori per capire chi le sta costruendo

❏ pulizia delle anagrafiche❏ somma di euro per tipologia di attuatori ❏ conteggio di progetti

SISTEMARE E PULIRE I DATI

OPEN REFINE❏ non è excel un foglio di calcolo

❏ Estrae

❏ Pulisce

❏ Sistema

❏ Esporta

CODIFICA ERRATA

IL SEPARATORE È “;”

SE VOGLIO CAMBIO IL

NOME DA QUI

DA QUI LA CORREGGO

DAL CAMPO “ALL” CONTROLLO TUTTI I

CAMPI E POSSO ANCHE METTERE UN

PO’ D’ORDINE

DI TANTE RIGHE NE VEDO POCHE… MA NON IMPORTA

QUESTO È UN “TEXT FACET”. GRAZIE A QUESTA

FUNZIONALITÀ POSSO FILTRARE, MODIFICARE E

ESPLORARE IL DATASET IN MANIERA MAI VISTA!

QUESTI CAMPI NON MI SERVONO E DA QUI LI POSSO CANCELLARE

DA CAMPO ALL -> RE-ORDER / REMOVE COLUMNS CON UN

SEMPLICE DRAG&DROP

POSSO ORDINARE I CAMPI COME VOGLIO IN MODO DA TENERE

NEI PRIMI POSTI QUELLI CHE MI

INTERESSANO DI PIÙ

INFRASTRUTTURE PUGLIA1. esploriamo i soggetti attuatori per capire chi le sta costruendo e quali tipologie di progetti sono stati finanziati

❏ pulizia delle anagraficheIL CAMPO CHE CI INTERESSA È “SOGGETTI

ATTUATORI”DOBBIAMO ESPLORARLO E CAPIRE SE SI

PUÒ TIRAR FUORI QUALCHE INFORMAZIONE SINTETICA ED EFFICACE

PER ATTIVARE UN FACET CLICCO SUL MENU DEL CAMPO “SOGGETTI_ATTUATORI”

E SELEZIONO TEXT FACET, ADATTO AI CAMPI DI TESTO

AHI AHI! SON TANTISSIMI! 513 VALORI DIVERSI...COME FARE?

CLUSTERIZZO!

IL CLUSTER DI UN FACET È UNA FUNZIONE CHE PERMETTE DI RAGGRUPPARE INSIEMI DI VALORI CHE PUR AVENDO LO STESSO SIGNIFICATO ED ESSENDO SIMILI SI PRESENTANO IN MODALITÀ

DIFFERENTI

QUI MODIFICO L’ALGORITMO E

CAMBIA IL METODO DI RICERCA DEI

VALORI SIMILI

INFRASTRUTTURE PUGLIA1. esploriamo i soggetti attuatori per capire chi le sta costruendo

❏ pulizia delle anagrafiche

LA CLUSTERIZZAZIONE IN QUESTO CASO È INEFFICACE, OCCORRE TROVARE NUOVE

INFORMAZIONI SUGLI ATTUATORI CHE INTEGRINO QUELLE CHE GIÀ ABBIAMO

MERGE TRA DUE DATASET

PROGETTI SOGGETTI

CON REFINE POSSO APRIRE PIÙ PROGETTI CONTEMPORANEAMENTE

CREO UN NUOVO PROGETTO SEGUENDO LA SOLITA PROCEDURA.

STAVOLTA APRO IL FILE DEI SOGGETTI

QUESTO È IL CAMPO CHE MI SERVE!(campodaprendere)

OPS! PROBLEMI DI CODIFICA CHE REFINE NON È RIUSCITO A RISOLVERE

IN FASE DI IMPORTAZIONE

QUESTO È IL CAMPO CHE I DUE DATASET HANNO IN COMUNE. È LA

CHIAVE CHE CI PERMETTE DI UNIRLI IN MODO CORRETTO

(campochiave)

TORNO AL DATASET INIZIALE “progetti_infrastrutture”

ORA PER FARE UN MERGE TRA I DUE DATASET DEVO PORTARMI SULLA COLONNA CHE HANNO IN

COMUNE “COD_LOCALE_PROGETTO” E DAL MENU ANDARE SU EDIT

COLUMN -> ADD COLUMN BASED ON THIS COLUMN E…..

:-(

ORA MI TOCCA USARE DEL

CODICE. REFINE NON RIESCE A

COMPIERE TUTTE LE SUE FUNZIONI DA INTERFACCIA GRAFICA, PER

CUI SI AVVALE DI UN CODICE

INFORMATICO SEMPLIFICATO IL

“GREL”

CAMPO PER INSERIRE L’

ESPRESSIONE

ANTEPRIMA

INSERISCO IL NOME DELLA

NUOVA COLONNA

UTILIZZO LA FUNZIONE “cell.

cross”

FUNZIONE GREL PER MERGE

cell.cross("nomedataset", "campochiave").cells["campodaprendere"].value[0]

(basta semplicemente sostituire i grasseti )

ECCOLO QUI

ATTIVANDO UN TEXT FACET SUL NUOVO CAMPO NOTIAMO COME ESSO RIESCA A

INTERLACCIARSI CON 3 TIPI DI SOGGETTI PER CATEGORIA ATECO. BUONA PARTE DI ESSI PERÒ NON VENGONO TROVATI E ABBIAMO

CELLE BIANCHE (blank)

GLI ERRORI DI CODIFICA PER ORA NON CI DANNO FASTIDIO

POSSIAMO MODIFICARE TUTTI I VALORI DELLE CELLE CORRISPONDENTI ALLE CATEGORIE,

SEMPLICEMENTE MODIFICANDO IL TESTO DEL FACET. BASTA CLICCARE “EDIT” CHE APPARE A

FIANCO DEL “COICHE”.

ORA ABBIAMO SEMPLIFICATO TUTTE LE CATEGORIE. DOBBIAMO SCOPRIRE A QUALI CATEGPRIE APPARTENGONO LE 872 CELLE

BIANCHE

SE CLICCLIAMO SU UNA CATEGORIA IL FACET FUNGE DA FILTRO E SELEZIONA SOLO LE CELLE

CORRISPONDENTI ALLA CHOICE ILLUMINATA

IL FACET È UNO STRUMENTO POTENTISSIMO PERCHÈ POSSIAMO AGGIUNGERNE PER OGNI CAMPO PERMETTENDOCI DI FARE UN FILTRO GERARCHICO ED ESTREMAMENTE DINAMICO

IN QUESTO CASO AGGUNGO UN TEXT FACET AL CAMPO SOGGETTI ATTUATORI. LE CATEGORIE SI RIFERISCONO A QUELLA SELEZIONATA NEL FACET PRECEDENTE! QUINDI POSSO CAPIRE

QUALI CATEGORIE DI SOGGETTI ATTUATORI CI SONO IN BASE ALLE CELLE BIANCHE DELLE

TIPOLOGIA SOGGETTI

POSSO AGGIUNGERE TANTI FACET COME DETTO PRIMA, MA SPESSO È UTILE AGGIUNGERE

ANCHE UN SEMPLICE FILTRO DI TESTO. PER FARLO BASTA SELEZIONARLO DAL MENU DEL

CAMPO, IN QUESTO CASO SEMPRE SOGGETTI_ATTUATORI.

INSERENDO “comune” TROVO TUTTI I SOGGETTI CHE SONO UN COMUNE E CHE APPARTENGONO ALLE CELLE BIANCHE DEL CAMPO TIPOLOGIA

SOGGETTI

GUARDANDO IL PRIMO FACET CAPISCO CHE QUESTO PROCESSO MI HA FATTO INDIVIDUARE

BEN 515 CELLE BIANCHE NEL CAMPO TIPOLOGIA SOGGETTI. ESSENDO DEI COMUNI LI

VOGLIO INTEGRARE NELLA CATEGORIA amministrazione. PER FARLO BASTA

MODIFICARE LA CATEGORIA (blank) CHE IN QUESTO MOMENTO RIGUARDA SOLO ED

ESCLUSIVAMENTE LE CELLE CORRISPONDENTI AI SOGGETTI ATTUATORI CHE CONTENGONO LA

PAROLA “comune”.

CONTINUANDO A LAVORARE TRA FACET E FILTRI OTTENGO FINALMENTE DELLE

CATEGORIE CHE IDENTIFICANO I SOGGETTI ATTUATORI

1. esploriamo i soggetti attuatori per capire chi le sta costruendo e quali tipologie di progetti sono stati finanziati

❏ pulizia delle anagrafiche❏ somma di euro per per tipologia di attuatori❏ conteggio di progetti

INFRASTRUTTURE PUGLIA

PER ANALIZZARE I DATI OCCORRE ANCORA QUALCHE RITOCCO

IL NUMERO È MEMORIZZATO COME TESTO

RISOLVIAMO DA QUI (SEMPRE

GREL)

SOSTITUISCO LA VIRGOLA CON IL PUNTO (DANNATI

INGLESI)

FUNZIONE GREL PER SOSTITUIRE

value.replace("caratteredatogliere","caratteredamettere")

(basta semplicemente sostituire i grasseti )

CONVERTO IN NUMERO

POSSO DECIDERE QUALI CAMPI

ESPORTARE, E IN QUALE ORDINE

CON IL CUSTOM TABUALR EXPORTER POSSO AVERE TANTE

OPZIONI PER L’ESPORTAZIONE

ANALIZZARE I DATI

INFRASTRUTTURE PUGLIA1. esploriamo i soggetti attuatori per capire chi le sta costruendo e quali tipologie di progetti sono stati finanziati

❏ pulizia delle anagrafiche❏ somma di euro per tipologia di attuatori ❏ conteggio di progetti

LIBREOFFICE CALC

❏ è un foglio di calcolo ma non è excel

❏ è open source

❏ è open data friendly

❏ gestisce meglio i csv

PER OTTENERE UN DELLE TABELLE

RIASSUNTIVE DAL MIO DATASET, USO LA

FUNZIONE TABELLA PIVOT.

PRIMA SELEZIONO I CAMPI CHE MI

INTERESSANO E POI CLICCO SU CREA

SPOSTANDO I CAMPI CON UN DRA&DROP SULLE DIVERSE

PARTI DELLA PIVOT CREO LA MIA TABELLA

OTTENGO COSÌ UNA TABELLA A DOPPIA ENTRATA DOVE INCROCIO

IL TEMA SINTETICO DPS CON I SOGGETTI DIVISI PER TIPOLOGIA

INFRASTRUTTURE PUGLIA1. esploriamo i soggetti attuatori per capire chi le sta costruendo e quali tipologie di progetti sono stati finanziati

❏ pulizia delle anagrafiche❏ somma di euro per tipologia di attuatori ❏ conteggio di progetti

FACENDO DOPPIO CLIC SU UN CAMPO DENTRO IL “CAMPO DATI”

POSSO DECIDERE IN BASE A QUALE FUNZIONE OTTENERE I DATI DELLA

TABELLA

ED ECCO LA TABELLA CON IL

NUMERO DI PROGETTI E NON LA SOMMA DEL LORO

VALORE

PER AVERE VALORI PIÙ SIGNIFICATIVI

POSSO DECIDERE DI VISUALIZZARE LA

TABELLA IN %

INFRASTRUTTURE PUGLIA❏ esploriamo i soggetti attuatori per capire

chi le sta costruendo e quali tipologie di progetti sono stati finanziati

❏ facciamo una veloce analisi territoriale

❏ scopriamo e monitoriamo i dieci progetti più grossi

DAL CAMPO TERRITORI, NOTO CHE PIÙ TERRITORI SONO

CONCATENATI IN UN UNICO CAMPO, SEPARATI DA “:::”

POSSO SEPARARE LE CELLE DAL COMANDO SPLIT MULTI-VALUED CELLS CHE TROVO IN

EDIT CELLS

SCELGO IL SEPARATORE CHE COME DETTO È “:::”

CON LA FUNZIONE SPLIT HO CREATO NUOVE RIGHE IN

BASE AL CAMPO TERRITORI. LE RIGHE SONO PERÒ VUOTE IN TUTTI GLI ALTRI CAMPI, MA DALLA FUNZIONE FILL DOWN

POSSO PORRE RIMEDIO

IN SEGUITO FACCIO UNA ESPORAZIONE IN LIBREOFFICE SELEZIONANDO I CAMPI CHE MI SERVONO COL CUSTO TABLUAR

EXORTER

SE FACCIO UNA PIVOT POSSO CONTARE I PROGETTI PER

TERRITORIO E TIPOLOGIA DEI SOGGETTI ATTUATORI

INFRASTRUTTURE PUGLIA❏ esploriamo i soggetti attuatori per capire

chi le sta costruendo e quali tipologie di progetti sono stati finanziati

❏ facciamo una veloce analisi territoriale

❏ scopriamo e monitoriamo i dieci progetti più grossi

DEVO RIPRISTINARE IL DATASET A PRIMA DELLO SPLITTAMENTO CHE MI HA AGGIUNTO RIGHE CHE NON MI SERVONO IN QUESTO CASO E CHE ANZI RENDONO

PIÙ DIFFICOLTOSA L’ANALISI

PER FARLO USO UNDO/REDO

PER SELEZIONARE IL RANGE DEGLI IMPORTI DEI

PROGETTI FINANZIATI INSERISCO NEL CAMPO

FIN_TOTALE_PROGETTO UN NUMERIC FACET

SPOSTANDO GLI ESTREMI DELLA BARRA POSSO

SELEZIONARE IL RANGE DESIDERATO

SINTETIZZARE E

RAPPRESENTAREI DATI

RACCONTARE UNA STORIA

a.zedda@kode-solutions.net

Grazie a tutti!

@andria_tzedda