Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno 2014

Post on 24-Jun-2015

199 views 0 download

description

Open Data & Data Visualization. Dalle licenze ai grafici: riusare, pulire, esplorare e visualizzare i dati. Lezione in due giorni nell'ambito di un progetto di formazione interna del Comune di Bologna - 16 e 17 giugno 2014.

Transcript of Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno 2014

Dallelicenzeaigrafici:riusare,pulire,esplorareevisualizzareidati

AlessioCimarelli@jenkin27

AndreaNelsonMauro@nelsonmau

www.dataninja.it

AgendaDigitale-ComunediBologna

,16e17giugno2014

IdatieilcontestoLelicenzeAggiornamentisulleLineeguidaAGID

Iformatideidatidatistrutturatienonstrutturatifarescrapingpercrearedatistrutturati

UsareletabelleconifoglidicalcoloPulireidati:leregoleprincipaliTecnicheavanzate:l'usodiOpenRefineAnalisi:ordinare,filtrareeraggruppareidatiAggregaredatidatabellediverse:CercaVertealtrefunzioniutili

IntroduzioneallaDataVisualizationrisorse,strumenti,principaliriferimentiLavisualizzazionecomestrumentidianalisideidati

Graficidibasecon :comescegliereGraficiavanzaticon :visualizzareconnessioniegerarchieMappecon :punti,bolle,choropleth,timemapReticon :elementidisocialnetworkanalysisVisualizzazione con un'overviewgenerale

IlsitodiDataninjaconinostriprogettiprincipali

Informazioni,slides,esperimenti,tutorialetoolperidatajournalist

EricSchmidt,Google’sexecutivechairman

Percercarli,trovarli,riusarliedarelorocontesto

Peranalizzarlieverificaresepossonoessereutili

Percostruireinformazionimaggiormenteaccurateebasatesuelementistatistici

Cominciamodaunadefinizione

Singolipezzidiinformazionediogninatura,descrizionidifattiriproducibilisenzaambiguità,partidiinformazionistrutturate

chepossonoesserearchiviateinformatodigitale

MaurizioNapolitano,TechnologistpressoFondazioneBrunoKessler(Trento)

Cominciamodaunadefinizione

Undatoèapertosechiunqueèliberodiusarlo,riutilizzarlo,ridistribuirlo,edèsoggettotutt’alpiùall’obbligodicitazioneo

condivisioneallostessomodoOpenDefinition:http://opendefinition.org/od

http://opendefinition.org/

Sevogliopubblicaredeidatiin"OpenData"devo: deidati(chilihaprodotti?Ilclassico

esempiodeidatidelturismo,generalmenteraccoltiediffusidalleCamerediCommercio)

dirittialtruio ilsegretostatisticoleverifichenecessarieepreliminari

allapubblicazione.

Einoltredevotenereamenteche:NonpossoconcedereunalicenzacherilascipiùdirittidiquantinonneabbianoidatidiprovenienzaDevosempretenereinconsiderazionelapossibilitàdirimuoveredeidati(omodificarnelalicenza)seemergechelatitolaritànonèmia.

LelicenzeutilizzabiliperilrilasciodeidatisecondoAGID

http://www.agid.gov.it/sites/default/files/linee_guida/patrimoniopubblicolg2014_v0.6.pdf

,giurista,espertodidirittodigitale| http://goo.gl/zmjbY7

Formatideidatidigitaligiàutilizzabili,solodapulireecontrollare

SipossonoanalizzareconMsExceleLibreOfficeCalc,mysql(...)Èbuonanormapubblicarliconi

Sonodatinonstrutturati senonèpossibileanalizzarlitramiteun'applicazionedifogliodicalcolo

Paginewebinformatohtml

Documentiditesto

Documentiinformatopdf

L'artedelloscraping:sempliceocomplessa?

(datidaestrarredapdf)

(datidaestrarredapaginehtml)

sviluppateadhocconPython/Javascript/Java

Ilnostropuntodipartenzaèunatabelladidatistrutturati

http://dati.comune.bologna.it/node/340

Difronteall’enormevarietàdelmondo,ilcomputercomprendepochitipidivariabili:

numeriinteri(consegno,inclusolo0)numeridecimali(consegno)dateeoraristringhedicaratteri(casesensitive)valoremancante(oNULL)

Verificare,individuareerrori,correggere

Premessesbagliateportano(quasi)sempreaconclusionisbagliate,ancheseilragionamentoècorretto.

Pureseaffidabile,anchelafontepuòsbagliare.Cosìcomepuòbarare,truccare,mentire,nascondere,omettere,ecc.

Dacontrollaresempreprimaditutto:coerenzainterna,completezza,verosimiglianza.

Nonbuttarviamainienteeteneretracciadiquellochesifa...

Verificare,individuareerrori,correggere

Strumentideifoglidicalcolo(comeMicrosoftExcel,LibreOfficeCalc):filtriefunzionidiordinamento;formattazionecondizionale;definizioneesplicitadeitipi(stringa,numero,data,...);semplicigrafici.

SipuòfareconMicrosoftOfficeoLibreOfficeCalcOppureconunostrumentoadhoc:OpenRefine( ).openrefine.org

Ognicolonnarappresentaecontieneunoeunsolotipodidato.

Ognirigarappresentaecontieneunoeunsolooggetto

Nonpossonoesistererigheperfettamentevuoteoidentiche.

Controllachelastrutturadeidatisiacorretta:ognicolonnadevecontenerevaloridellostessotipo(date,luoghi)

Controllacheidatisitrovinoinformatoomogeneo(adesempiolaformattazionedelladataoimaiuscoli/minuscoli)

Controllaqualesistemadinumerazionestaiusando.Europeooanglosassone?Controllaiseparatoridimigliaiaedecimali

Controllacheleintestazionisianosemprenellaprimariga

Lerighevuotenondevonoesistere.Lecellevuotepossonoinveceindicarevalorimancanti(tutteindicanosemprevalorimancanti).

Attenzioneacellefintamentevuote:ilcaratterespazioc’è,anchesenonsivede!

Controllalesommeselavorisutabellenumericheelestaimodificando

Suddividileinformazioniinpiùcolonnepossibile(peresempiosesihannonomicompleti,megliodividerliin“nome”e“cognome”)

Possosceglierel'ordinamentoalfabetico(A-ZoZ-A)onumerico(min-maxoviceversa).Inquestocasoordinodalpiùgrandealpiùpiccolo

Raggruppoidatiperquartierecalcolandoiltotaledegliiscritti

Quandosihannodiversetabellechedescrivonoglistessielementi,spessoprovenientidafontidiverse,èpossibileunirleearricchirecosìil

miodatasetscoprendonuoverelazionetraidati.

Neifoglidicalcolo: , , .

Datisulladisoccupazioneosuicostideiservizi:quellidellatuacittà/regionesonopiùaltiopiùbassirispettoadaltriterritori?

-Lefontiufficialitendonoaconcentrarsisudatidelquartotrimestre.Ilcontestoelaprospettivacambianoosservandodatichemostranolosviluppodiunfenomenonegliultimi5o10anni.

-Un'istituzioneannunciamilionidieurodiinvestimentiperlescuole.Faiqualcheconto:quantistudentipotrannobeneficiarne,suqualeperiododitempo?Ricalcolareilvaloreprocapitediprogrammidiinvestimentospessopuòchiarireilrealesignificato.

-Provaadeseguiresemplicicontrollidisommeetotali.Verificalemodalitàconlequaliidatisonostatiraccoltieconqualiipotesiomodelli.Qualèiltassodidisoccupazioneneltuopaese?Controllaloeconfrontaloconaltripaesiomodellialternativi.

Comenoneramaisuccessonellenostrevite,oggiabbiamoaccessoaun’infinitàdiinformazionilibereegratuite.Conglistrumentigiustipossiamocominciareadareunsensoaquestidatipervedereschemietrendchealtrimentipernoisarebberoinvisibili.Trasformandoinumeriinformagrafica,permetteremoailettoridiconoscerelestoriechequeinumeri

nascondono.

AlbertoCairo,"ThefunctionalArt"

Principalistrumentivisualizzazione:graficibase(linee,barre,torte):mappegeografiche:graficigerarchici:grafi(dettianchereti):timeline:

Maonlinecisonotantissimialtristrumenti:l'importanteèaverechiaroilproprioobiettivoenonaverepauradisperimentare!

http://datawrapper.ithttp://cartodb.com

http://raw.densitydesign.org/http://gephi.org

http://timeline.knightlab.com/

ConDatawrapperèpossibilerealizzaregraficiinterattiviinpochiminuti(graficiabarre,torte,istogrammi,graficialinee,equalchemappa)

CartoDBpermettedicrearemappeinterattiveinpochiistanti.L'importanteèchelatuatabellaabbiadeidatigeografici.

RAWpermettedigestirebenelerelazionitraidatielalorogerarchia.E'faciledausareprovandogliesempigiàpresenti(esempiodiqualiingredientisonofattiicocktail?).

Costruireunacronistoriadeglieventipuòesseremoltoutile.SipuòfareconTimeline.JS,adesempioinserendoinunatabellavariarticoliinsuccessionetemporale(guardalatimelinedelterremotoinEmilia).

Qualisonolerelazionitraidati?E'possibilevisualizzarleconGEPHI,unsoftwarediNetworlAnalysis(basatosuigrafi).E'spessousatopervedereleconnessionitragliutentisuTwitteroleamiciziesuFacebook.

Spessovisualizzareidatipuòaiutarcia"scoprire"dellenotizie

Quantoègrandeladifferenzadeltassodidisoccupazionetradueopiùterritori?Com'ècambiatounfenomenoneltempo?

Visualizzarequestidatipuòaiutarciacomprendereinmanierapiùimmediataunfenomenoefareprenderealnostrolavorogiornalisticoun'altradirezione:torniamoindietro,cerchiamoaltridati,limettiamoaconfronto.

LebestpracticesdelDataJournalismprevedonocheinsiemealleinchiestevenganopubblicatiidatirelativi,perpermetterediverificarelevisualizzazionieirisultati.Noiabbiamocostruito

AndreaNelsonMauro/"nelsonmau"nelsonmau@dataninja.it

@nelsonmau

www.dataninja.ithttp://school.dataninja.it

http://dataninja.it/newsletter

http://datamediahub.it

Violazionivarchitelecontrollati,SIRIOeRITA

(SOD)

Dati.gov.itOpenDataCensusLicenzeCreativeCommonsAgendaDigitaleItalianaSpaghettiOpenDataMailinglistpubblicadiSpaghettiOpenDataOpenBilanciOpenCoesioneCIRSFID-UniversitàdiBolognaCodicedell'AmministrazioneDigitaleOpenDefinitionConfiscatiBeneTheMigrants'FilesOpenDataBolognaFivestaropendata

(estrazionetabelledapdf)(puliziadati)

TabulaOpenRefine