Università di milano barbara coccagna, 20 marzo 2014, investigazioni sul patrimonio informativo del...

73
Dott.ssa Barbara Coccagna

Transcript of Università di milano barbara coccagna, 20 marzo 2014, investigazioni sul patrimonio informativo del...

Dott.ssa Barbara Coccagna

Milano, 20 marzo 2014 2

Cenni sull’Open source intelligence

Data Journalism

Open data

Le licenze degli open government data

I principi degli open data

La ricerca dei data set

La normativa italiana

Mashup, visualizzazione e riutilizzo dei dati pubblici

Milano, 20 marzo 2014 3

Ricerca, estrazione e

analisi delle informazioni

provenienti

da fonti liberamente

accessibili

Milano, 20 marzo 2014 4

Mezzi di comunicazione di massa (giornali, riviste,

televisione, radio e siti web)

Dati pubblici

File multimediali (video, audio, fotografie, mappe)

Dati provenienti da database istituzionali (dati anagrafici,

dati catastali, documenti di bilancio)

Segnalazioni in tempo reale

Milano, 20 marzo 2014 5

Fonti informative disponibili gratuitamente

Fonti aperte a tutti

Fonti facilmente accessibili

Milano, 20 marzo 2014 6

Strumenti di hacking della rete per ottenere informazioni su

identità digitali

Uso avanzato dei motori di ricerca (es. ricerca avanzata di

Google)

Tecniche di analisi investigative per valutare il materiale

informativo acquisito ed per elaborarlo attraverso

strumenti di visualizzazione grafica dei dati

Milano, 20 marzo 2014 7

Milano, 20 marzo 2014 8

Applicazione dei metodi della matematica, della

statistica, delle scienze sociali e comportamentali alla

pratica del giornalismo

Adozione di strumenti più vicini alla ricerca

scientifica che al giornalismo

Ampio ricorso ai dati grezzi e approccio diretto alle

fonti

Milano, 20 marzo 2014 9

“I numeri sono come il fuoco, possono essere usati per il bene o per il male. (…) Quando sono usati bene, i numeri possono attirare l’attenzione sulle situazioni che contano in mezzo a tutto il clamore e bagliore dell’età informatica”

Milano, 20 marzo 2014 10

Raccolta dei dati (input phase): i dati vengono cercati,

raccolti e analizzati

Emissione dei dati (output phase): i dati vengono

elaborati e visualizzati

Milano, 20 marzo 2014 11

Milano, 20 marzo 2014 12

http://www.theguardian.com/world/interactive/2012/may/08/gay-rights-united-states

Milano, 20 marzo 2014 13

Milano, 20 marzo 2014 14

Awarded to Paige St. John of the Sarasota Herald-Tribune for her examination of weaknesses in the murky property-insurance system vital to Florida homeowners, providing handy data to assess insurer reliability and stirring regulatory action.

Milano, 20 marzo 2014 15

Milano, 20 marzo 2014 16

Per condurre l’inchiesta

sono stati incrociati i dati

provenienti da diversi

database istituzionali, dai

certificati di morte ai

dataset sul reddito e sulla

salute

Milano, 20 marzo 2014 17

Si tratta di un’inchiesta sulla sanità Usa relativa alla prescrizione del metadone come antidolorifico per pazienti privi di un’assicurazione privata. Poiché il metadone ha un forte e documentato effetto tossico, l’inchiesta, a Seattle, ha evidenziato come la maggior parte delle 2mila morti per overdose di metadone si sia verificata in quartieri a basso reddito. Nei quartieri più abbienti, invece, non si sono registrati decessi analoghi perché a coloro che dispongono di un’assicurazione privata sono stati prescritti farmaci che vengono metabolizzati dall'organismo in poche ore.

Milano, 20 marzo 2014 18

Milano, 20 marzo 2014 19

Milano, 20 marzo 2014 20

http://daily.wired.it/mappa_migliori_ospedali/

Milano, 20 marzo 2014 21

http://www.ilgirodellanera.it/

“ Il giro della nera non ha risposte, né fini statistici. Ma vuole tentare un esperimento: nel parlare di furti, truffe, soprusi e omicidi, invece che soffermarsi sui particolari morbosi delle violenze, sulla sofferenza delle vittime o sulla nazionalità dei criminali, vuole mostrare soprattutto dove succedono i fatti di nera a Milano. Mettere insieme queste informazioni su mappe e vedere se è possibile capire qualcosa di nuovo e di diverso”

Milano, 20 marzo 2014 22

Consente l’accesso non solo alla notizia ma anche ai

dati grezzi

Promuove la condivisione dei dati a scopo di riutilizzo

Si basa su un nuovo concetto di informazione aperta

È implementato in tempo reale (Real time data)

Milano, 20 marzo 2014 23

1) Ricercare i dati

2) Interrogare i dati

3) Visualizzare i dati

4) Mashare i dati (ManyEyes)

Milano, 20 marzo 2014 24

Le investigazioni sui dati richiedono nuovi strumenti

La visualizzazione dei dati è un elemento

fondamentale

Telling data stories: trasformazione dei dati in storie

di pubblico interesse

Real time data: i dati sono aggiornati in tempo reale

con l’apporto collaborativo degli utenti

Milano, 20 marzo 2014 25

Con il termine Open Data, anche nel contesto italiano,

si fa riferimento alla pratica di diffondere i dati in

modo da renderli liberamente accessibili a tutti,

senza restrizioni di copyright, brevetti o altre forme

di controllo che ne limitino la riproduzione o il riuso

Milano, 20 marzo 2014 26

I dati aperti sono dati che possono essere

liberamente utilizzati, riutilizzati e ridistribuiti da

chiunque, soggetti eventualmente alla necessità di

citarne la fonte e di condividerli con lo stesso tipo di

licenza con cui sono stati originariamente rilasciati.

Open Knowledge Foundation

Milano, 20 marzo 2014 27

“Raw data now” Necessità che siano

pubblicati dati grezzi, così

come sono stati raccolti alla

fonte

Tempestività della loro

pubblicazione

Milano, 20 marzo 2014 28

1 stella: dati in qualunque formato ma con una licenza aperta

2 stelle: dati in formato proprietario ma leggibile da computer (es. Excel)

3 stelle: dati leggibili da computer e disponibili in formato non proprietario (CSV, ODS, ODB)

4 stelle: dati esposti usando gli standard W3C RDF e SPARQL

5 stelle: Linked Open data

Milano, 20 marzo 2014 29

La LICENZA, in ambito informatico, è lo strumento con

il quale si governano legalmente le condizioni d'uso e

di distribuzione del software e dei dati

Milano, 20 marzo 2014 30

Licenze di tipo closed: riservano tutti i diritti all’ente

pubblico proprietario e consentono solo la visualizzazione

dei dati, vietandone la manipolazione e il riutilizzo

Licenze di tipo open: concedono una serie di diritti ai fruitori

dei dati, di ampiezza diversa a seconda della tipologia di

licenza utilizzata (es. licenze creative commons, licenze ad

hoc)

Milano, 20 marzo 2014 31

USA (2009) : pubblico dominio

Regno Unito (2010): Open Government Licence (OGL

UK)

Italia : Open Data Licence IODL2.0

Milano, 20 marzo 2014 32

Consente il libero e gratuito riutilizzo, compresi gli usi

commerciali e il mashup dei dati;

L’utilizzatore è tenuto a indicare la fonte e il nome del

licenziante, includendo, ove possibile, anche copia della

licenza

L’utilizzatore è, altresì, tenuto a prendere ogni misura

ragionevole per evitare di trarre in inganno terzi o indurli a

travisare i dati

Milano, 20 marzo 2014 33

Milano, 20 marzo 2014 34

Disponibilità e accesso: i dati devono essere disponibili nel loro complesso, a un prezzo non superiore a un ragionevole costo di riproduzione ed essere inoltre disponibili in un formato utile e modificabile.

Riutilizzo e ridistribuzione: i dati devono essere forniti a condizioni tali da permetterne il riutilizzo e la ridistribuzione. Ciò comprende la possibilità di combinarli con altre basi di dati.

Partecipazione universale: tutti devono essere in grado di usare,

riutilizzare e ridistribuire i dati senza limitazioni agli usi non commerciali o per determinati fini

Milano, 20 marzo 2014 35

Completi: I dati devono comprendere tutte le componenti (metadati) che ne consentono l’esportazione e il riuso;

Primari: i dati devono presentarsi in maniera più possibile granulare, così che possano essere utilizzati per integrazioni e aggregazioni con altri dati;

Tempestivi: la disponibilità deve essere immediata;

Accessibili: I dati devono essere disponibili per il maggior numero possibile di utenti senza barriere all’utilizzo, senza alcuna sottoscrizione di contratto, pagamento, registrazione

Milano, 20 marzo 2014 36

Leggibili da computer: i dati devono essere machine-readable, ovvero processabili in automatico dal computer;

In formati non proprietari: i dati devono essere codificati in formati aperti e pubblici, sui quali non vi siano entità (aziende o organizzazioni) che ne abbiano il controllo esclusivo;

Liberi da licenze che ne limitino l’uso;

Riutilizzabili;

Ricercabili: i dati devono essere indicizzabili dai motori di ricerca.

Milano, 20 marzo 2014 37

Dove sono gli open data del settore pubblico?

Milano, 20 marzo 2014 38

Milano, 20 marzo 2014 39

Milano, 20 marzo 2014 40

Milano, 20 marzo 2014 41

Contiene 7.963 data set provenienti da 65

amministrazioni

Contiene 184 applicazioni

Un’infografica mostra le pubblica amministrazioni che

rilasciano open data

Milano, 20 marzo 2014 42

Milano, 20 marzo 2014 43

http://www.dati.gov.it/content/infografica

Milano, 20 marzo 2014 44

Milano, 20 marzo 2014 45

http://dati.comune.milano.it/dato/item/51-51-

aree-pedonali-e-zone-a-traffico-limitato-

ztl.html

Milano, 20 marzo 2014 46

Licenza con la quale sono rilasciati i dati

Tipologia dei dati (dati cartografici, dati testuali geografici)

Data di inserimento dati e frequenza aggiornamenti

Formato dei dati

Commenti degli utilizzatori per rilevare eventuali problematiche

Metadati

Milano, 20 marzo 2014 47

La scheda metadato costituisce la carta d'identità del

dato: raccoglie informazioni relative all'autore, al

periodo di produzione, ai diversi formati e alla licenza

d'uso. Si tratta quindi di un corredo indispensabile

per poter valutare l'attendibilità e l'aggiornamento

del dato, al fine di renderlo fruibile anche a distanza

di tempo e di spazio

Milano, 20 marzo 2014 48

Titolo Descrizione completa

Frequenza aggiornamento (semestrale/annuale) Data di inserimento del metadato: 20-03-2014 Data ultima modifica del metadato: 20-03-2014 Allegati: File tipo: CSV - Comma-Separated Value File dimensione: 40 Kb Numero scarichi: 150

Milano, 20 marzo 2014 49

Milano, 20 marzo 2014 50

Ai fini della piena accessibilità delle informazioni pubblicate, nella home page dei siti istituzionali è collocata un’apposita sezione denominata “Amministrazione trasparente” al cui interno sono contenuti i dati, le informazioni e i documenti pubblicati ai sensi della normativa vigente.

Le amministrazioni non possono disporre filtri e altre soluzioni tecniche atte a impedire ai motori di ricerca web di indicizzare ed effettuare ricerche all’interno della sezione (art. 9, comma 1, d.lgs. n. 33/2013)

Milano, 20 marzo 2014 51

Milano, 20 marzo 2014 52

Milano, 20 marzo 2014 53

Art. 11 D.lgs. n. 150/2009, oggi art. 1, comma 1, lettera

i) del d.lgs. n. 33/2013: trasparenza intesa come

accessibilità totale delle informazioni concernenti

l'organizzazione e l'attività delle pubbliche

amministrazioni, allo scopo di favorire forme diffuse

di controllo sul perseguimento delle funzioni

istituzionali e sull'utilizzo delle risorse pubbliche.

Milano, 20 marzo 2014 54

Deliberazione A.N.AC (già Civit n. 105/2010):"l’accessibilità totale

presuppone, invece, l’accesso da parte dell’intera collettività a tutte le “informazioni pubbliche”, secondo il paradigma della «libertà di informazione» dell’open government di origine statunitense. Una tale disciplina è idonea a radicare, se non sempre un diritto in senso tecnico, una posizione qualificata e diffusa in capo a ciascun cittadino, rispetto all’azione delle pubbliche amministrazioni, con il principale scopo di favorire forme diffuse di controllo del rispetto dei principi di buon andamento e imparzialità

Milano, 20 marzo 2014 55

E se non trovo i dati nella sezione

“Amministrazione trasparente”?

Milano, 20 marzo 2014 56

Milano, 20 marzo 2014 57

Chiunque ha il diritto di richiedere i dati di cui sia stata

omessa la pubblicazione se questa è obbligatoria

La richiesta di accesso civico non è sottoposta ad alcuna

limitazione, è gratuita e non deve essere motivata

La P.A. deve procedere alla pubblicazione entro trenta giorni

e trasmettere i dati al richiedente oppure comunicare al

medesimo l’avvenuta pubblicazione, indicando il

collegamento ipertestuale a quanto richiesto

Milano, 20 marzo 2014 58

Il richiedente, in caso di ritardo o di mancata

risposta, può ricorrere al titolare del potere

sostitutivo

La tutela del diritto di accesso civico è disciplinata

dalle disposizioni di cui al decreto legislativo n.

104/2010, come modificate dal d.lgs. n. 33/2013

Milano, 20 marzo 2014 59

I dati e i documenti che le amministrazioni titolari

pubblicano, con qualsiasi modalità, senza l'espressa

adozione di una licenza, si intendono rilasciati come

dati di tipo aperto

Milano, 20 marzo 2014 60

Disponibilità naturale dell’informazione del settore

pubblico

< Open by default>

Milano, 20 marzo 2014 61

Per formato dei dati di tipo aperto si intende un

formato di dati reso pubblico, documentato

esaustivamente e neutro rispetto agli strumenti

tecnologici necessari rispetto alla fruizione dei dati

stessi (Es: Xml, CSV, Shapefile)

Milano, 20 marzo 2014 62

Sono dati di tipo aperto i dati che:

Sono disponibili secondo i termini di una licenza che ne

permetta l’utilizzo da parte di chiunque, anche per finalità

commerciali, in formato disaggregato;

Sono accessibili attraverso le reti telematiche, sono

machine-readable e provviste di metadati

Sono disponibili gratuitamente oppure ai costi marginali

sostenuti per la loro riproduzione e divulgazione

Milano, 20 marzo 2014 63

Trasformazione dei dati in forma visuale con

l’obiettivo di ottenere prodotti finali che consentono a

un ampio pubblico di percepire in maniera immediata

e diretta le informazioni contenute nei dati medesimi

Milano, 20 marzo 2014 64

MASHUP

è un processo informatico in cui si integrano contenuti,

dati e informazioni provenienti da fonti differenti

Milano, 20 marzo 2014 65

È un concorso ideato e lanciato nel 2014 dal Consiglio

regionale del Piemonte e dal Consorzio Top-ix, in

collaborazione con Tavolo Open Data della Regione

Lo scopo è di stimolare gli utenti a raccontare in modo

creativo la storia del Piemonte attraverso gli open data

Prevede due categorie : Infografica e Data Visualization

Il 6 marzo, dopo il vaglio di 94 progetti, sono stati premiati i

vincitori

Milano, 20 marzo 2014 66

Mappa interattiva della città di Torino che permette di

orientarsi nella scelta del luogo in cui vivere

La mappa interattiva della città di Torino permette di

visualizzare il valore immobiliare delle abitazioni, il livello

dei servizi principali (faramcie, ospedali, negozi), il livello di

accessibilità del trasporto pubblico e del verde pubblico

(sulla base delle rilevazioni satellitari)

Milano, 20 marzo 2014 67

Milano, 20 marzo 2014 68

http://nyctaxmap.herokuapp.com/

La mappa visualizza i dati di oltre 40.000 edifici di

Manhattan

Gli edifici sono codificati per colore in base al loro onere

fiscale: dal viola (0 dollari), al giallo chiaro (5.000 dollari)

fino al verde scuro (1 milione di dollari)

Lo scopo del progetto non è solo quello di rendere

trasparenti i dati ma anche quello di rendere, attraverso il

controllo civico, la pressione fiscale più equa

Milano, 20 marzo 2014 69

70 /http://www.lavoce.info/partecipate-roma-lazio-provincia

Mappa delle partecipate della regione Lazio, della Provincia di Roma e di Roma Capitale

I grafici sono stati creati incrociando i dati del database Amadeus, il bilancio di Sviluppo Lazio e i dati disponibili sui siti web di Regione, Provincia e Comune

L’articolo (di R. Perrotti e F. Teoldi) lascia al lettore le conclusioni

Milano, 20 marzo 2014 71

Un rettangolo scuro con bordo continuo rappresenta un’azienda

controllata da almeno uno dei tre enti per oltre il 50%;

Un rettangolo scuro con bordo tratteggiato rappresenta un’azienda

controllata dai tre enti ma con una partecipazione inferiore al 50%

Milano, 20 marzo 2014 72

Grazie per l’attenzione

Dott.ssa Barbara Coccagna

Milano, 20 marzo 2014 73