Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage...

12
Progetti Big Data nell’ambito delle Analisi Fiscali

Transcript of Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage...

Page 1: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

Progetti Big Data nell’ambito delle Analisi Fiscali

Page 2: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

E’ una S.p.A. partecipata dal Ministero dell’Economia e Finanze (88%) e dalla Banca d’Italia (12%)

Operativa dal 2002

Sede a Roma

140 dipendenti

Chi è SOSE

E’ il partner metodologico per realizzare:� Studi di settore� Analisi fiscali� Fabbisogni standard per Comuni, Province e Regioni

Page 3: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

PANORAMICA DELL’ORGANIZZAZIONE

STATISTICACOMPLESSA

ANALISIMICRO-

ECONOMICA

SVILUPPO

BUSINESSICT

STATISTICACOMPLESSA

ANALISIMICRO-

ECONOMICA

SVILUPPO

BUSINESSICT

Page 4: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

PANORAMICA DELL’ORGANIZZAZIONE

85%

15%

SCOLARIZZAZIONE

Laureati

Diplomati

52%48%

ETÀ

Meno di

35 anni

Altri

58%

42%

SESSO

Donne

Uomini

75%

25%

TEAM

Line

Staff

Page 5: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

EDWSTG EDWPUB

Archivi Agenzia

delle Entrate

Metadati

Fonti Esterne

Altri Archivi

SOSE

EDW_LOAD

SERVIZI:

� Cleansing

� Standardizzazione

� Conformità

� Mascheramento

DATA STORED:

� Flat File

� Tabelle Relazionali

METADATI

EDW_ANONEDW_ANON

SERVIZI:

� Applicazione regole

business

� Realizzazione Data Mart

DATA STORED:

� Star Schema

EDW_PUBEDW_PUB

SERVIZI:

� Pubblicazione dati. Owner

Dati

DATA STORED:

� Data Mart

� Dati di dettaglio

EDW_GEOEDW_GEO

SERVIZI:

� Owner Dati Geo Spaziali

DATA STORED:

� Star Schema

F_STD_PUB

SERVIZI:

� Pubblicazione dati

Federalismo

DATA STORED:

� Star Schema

Altri Schema dedicati

SERVIZI:

� Altre viste sui dati

Big Data

Cluster

HADOOP

(HBASE)

(12 nodi)

Dashboard

Analisi

Statistica

Data

Discovery

Analisi

metodologica

Visual

Analytics

Output

Big Data & ETL

(6 TB)

Page 6: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

Big Data & Hadoop & SNA

Clienti

->

Fornitori

Fornitori

->

Clienti

HDFS

MAPREDUCE

HADOOP 2 Nodi Virtuali:

- 4 Processori

- 4 GB Ram

• 7,2 GB di dati

• Circa 5,4 milioni

di nodi

• Totale relazioni:

140 milioni

Apache Giraph

Page 7: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

Processo di MapReducing

Processo INPUT - Caricamento dati (archivi clienti e fornitori) su BigData (HDFS)

Filtro sugli archivi e utilizzo dei campi Imponibile, Identificativo contribuente, Identificativo cliente/fornitore, individuazione delle relazioni univoche (MAPPING)

Sorting delle relazioni più unione dei record con la stessa chiave (SHUFFLING)

Sulle relazioni univoche vengono effettuate delle operazioni di aggregazione (REDUCING), es. sommando gli imponibili o aggregazione delle categorie ATECO

Page 8: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

Social Network – Attributi e Metrica

• Degree Centrality– Numero di connessioni dirette che un nodo possiede. E’ importante

avere un numero molto alto di connessioni.

– Nel nostro caso più è alto il numero di connessioni più è alto il numero di transazioni economiche (es. attività di tipo commerciale).

– Il risultato deve essere confrontato con il totale degli imponibili per soggetto.

– Questa può essere estesa ai grafi pesati, utilizzando la somma dei pesi delle relazioni.

),()(1

ki

n

ikD ppaPC

=

∑=

Page 9: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

Social Network – Attributi e Metrica

• Betweenness Centrality– Misura la strategicità di un nodo nella rete tra (between) due

aree importanti della stessa. Un nodo con una elevata BC ha una grande influenza nel flusso di informazioni.

– Ad es. il fornitore/cliente unico di una determinata categoria merceologica o unicità di presenza nel territorio.

b

a

C d e f g h

Page 10: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

Risultati

• Relazioni univoche tra codici Ateco, ogni relazione ripetuta è raggruppata ed eseguita la somma delle relative transazioni, la relazione viene intesa con una direzione specifica.

• Il primo Ateco è relativo al Cliente, il secondo Ateco è relativo al fornitore:

• Tempi:– Elaborazione eseguita in 6 min per 1 file di 7.12 GB con

147.000.000 record

– Risultato 1 file di 15.89 MB con 840.000 record

• Metriche calcolate:– In-Degree Out-Degree Page Rank

• Componenti connesse (sottoreti) Map-Reduce (30 minuti)

• Componenti connesse Giraph (10 minuti)

Page 11: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

Best Practices

• Utilizzo di Hadoop per leggere e analizzare i file di dati.

• Sviluppare algoritmi MapReduce (R o Java) per contare il numero di edges associati ad ogni nodo:– degree.V <- mapreduce(edge.list, map=function(k,v)

keyval(v[2],1), reduce=function(k,v) keyval(k,length(v))) from.dfs(degree.V)[[1]]

• Utilizzare R o Java con algoritmi SNA o dei Grafi per effettuare analisi sui risultati ottenuti dal MapReducing

Page 12: Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage Rank • Componenti connesse (sottoreti) Map-Reduce (30 minuti) • Componenti

Bibliografia e strumenti

• http://www.cloudera.com

• http://hadoop.apache.org/

• http://graphstream-project.org/

• http://thinkaurelius.com/blog/

• http://blog.piccolboni.info/

• http://www.revolutionanalytics.com/

• http://mahout.apache.org/

• http://www.neo4j.org/

• Social Network Analysis Utilizing Big Data Technology -Jonathan Magnusson – Uppsala University

• Analisi della Dinamica della Centralità Commerciale Italiana – Andrea Accatoli