Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage...
Transcript of Progetti Big Data nell’ambito delle Analisi Fiscali · 2017-01-23 · – In-DegreeOut-DegreePage...
Progetti Big Data nell’ambito delle Analisi Fiscali
E’ una S.p.A. partecipata dal Ministero dell’Economia e Finanze (88%) e dalla Banca d’Italia (12%)
Operativa dal 2002
Sede a Roma
140 dipendenti
Chi è SOSE
E’ il partner metodologico per realizzare:� Studi di settore� Analisi fiscali� Fabbisogni standard per Comuni, Province e Regioni
PANORAMICA DELL’ORGANIZZAZIONE
STATISTICACOMPLESSA
ANALISIMICRO-
ECONOMICA
SVILUPPO
BUSINESSICT
STATISTICACOMPLESSA
ANALISIMICRO-
ECONOMICA
SVILUPPO
BUSINESSICT
PANORAMICA DELL’ORGANIZZAZIONE
85%
15%
SCOLARIZZAZIONE
Laureati
Diplomati
52%48%
ETÀ
Meno di
35 anni
Altri
58%
42%
SESSO
Donne
Uomini
75%
25%
TEAM
Line
Staff
EDWSTG EDWPUB
Archivi Agenzia
delle Entrate
Metadati
Fonti Esterne
Altri Archivi
SOSE
EDW_LOAD
SERVIZI:
� Cleansing
� Standardizzazione
� Conformità
� Mascheramento
DATA STORED:
� Flat File
� Tabelle Relazionali
METADATI
EDW_ANONEDW_ANON
SERVIZI:
� Applicazione regole
business
� Realizzazione Data Mart
DATA STORED:
� Star Schema
EDW_PUBEDW_PUB
SERVIZI:
� Pubblicazione dati. Owner
Dati
DATA STORED:
� Data Mart
� Dati di dettaglio
EDW_GEOEDW_GEO
SERVIZI:
� Owner Dati Geo Spaziali
DATA STORED:
� Star Schema
F_STD_PUB
SERVIZI:
� Pubblicazione dati
Federalismo
DATA STORED:
� Star Schema
Altri Schema dedicati
SERVIZI:
� Altre viste sui dati
Big Data
Cluster
HADOOP
(HBASE)
(12 nodi)
Dashboard
Analisi
Statistica
Data
Discovery
Analisi
metodologica
Visual
Analytics
Output
Big Data & ETL
(6 TB)
Big Data & Hadoop & SNA
Clienti
->
Fornitori
Fornitori
->
Clienti
HDFS
MAPREDUCE
HADOOP 2 Nodi Virtuali:
- 4 Processori
- 4 GB Ram
• 7,2 GB di dati
• Circa 5,4 milioni
di nodi
• Totale relazioni:
140 milioni
Apache Giraph
Processo di MapReducing
Processo INPUT - Caricamento dati (archivi clienti e fornitori) su BigData (HDFS)
Filtro sugli archivi e utilizzo dei campi Imponibile, Identificativo contribuente, Identificativo cliente/fornitore, individuazione delle relazioni univoche (MAPPING)
Sorting delle relazioni più unione dei record con la stessa chiave (SHUFFLING)
Sulle relazioni univoche vengono effettuate delle operazioni di aggregazione (REDUCING), es. sommando gli imponibili o aggregazione delle categorie ATECO
Social Network – Attributi e Metrica
• Degree Centrality– Numero di connessioni dirette che un nodo possiede. E’ importante
avere un numero molto alto di connessioni.
– Nel nostro caso più è alto il numero di connessioni più è alto il numero di transazioni economiche (es. attività di tipo commerciale).
– Il risultato deve essere confrontato con il totale degli imponibili per soggetto.
– Questa può essere estesa ai grafi pesati, utilizzando la somma dei pesi delle relazioni.
),()(1
ki
n
ikD ppaPC
=
∑=
Social Network – Attributi e Metrica
• Betweenness Centrality– Misura la strategicità di un nodo nella rete tra (between) due
aree importanti della stessa. Un nodo con una elevata BC ha una grande influenza nel flusso di informazioni.
– Ad es. il fornitore/cliente unico di una determinata categoria merceologica o unicità di presenza nel territorio.
b
a
C d e f g h
Risultati
• Relazioni univoche tra codici Ateco, ogni relazione ripetuta è raggruppata ed eseguita la somma delle relative transazioni, la relazione viene intesa con una direzione specifica.
• Il primo Ateco è relativo al Cliente, il secondo Ateco è relativo al fornitore:
• Tempi:– Elaborazione eseguita in 6 min per 1 file di 7.12 GB con
147.000.000 record
– Risultato 1 file di 15.89 MB con 840.000 record
• Metriche calcolate:– In-Degree Out-Degree Page Rank
• Componenti connesse (sottoreti) Map-Reduce (30 minuti)
• Componenti connesse Giraph (10 minuti)
Best Practices
• Utilizzo di Hadoop per leggere e analizzare i file di dati.
• Sviluppare algoritmi MapReduce (R o Java) per contare il numero di edges associati ad ogni nodo:– degree.V <- mapreduce(edge.list, map=function(k,v)
keyval(v[2],1), reduce=function(k,v) keyval(k,length(v))) from.dfs(degree.V)[[1]]
• Utilizzare R o Java con algoritmi SNA o dei Grafi per effettuare analisi sui risultati ottenuti dal MapReducing
Bibliografia e strumenti
• http://www.cloudera.com
• http://hadoop.apache.org/
• http://graphstream-project.org/
• http://thinkaurelius.com/blog/
• http://blog.piccolboni.info/
• http://www.revolutionanalytics.com/
• http://mahout.apache.org/
• http://www.neo4j.org/
• Social Network Analysis Utilizing Big Data Technology -Jonathan Magnusson – Uppsala University
• Analisi della Dinamica della Centralità Commerciale Italiana – Andrea Accatoli