Tecniche di Data Mining a supporto del fraud management

7

Click here to load reader

Transcript of Tecniche di Data Mining a supporto del fraud management

Page 1: Tecniche di Data Mining a supporto del fraud management

>> La sintesi contenuta in questo articolo deriva dal lavoro chel’autore ha svolto durante la preparazione del seminario sul data-

mining ed il fraud management tenutosi a Roma nell’auditorio diTelecom Italia il 13 Settembre 2011, grazie ad una lodevole iniziativa

di Stefano Maria De’ Rossi cui vanno i ringraziamenti dell’autore.Ulteriori approfondimenti sul tema del fraud management sonoconsultabili sui numeri 2, 3, 4 della rivista Information Security

Le tecniche di Data Mining asupporto del fraud management

Marco Scattareggia, laureato in Ingegneria Elettronica, lavora

a Roma presso la Hewlett-Packard Italiana dove dirige il Center of

Excellence di HP EMEA dedicato alla progettazione e realizzazione di

soluzioni di fraud management per gli operatori di telecomunicazioni.

Qualora l’articolo sia stato di interesse per il lettore, è possibile inviare

richieste di chiarimento e valutazioni di merito all’indirizzo e-mail

[email protected].

Information Security - n. 7 nov/dic 2011 scenari 53

RAGIONAMENTO INDUTTIVO, DATA MINING E FRAUDMANAGEMENTIl data-mining, ovvero lo scavare nei dati alla ricerca dell’oro della cono-scenza, consiste nella combinazione di più discipline tra cui la statistica in-ferenziale, la gestione informatica delle basi di dati e il machine learning.Quest’ultimo è lo studio dell’autoapprendimento robotico nell’ambito dellaricerca sull’intelligenza artificiale e per data-mining si intende l’estrarre dellaconoscenza da una grande massa di dati al fine di acquisire le regole chediano supporto alle decisioni e che determinino le eventuali azioni da in-traprendere. Nella lingua inglese questo concetto si esprime efficacementecon il termine Actionable Insight.Il data-mining copre un ampio campo di attività di analisi e in questo arti-colo si vogliono evidenziare i benefici che i processi di business, come ilfraud management, possono in particolare trarre dalle tecniche previsionali.Queste ultime, note come Predictive Analytics, si compongono di tre ele-menti:1. Grandi quantità di dati da analizzare e sufficienti a fornire dei campioni

rappresentativi per l’addestramento, la verifica e la validazione dei mo-delli predittivi;

Page 2: Tecniche di Data Mining a supporto del fraud management

2. Tecniche di analisi per la comprensione dei dati, delleloro strutture e del loro significato;

3. Modelli previsionali articolabili, come ogni processoinformatico, in termini di “input, process e output”;ovvero in parametri predittori, in algoritmi di calcolo ein obiettivi e risultati della previsione.

In aggiunta alle tecniche di analisi sono anche necessariadeguati strumenti e metodi per il caricamento, latrasformazione e la normalizzazione dei dati. Tali attivitàpreliminari sono evidenziate nelle prime fasi delparadigma KDD (Knowledge Discovery in Databases) esono generalmente presenti nei prodotti noti come ETL(Extract, Transform, Load). Se si visita il sitowww.kdd.org, si può capire come il data-mining possaconsistere effettivamente nella fase di analisi delprocesso interattivo per l’estrazione della conoscenza daidati illustrato in Figura 1.Essendo però interessati alle applicazioni pratiche deldata-mining in un contesto industriale, è utile esaminareanche la Figura 2 dove è riportata l’evoluzione delletecniche di business analytics. Si inizia con la sempliceattività di reporting, che fornisce una sintesi grafica deidati aggregati secondo le diverse dimensioni di interesseed evidenzia così le principali differenze e gli elementi dimaggiore interesse. La successiva fase di analysiscorrisponde all’attività di studio dei dati per capire“perché” è avvenuto un determinato fenomeno.Successivamente il monitoring corrisponde all’utilizzo distrumenti che permettono di controllare cosa stasuccedendo ed, infine, il predictive analytics permette distabilire cosa potrebbe o dovrebbe accadere in futuro.Ovviamente, va subito precisato che il futuro può esserepredetto solo in termini probabilistici e non ci sarà la

certezza del cento per cento su cosa accadrà veramente. In pratica viene fornito un ordinamento (ranking) suscala probabilistica dei possibili eventi in baseall’esperienza precedentemente accumulata. Taleordinamento, noto come attività di scoring, permette diassegnare in termini percentuali un valore, lo score, ilquale esprime la confidenza che abbiamo nellaprevisione stessa. Il livello di confidenza raggiunto cipermette di eseguire l’azione più consona alla previsioneeffettuata; ad esempio nel fraud management uno scoreelevato, corrispondente ad un elevato rischio di frode, epuò determinare il blocco automatico dell’erogazione delservizio (il prestito finanziario da parte di una banca, lalinea telefonica di un operatore, la coperturaassicurativa, ecc.), mentre uno score più moderatopotrebbe richiedere solo un supplemento di indagine daparte dell’analista. Questo articolo vuole mostrare come le applicazioni difraud management, inteso come processo di business,possano trarre evidenti benefici dalle tecniche di data-mining e dall’uso pratico dei modelli predittivi. È interessante evidenziare che le tecniche di businessanalytics derivano dalla statistica inferenziale e piùprecisamente dal ragionamento probabilistico di Bayes,ovvero dal porsi il problema di stabilire quali causehanno determinato l’effetto che è stato osservato. Ilteorema di Bayes sulla probabilità condizionata (teoremaper la probabilità delle cause) risponde alla domanda:“Sapendo che si è verificato l’effetto B, qual è laprobabilità che la causa sia A?”. In breve fornisce laprobabilità della causa dato l’effetto. Ad esempio sul numero 4 di Information Security,pubblicato a Maggio/Giugno 2011, nell’articolo “Come

realizzare un Modello Predittivo” è statomostrato il modo di calcolare laprobabilità di acquisto che un impiegatoesperto assegna ad ogni avventore inbase al genere della persona, uomo odonna, ed in base al fatto che lapersona sia vestita in modo più o menoricercato. Si può ora constatare che,durante la costruzione del modellopredittivo “l’effetto” (acquisto positivo oacquisto negativo) è noto, mentre è “lacausa” ad essere oggetto di studio erichiedere una valutazioneprobabilistica. In tale fase di analisi i

54 scenari Information Security - n. 7 nov/dic 2011

Figura 1

Page 3: Tecniche di Data Mining a supporto del fraud management

ruoli sono invertiti: dato l’effetto si cerca la causa. Nellasuccessiva fase esecutiva i ruoli di causa ed effettoriprendono la loro sequenza naturale: data la causa siprevede l’effetto che ne deriva. In altre parole, nel modello previsionale, il sesso sicomporta da “predittore”, mentre l’acquisto, nel suoattributo di positivo o negativo, diventa “l’oggetto”(Target) da indovinare. La fase di analisi, durante la quale i ruoli “causa edeffetto” sono invertiti, è indicata nelle tecniche diPredictive Analytics come “addestramento” (training) delmodello. Di seguito, in Figura 3, è riportata la tabella dicontingenza con dei valori esemplificativi delle probabilitàda utilizzare nel teorema di Bayes per calcolare laprobabilità di acquisto per un uomo o una donna. Inaltre parole, si vuole prevedere la probabilità di acquisto(“effetto”) conoscendo il sesso dell’avventore(“causa”). È come dire che avendo analizzatola storia degli acquisti diversificati sulla basedel genere delle persone ed avendo potutocalcolare la probabilità della causa (“sesso”)condizionata da un specifico effetto(“acquisto”), si può utilizzare un modelloprevisionale basato sul teorema di Bayes perprevedere la probabilità di un futuro acquistouna volta che si disponga del sesso dellapersona.Il teorema delle probabilità delle cause diThomas Bayes è ampiamente impiegato perprevedere quali cause hanno maggioreprobabilità di aver scatenato l’evento

osservato. Tuttavia è stato Pierre-Simon Laplace aconsolidare, nel suo “Essai philosophique sur lesprobabilités (1814)”, il sistema logico che è alla base delragionamento induttivo e che oggi indichiamo comeragionamento bayesiano.La formula che emerge dal sistema di Laplace è la“regola delle successioni”. Supposto che gli esiti di unfenomeno siano solo due, “successo” e “fallimento” esupposto che “a priori” si sappia poco o nulla di comevenga determinato l’esito dei risultati, Laplace derivò ilmodo per calcolare la probabilità che il successivo esitosia un successo:P = (s+1)/(n+2)dove “s” è il numero successi precedentemente osservatie “n” il numero totale dei casi noti. Laplace si spinse adutilizzare la sua regola delle successioni per calcolare laprobabilità del sorgere del sole ad ogni nuovo giorno,basandosi sul fatto che fino ad oggi tale evento non siamai fallito. Ovviamente fu fortemente criticato dai suoicontemporanei per questa sua irreverenteestrapolazione. L’obiettivo della statistica inferenziale è fornire i metodiche servono ad imparare dall’esperienza, cioè a costruiremodelli per passare da casi particolari al caso generale.Ma la regola delle successioni di Laplace, come anchetutto il sistema del ragionamento induttivo Bayesiano,può portare a dei clamorosi errori. Le insidie insite nei ragionamenti sulle probabilità sonomesse in evidenza dai cosiddetti paradossi che pongonodomande le cui giuste risposte appaiono fortementeillogiche. Il filosofo Bertrand Russell mise, ad esempio, inevidenza che cadendo dal tetto di un palazzo di venti

Information Security - n. 7 nov/dic 2011 scenari 55

Figura 2

Figura 3

Page 4: Tecniche di Data Mining a supporto del fraud management

piani quando si è arrivati all’altezza del primo piano sipotrebbe erroneamente dedurre con la regola dellesuccessioni di Laplace che, non essendo successo nulladi male durante la caduta per ben 19 dei 20 piani, non cisia alcun pericolo anche nel ventesimo tratto di caduta.Russell concluse pragmaticamente che il ragionamentoinduttivo non deve solo portare ad una maggioreprobabilità, ma anche essere “ragionevolmentecredibile”. Un ulteriore esempio spesso utilizzato per dimostrare ilimiti del procedimento logico induttivo è il “paradossodei corvi neri” sviluppato negli anni ’40 da Carl GustavHempel. Esaminando, ad uno ad uno, un milione dicorvi, notiamo che sono tutti neri. Dopo ogniosservazione, perciò, la teoria che tutti i corvi siano neridiviene sempre più probabilmente vera, coerentementecol principio induttivo. Ma l’assunto “i corvi sono tuttineri”, se isolato, è logicamente equivalente all’assunto“tutte le cose che non sono nere, non sono corvi”.Questo secondo enunciato diventerebbe piùprobabilmente vero anche in seguito all’osservazione diuna “mela rossa”: osserveremmo, infatti, una cosa “nonnera” che “non è un corvo”. Ma l’osservazionedi una mela rossa, se presa per rendere piùvero l’assunto secondo cui tutti i corvi sononeri, non è consistente e non èragionevolmente credibile. Bertrand Russellargomenterebbe che se la popolazione di corvinel mondo comprende in totale “un milione piùuno” esemplari, allora la deduzione “i corvisono tutti neri” è da ritenere ragionevolmentegiusta, ma se invece si dovesse stimarel’esistenza di “cento milioni” di corvi allora ilcampione di un solo milione di corvi neri nonsarebbe più sufficiente. È sulla base di questa “risposta di Russell” chesi fondano i presupposti per poter adottare

nella pratica le previsioni fornite dai modelli predittivi edutilizzarle per prendere le decisioni di business. Nello scegliere i campioni di dati per l’addestramento, iltest e la validazione di un modello predittivo, occorreformulare due domande fondamentali: a) Le regole che costituiscono l’algoritmo del modello

sono consistenti con le caratteristiche delle entitàindividuali che compongono il campione?

b) I dati del campione sono rappresentativi dell’universodella popolazione di soggetti che si vuole sottoporrealle previsioni?

Le risposte a queste due domande derivanorispettivamente dai concetti di validità interna e divalidità esterna di uno studio statistico inferenziale comeindicato nella Figura 5. La validità interna misura quantoi risultati del modello e dell’analisi effettuata sono correttiper il campione delle entità che sono state studiate epuò venire compromessa dalla variazione nonperfettamente casuale dei dati che agisce come rumoreed elemento di disturbo (bias). La validità internarappresenta una condizione necessaria ma nonsufficiente perché un modello sia utilizzabile e si deveverificare anche la validità esterna e cioè il grado digeneralizzazione acquisita dal modello predittivo. Quando il modello non ha prodotto delle regole cheabbiano generalizzato a sufficienza è probabile chedurante la fase di training abbia semplicemente“memorizzato” (overfitting) la maggior parte dei datipresenti nel campione utilizzato per il suoaddestramento, ma non abbia efficacemente imparatodai dati ovvero estratto la conoscenza custodita nei datistessi. In questa situazione il modello non sarà in grado

Figura 4

56 scenari Information Security - n. 7 nov/dic 2011

Figura 5

Page 5: Tecniche di Data Mining a supporto del fraud management

di processare con successo i casi presenti nei campioni ditest e di validazione. Ciò supponendo che i dati presentinei campioni di test e validazione siano correttamenteseparati e non sovrapponibili a quelli del campione ditraining; si noti come sia preferibile usare un terzo set didati, in aggiunta al normale campione di test, con cuivalidare ulteriormente la generalizzazione del modellorispetto sia ai dati contenuti nel campione diaddestramento sia in quello di test. Le tecniche di predictive analytics aiutano a prenderedecisioni una volta che sono stati classificati ecaratterizzati i dati di un certo fenomeno. Altre tecniche,come l’OLAP (On-Line Analytical Processing), aiutanocomunque a prendere decisioni perché permettono divedere cosa sia successo. Tuttavia un modello predittivofornisce direttamente la previsione di un fenomeno, nestima la dimensione e quindi si presta ad azionare degliautomatismi. Un’ulteriore possibilità resa disponibile dall’utilizzo delletecniche di predictive analytics è la separazione e laclassificazione degli elementi appartenenti ad un insiemenon omogeneo. L’esempio più comune per questo tipo diapplicazione è quello dei clienti da indirizzare inun’azione di marketing per decidere a chi mandare unaproposta commerciale con la ragionevole probabilità diottenere una risposta positiva e, a ragione, in questi casisi può parlare di business intelligence. Tale tecnica, notacome “clustering”, è utile anche nel Fraud Managementperché permette di rendere più mirata l’azione deimodelli predittivi; infatti è possibile, sin dalla fase diaddestramento del modello, suddividere la massa deidati in sottoinsiemi omogenei e rendere quindi ilcomportamento attuato negli schemi di frode piùfacilmente prevedibile. Peraltro, l’individuazione disottoinsiemi con parametri particolarmente distanti daivalori medi, detti out-layer, porta direttamenteall’individuazione di casi che hanno una forte probabilitàdi frode e che quindi richiedono un’investigazione piùapprofondita.

IL DILEMMA DEL FRAUD MANAGER

Il desiderio di ogni organizzazione, che sia consapevoledelle perdite di ricavi dovute alle frodi, è ovviamentequello di azzerare tali perdite. Purtroppo ciò non èpossibile a causa sia di problemi intrinsecamenteconnessi con il fenomeno frodatorio, legati

principalmente alla rapida reazione delle organizzazionicriminali che ne traggono profitto e che trovanorapidamente nuovi schemi di attacco e nuove debolezzenei sistemi di difesa, sia perché anche il contrasto dellefrodi ha un costo che cresce proporzionalmente al livellodi difesa messo in atto. La Figura 6 mostra graficamenteche, senza sistemi di contrasto, le perdite per frodipossono raggiungere livelli molto elevati, dell’ordine dioltre il 30% dei ricavi totali, e potrebbero anche metterea rischio la sopravvivenza stessa dell’azienda. Attivandoun’adeguata organizzazione di fraud management,fornendosi cioè di un responsabile e di una squadra dicontrollo dotata di un’opportuna infrastrutturatecnologica, le perdite scendono immediatamente a livelliaccettabili dell’ordine di poche cifre percentuali. Tuttavia,nel tentativo di azzerare completamente le frodi sipossono introdurre facilmente dei costi così elevati, intermini di personale e di strumenti, da superarel’ulteriore riduzione delle perdite. La competenza del fraud manager deve permettere diindividuare il punto ottimale di compromesso tra i costidella sua struttura e le perdite dovute alle frodi residue,indicato con il colore rosso nella Figura 6. La maggioredifficoltà però non sta nel riuscire a dimostrare allapropria linea di management quanto valgano le frodiresidue, ma nello stimare le perdite già evitate conl’attività precedentemente eseguita dalla propria squadradi analisti. In altre parole non è assolutamente facilevalutare la dimensione e le conseguenze delle frodi che“non” sono state messe in atto.Per approfondire questo tema e capire come calcolare ilROI di un FMS, si può far riferimento all’articolo “Ritornosull’Investimento di un FMS” pubblicato a marzo/aprile

Information Security - n. 7 nov/dic 2011 scenari 57

Figura 6

Page 6: Tecniche di Data Mining a supporto del fraud management

sul numero 3 di Information Security. Tecnicamente ènecessario scegliere degli adeguati KPI (KeyPerformance Indicator) e misurare sia il valore delle frodiindividuate in un determinato periodo sia di quelleresidue nello stesso periodo. Nella Figura 7 sono rappresentati gli andamenti dei KPInoti come precision (percentuale delle frodi accertate sultotale di frodi analizzate) e recall (percentuale di frodiindividuate sul totale di frodi esistenti). Desiderandoraggiungere il punto ideale per il quale si avrebberocontemporaneamente una precision ed una recall del100%, si possono fare vari tentativi per migliorare l’unoo l’altro KPI. Ad esempio si può aumentare il numero dicasi di sospetta frode analizzati giornalmente (aumentodi recall), a cui però corrisponde un maggior numero diore di lavoro degli analisti. Viceversa, si può pensare diconfigurare con maggiore precisione l’FMS per diminuireil numero di casi da analizzare e allo stesso tempoeliminare i falsi allarmi che consumano inutilmente iltempo degli analisti. Nella pratica si dimostra però che, se non si aumenta ilcontenuto informativo in termini di regole per glistrumenti di analisi, chiavi di ricerca, ecc., all’aumentaredella precision si riduce contemporaneamente lapercentuale di recall e viceversa.La problematica sin qui esposta corrisponde al dilemmache affligge ogni fraud manager, esprimibile nel fatto chenon si possono migliorare i risultati della lotta alle frodi

senza aumentare contemporaneamente icosti della relativa struttura, oppure senzaaumentare le informazioni messe adisposizione. È quindi necessario andareincontro ad almeno una di queste dueesigenze, costi o informazioni, epossibilmente migliorarle entrambe. I modelli predittivi si prestano a migliorarel’efficacia e l’efficienza del reparto di fraudmanagement. Infatti, con le tecnicheinduttive proprie degli alberi decisionali èpossibile estrarre dai dati nuove regole perl’individuazione dei casi di frode e ciòmigliora l’efficacia del FMS. Inoltre, con letecniche di scoring diventa più sempliceorganizzare le risorse umane disponibili sullabase della priorità, ovvero del rischioassociato a ciascun caso di sospetta frode;

in tal modo si può migliorare l’efficienza dellavoro ed è anche possibile abilitare meccanismiautomatici da utilizzare durante le ore notturne e inassenza di personale. Nella Figura 8 è tracciata in blu la curva di guadagno(gain chart) ottenuto grazie ad un modello predittivo cheha fornito un’elevata qualità di scoring. Il puntoevidenziato nella figura mostra infatti che dopo averesaminato solo il 20% dei casi, sono già state individuateil 90% dei casi di vera frode risparmiando in modosignificativo il tempo degli analisti. Ciò incontrapposizione ad un’analisi dei casi che segua unordine casuale quale quello indicato dalla diagonaleprincipale. La linea rossa indica invece il percorso ideale, che è

58 scenari Information Security - n. 7 nov/dic 2011

Figura 7

Figura 8

Page 7: Tecniche di Data Mining a supporto del fraud management

praticamente irraggiungibile ma a cui è giusto tendere,secondo il quale tutti casi di vera frode sono esaminatiper primi senza aver perso tempo ad esaminare ancheun solo falso allarme. È interessante notare come questasituazione ideale corrisponda ad avere entrambi i KPIprecision e recall uguali al 100% e quindi ad un modelloche abbia raggiunto il punto ideale evidenziato in Figura7. Per un’analisi completa sulla valutazione di un modellopredittivo si può fare riferimento all’articolo “Valutazionedelle capacità predittive di un FMS” pubblicato afebbraio/marzo sul numero 2 di Information Security.

REALIZZAZIONE DI UN MODELLO PER LOSCORING DEI CASI DI FRODE NELLETELECOMUNICAZIONI

Nella Figura 9 è rappresentato lo schema concettuale diun modello predittivo per lo scoring dei casi di frode inun’azienda di telecomunicazioni. In tale rappresentazionel’algoritmo che costituisce il nucleo del modello èrappresentato da una “rete neurale”, ma lo schema noncambierebbe se si scegliesse un diverso algoritmo come,ad esempio, un albero decisionale, una rete di Bayes, ecc.Gli allarmi ed i casi generati dal FMS derivano daaggregazioni o da altre elaborazioni delle informazionicontenute nei dati provenienti dall’esterno ed inparticolare in quelli del traffico. Quindi, se laconfigurazione del FMS e le sue regole sono ben curate,si può supporre che le informazioni provenienti daltraffico siano già rappresentate, nell’ambito delfenomeno frodatori, dagli allarmi e dai casi. In generale,tutti i dati di input possono essere trasformati e sostituiticon altri parametri derivati.Tutti i parametri di input, sia quelli originali sia quelliderivati tramite FMS oppure derivati da trasformazionirealizzate all’interno del modello predittivo, concorrono inuna sorta di gara per essere eletti a predittori delmodello, cioè ad input direttamente in ingresso al nucleoalgoritmico del modello previsionale che è evidenziatonel riquadro in blu scuro della figura. L’output del modello predittivo è semplicemente il valoredi score associato al caso in esame. Tale valore esprimeuna percentuale e quindi varia tra zero e cento, ovverotra zero ed uno, ed esprime la probabilità che il caso siauna vera frode, quando lo score è 100, oppure un falsoallarme se lo score è prossimo allo zero.

L’inserimento di un modello predittivo nel contestooperativo dell’azienda ha un impatto significativo sullastruttura esistente di IT e la sua integrazione puòrichiedere molti mesi di lavoro per lo sviluppo di softwaree di processi personalizzati. Tuttavia, recentemente losviluppo di Internet e dei web services, ovvero gliemergenti paradigmi del cloud computing e della venditadi soluzioni in modalità SaaS, ha aperto la strada ad unpiù facile passaggio in produzione dei modelli predittivo.La comunità di data-mining, rappresentata nel DataMining Group (DMG), ha sviluppato recentemente unnuovo linguaggio, il PMML (Predictive Model MarkupLanguage) che è destinato a diventare la “lingua franca”,parlata da molti fornitori e sistemi concorrenti, per ladefinizione ed utilizzo pratico di un modello predittivo. Il PMML, che è basato sullo standard XML, fornisce tutti imetodi e gli strumenti per definire, verificare e poimettere in pratica i modelli predittivi. Ciò senza che ilmodello sia necessariamente sviluppato ed eseguito daprodotti software dello stesso fornitore. Tutte ledefinizioni e le descrizioni necessarie per comprendere ilPMML sono disponibili sul sito del DMGhttp://www.dmg.org/.In conclusione il PMML, essendo standard e open, secombinato con un’offerta di cloud computing puòabbassare drasticamente il TCO (Total Cost ofOwnership) abbattendo le barriere di incompatibilità tra idiversi sistemi dell’infrastruttura informatica già operativinell’azienda. Per di più, l’inserimento del modello nelcontesto operativo delle applicazioni può essere curatodirettamente dalle stesse persone che lo hannosviluppato, senza cioè coinvolgere pesantemente i tecnicidel reparto di IT. Per un approfondimento sulla realizzazione dei modellipredittivi si rimanda all’articolo “Come realizzare unModello Predittivo” pubblicato a maggio/giugno sulnumero 4 di Information Security. �

Information Security - n. 7 nov/dic 2011 scenari 59

Figura 9