2017年,从两会到银监会6号文件再到习主席在中共中央政治局第四十次集体学习的讲话,金融安全、金融风控都被高度关注。除了宏观调控、政策监管、治理改革等手段,维护金融安全与稳定外,在互联网快速发展和鼓励金融科技创新的今天,确保“风险防控耳聪目明”也是每个金融机构的当务之急。
近几年,网络、移动支付无比便捷,但同时,金融机构和广大消费者也面临着金融诈骗高发的威胁。无论是利用信用卡、网络、移动端进行利用“新型手段”进行金融欺诈的行为时刻危害着国家和民众的财产安全,对于银行也造成了无法挽回的损失。
近几年,每年仅信用卡诈骗就发生了上万起,信用卡诈骗案件数量已经占到了经济案件的四分之一,使得银行损失数百亿元,挽回损失非常困难。
面对猖獗的金融欺诈,如何借助人工智能、大数据技术,在新型模式下,高效、准确地应对金融行业中从线下到线上,从单点到海量并发,从人工到自动化程序化各方面进行的欺诈升级,提高整体反欺诈能力,对于每个金融机构也势在必行。
2016年,全国各大银行信用卡业务增长迅速,该大型国有商业银行信用卡中心在2016年发卡量突破五千万张,全年累计消费额达人民币近两万亿元,同比增长20%。面对如此庞大的信用卡数量,作为信用卡中心,每天需要面对数千万的用户行为数据以及数亿元成交金额,这样的银行业信用卡业务是个典型的大数据场景,每天产生的交易数据数量规模巨大,且具有数据类型多样、流动速度快、价值密度低等特点。
如何利用大数据工具从海量的数据中准确且高效地撷取、挖掘和分析出欺诈等行为特征,在欺诈发生前及时预警,是目前信用卡业务风险行为实时监测的难点之一。另一方面,目前的信用卡业务监测系统一般基于传统数据库架构,即先将交易数据存储于数据库中,然后建立索引对数据进行分析查询,这样的架构不能对可疑事件进行及时响应,不具有实时性。
如何以“流”的形式处理银行交易产生的海量数据,并基于事件驱动,实时地做出响应,是目前信用卡监测系统的另一难点。
面对两大难点,明略数据为某大型国有商业银行信用卡中心提供了电子渠道实时反欺诈交易监控系统,在分布式架构下引入流式处理技术,实时处理海量交易数据,分析欺诈行为特征,利用机器学习进行自动完善的欺诈规则体系实时为消费者的检测每一个异常行为,利用大数据实现信用卡交易的反欺诈升级。
周期/节奏
2016年5月开始进行需求分析,经历了软件开发、测试等准备,于2016年10月底投产,并于年底正式上线。
客户名称/所属分类
某大型国有商业银行信用卡中心/风控
任务/目标
本项目实时接收电子渠道交易数据,整合系统其他业务数据,通过规则实现快速建模、实时告警与在线智能监控报表等功能。总体要求能实时接收官网业务数据,整合客户信息、设备画像、位置信息、官网交易日志、浏览记录等,通过规则实现快速建模、实时告警与在线智能监控等功能。
●系统维度目标,集成卡中心Hadoop大数据平台,搭建适应大数据流式处理分析场景的数据处理平台,满足卡中心用户行为分析、风控、反欺诈等急速增长的各类实时数据应用需求;
●数据维度目标,实时对接并处理现有的官网数据,以及其他整合客户信息、设备画像、位置信息、官网交易日志、浏览记录等各类生产数据源。完成在官网日志、非金宽表、消息队列间实现数据的无缝流转,实现多系统内标准的批量或实时数据同步接口;
●业务维度目标,重点满足卡中心通过规则实现快速建模、实时告警与在线智能监控报表等大数据应用需求,以更好地支撑异常行为分析、反欺诈等业务的开展,从而有效的对愈趋复杂的非金融类交易进行更加高效和实时的监控。
挑战
随着卡中心移动互联应用的深入推广,互联网欺诈也愈趋严重。面对这样的情况,为有效防范互联网欺诈风险,卡中心迫切需要一个利用分布式实时数据处理技术,能容纳TB级数据、高流量场景下具备低延迟时效性的实时监控交易系统,从而有效的对愈趋复杂的网络欺诈进行高效和实时监控。
对于这样一个系统,需要非常强大的技术经验与积累,作为刚刚成立两年的大数据公司,在大数据技术尚在探索阶段的技术发展时期,利用Hadoop+Spark的分布式技术,迅速熟悉纷繁复杂的金融业务及数据,并结合客户现有的数据和平台情况,进行开发。开发时间短、任务重,但最后仍旧成功的圆满完成了客户的需求,并得到了客户的高度认可。
实施过程/解决方案
随着国内信用卡中心移动互联应用的深入推广,互联网欺诈也愈趋严重。因此,采用一套利用分布式实时数据处理技术,能容纳TB级数据、高流量场景下具备低延迟时效性的实时监控交易系统,就成为了迫切的需求。
本次解决方案引入大数据流式处理相关技术,并充分结合卡中心当前的数据处理架构,提出了一套切实可行的技术服务方案。
一、引入流式处理技术的必要性
过去的几年,信用卡行业发生着剧烈的变化。互联网的普及、社交网络化的深化以及移动互联网的快速发展,使得信用卡业务在大数据时代充满挑战的同时,也看到了蕴含的信息价值。
大数据相关技术方面,具有代表性的是Apache开发的Hadoop和谷歌2004年提出的MapReduce,两者在处理非结构化数据、大规模并行处理和简单应用方面的优势,然而MapReduce无法满足实时计算方面的要求,因为它是一种离线计算框架。
流式大数据处理是一种新兴的数据处理技术,其理论雏形起源90年代的主动数据库研究。由于金融系统数据的数量和速度方面的要求,以及金融交易的复杂性和实时性方面的要求,充分显示了流式大数据处理在该行业应用的机会,其在信用卡中主要应用在以下几个场景:欺诈发现,包括信用卡欺诈、套现、洗钱以及各种其他交易违规行为等。
Apache Spark是目前最为通用的流式大数据处理解决方案,它是一个开源的,通用的分布式集群计算引擎,能够帮助用户简单的开发快速,统一的大数据应用,对数据进行,协处理,流式处理,交互式分析等等。Spark提供了一个快速的计算以及近交互式查询的框架。
相比于Hadoop,Spark拥有明显的性能优势。除了数据分析,Spark还能够支持数据挖掘。无疑Hadoop+Spark是解决互联网渠道海量并发行为数据的毫秒级实时响应分析难题的最佳技术组合。
二、明略数据电子渠道实时反欺诈交易监控系统技术实现
1.实时反欺诈交易监控系统解决方案架构
面临每秒高并发的大量交易数据、网络行为数据、非金决策数据,明略数据需要帮助客户建议一套拥有迅速丰富反欺诈的数据来源和监控模型,快速、高效对数据进行多重处理分析,建立数百个实时反欺诈规则及模型,结合当前用户特征数据实时识别欺诈风险,完善风控链条,将风控前移。
本项目中利用采用Hadoop+Spark分布式的大数据存储与计算框架,能方便的支持集群资源的横向扩展,即通过增加服务器数量的方式提升集群的数据存储容量,同时近乎线性的提高计算性能。
图1:明略数据电子渠道实时反欺诈解决方案框架
基于对客户的数据进行分析、研究,结合对业务的深入立即和对客户的需求分析,明略数据为客户提供整体反欺诈方案设计思路,整个系统逻辑上可分为四个层次,即:源数据层、数据接入层、实时计算引擎及决策层和数据服务层。
其中,数据接入层、实时计算及决策层和数据服务层构建于Hadoop企业版的大数据基础平台,使用了包括Flume、Hbase、Kafka、Sentry、Spark Streaming、Sqoop、ZooKeeper等各类常用的大数据开发组件,为整个解决方案提供底层的大数据的接入、数据存储、处理技术支持。
●在源数据层,有海量不同系统的数据,包括官网日志、CIM数据和非金决策数据需要数据需要同步介入大数据平台,从而实现了卡中心非金交易数据实时监控。由Flume将官网行为数据实时介入大数据平台,完成所需数据快速、实时接入。
●在数据接入层,系统接收源数据层数据,并根据每种数据源的特性和实时监控需求,采用不同的处理策略。同时,数据接入层还提供必需的数据质量检查、数据清洗等工作,保证后续实时计算的正确性。
●实时计算引擎及决策层该功能模块包括实时衍生变量计算子系统、实时决策子系统。两个系统分别对将实施衍生字段计算结果以及规则进行管理。
●在数据服务层,该模块主要提供外围系统交互、报表、MIS系统数据导出、催反交易监控及催反案调系统数据对接等功能。
●在管理层,通过对用户管理和运维管理保障集群运维人员账号间的安全、无干扰及权限分明,以及保证了数据平台的易维护性,更加直观、可视化的将整个集群状况展现出来,在提供方便、快捷的针对集群运维管理操作的同时,报警和日志功能有效帮助运维人员及时发现和定位、解决问题,保障数据平台高可用。
2.技术实现:“在线实时决策+离线机器学习”实现高效实时反欺诈
区别于传统渠道,信用卡线上渠道的特点是在使用、交易阶段进行用户身份真实性核实变得非常困难,同时线上渠道会产生高并发、海量、非结构化、多维度的数据,无论从业务角度还是技术角度对于银行的反欺诈能力都提出了更高的要求。
如何有效使用线上渠道产生的海量数据,如何基于大数据方法防控线上渠道的欺诈风险,如何利用新型技术架构解决海量、实时的问题,如何通过机器学习手段缩短反欺诈模型升级周期,这些都是银行迫切需要解决的问题。
明略数据通过“在线实时决策+离线机器学习”结合的解决方案,可以实时监测海量数据,有效避免线上业务中潜在的如信息泄露、冒名、盗刷等欺诈风险,最大限度的监测和防范线上反欺诈行为的发生。
同时,利用机器学习,根据实时检测的数据对欺诈规则库进行优化,离线迭代规则,通过对历史行为与实时行为对比,对规则进行离线学习、管理,
在线实时决策
大数据流式处理是一种新兴的数据处理技术,以“流”的形式处理交易产生的海量数据,并基于事件驱动。利用Hadoop分布式架构及Spark分布式集群计算引擎结合,可以快速、高效地对数据进行协处理、流式处理、交互式分析等。
实时根据反欺诈规则库的规则,以及当前用户的特征数据,判断是否存在欺诈风险以及欺诈风险等级,向银行交易监控系统、处置系统输出决策结果。
图2:实时反欺诈技术框架
基于大数据平台存储的历史数据和计算能力,批量处理数据并存入NoSQL数据库,同时利用Kafka接入交易数据、行为数据等,通过流式处理技术,结合规则引擎,实时、统计和分析客户特征,发生异常,及时进行报警输出。
基于Spark内存计算引擎,在获得流式的数据采集后,即能开始按照需求进行变量运算并更新相应的结果。
离线机器学习
明略数据同样基于Spark架构的数据挖掘和机器学习平台,离线构建规则自学习模型,在实时检测异常行为的同时,记录欺诈相关数据,并进行数据清洗以及算法优化建模,从而建立有监督风险特征识别模型。
利用LPA/MRF半监督机器学习模型等方式进行特征抽取、变化,更新规则库,帮助风控人员及时发现新型欺诈行为并产生对应的反欺诈规则,同时,提供整体反欺诈解决方案的资源管理和运维保障。
图3:明略数据离线分析建模流程
三、实时反欺诈交易监控流程
明略数据通过Hadoop+Spark结合建立实时反欺诈系统,通过整合连接卡中心全量电子渠道用户行为数据接入大数据平台,并进行实时反欺诈分析,迅速识别欺诈风险。通过系统API,连接银行体系现有系统,及时维系民众及银行的财产安全,提前预见风险。
图4:明略数据实时反欺诈流程
1.连接全量电子渠道用户行为数据
对信用卡电子渠道全行为数据进行整合,包括实时官网数据、非金宽表数据和日批数据,全方位覆盖,登录,查询,密码,转账,支付等行为,并采用分流技术架构,利用旁路数据通道保障业务。
2.识别欺诈风险
利用分布式架构及流式处理技术建立实时反欺诈引擎,通过实施变量衍生计算子系统,提供实时衍生字段模板管理、衍生字段计算函数库管理、衍生字段配置、衍生字段计算引擎、衍生字段计算结果更新等功能,并通过实时决策子系统规则模板管理、规则库管理、规则配置、规则决策引擎、规则匹配告警、黑白灰名单更新等功能。
进行海量、高并发、实时的电子渠道交易行为的欺诈行为检测。结合离线机器学习,迭代反欺诈规则,更及时、高效地发现欺诈行为。
图5:明略数据实时反欺诈思路
3.对接银行现有系统
友好的API设计完美对接银行客户现有反欺诈体系和业务系统,包括预警系统、客服系统、案件调查系统、交易监控系统等。
四、明略数据实时反欺诈交易监控系统实例
信用卡线上交易场景下的数据种类多样,类别繁杂,明略数据通过实时和批量采集数据,整合多系统也如数据,并同步至反欺诈数据平台,通过流式处理技术对数据进行处理并通过反欺诈规则进行实时的帮助信识别恶意用户和欺诈行为,并实时预警和处置。
图6:明略数据行为数据收集与规则展现
明略数据成功通过为该行卡中心构建反作弊模型、实时计算、实时决策系统,帮助拥有数十TB历史数据,日均增逾两千万条日志流水的国有商业银行卡中心建立电子渠道实时反欺诈交易监控系统。
明略数据利用分布式实时数据采集技术和实时决策引擎,帮助信用卡中心高效整合多系统业务数据,处理海量高并发线上行为数据,识别恶意用户和欺诈行为,并实时预警和处置,通过引入机器学习框架,对海量数据进行分析、挖掘构建并周期性更新反欺诈规则和反欺诈模型。
图7:明略数据实时反欺诈交易监控系统数据展现
结果/效果总结
作为国内首家在成立之初即引入外部先进技术及管理经验的卡中心,该银行信用卡中心目前已发展为领先的信用卡发行品牌,2016年累计发卡量逾五千万张,全年累计消费额达人民币近两万亿元,均居行业前茅。
在交易额与数据量如此巨大的情况下,明略数据反欺诈系统上线后,运转稳定、高效,迅速监控电子渠道产生的虚假账号、伪装账号、异常登录、频繁登录等新型风险和欺诈行为:系统7*24小时稳定运行,日均处理逾两千万条日志流水、实时识别出近万笔风险行为并进行预警下发.
相较卡中心传统的处理架构,数据接入、计算报警、案件调查的整体处理时间从数小时降低至秒级,监测时效提升近3000倍,上线3个月已帮助卡中心挽回数百万元的风险损失。
明略数据为大型国有商业银行信用卡中心提供了基于大数据分布式流处理技术的实时反欺诈解决方案,完全满足卡中心各项功能要求与性能指标,也充分证明了明略数据深入了解银行业务并将技术与业务熟练结合,利用大数据技术助力银行反欺诈升级的商业价值与技术价值。
1.方案引入先进的Hadoop+Spark技术,解决了互联网渠道海量并发行为数据的毫秒级实时响应分析难题,帮助金融机构IT平台向更开放的分布式处理架构演进,轻松应对互联网+时代的大数据处理场景;
2.方案融入了明略数据在互联网风控反欺诈领域的最佳实践经验,在金融交易流水数据的基础上综合利用网络行为日志等新数据,通过构建领先的风险决策引擎提升传统风控业务对风险全景分析和实时预警的能力,助力更安全地向互联网金融业态转型创新;
3.开启了国内金融机构大数据应用领域的新阶段,逐步从离线的存储查询向在线的实时分析处理升级,既顺应了金融业务互联网化的发展趋势,也为金融机构发掘出了可靠且有效的大数据业务价值。
企业介绍:
明略数据是一家具有自主知识产权的中国大数据科技公司。深入大数据智能挖掘,致力于将领先的大数据技术商业化,通过不断地实践和积累,实现各行业的知识图谱建设,促进行业人工智能发展,成就客户价值。
明略数据以自主研发的大数据及人工智能技术,帮助银行、保险、券商、基金等金融机构规划和建设智能大数据管理体系,已成功为金融客户设计并实现了电子渠道实时反欺诈、信贷行业风险分析、客户画像和精准营销等数据系统,并得到了行业标杆客户的高度认可。
明略数据深入金融行业,凭借大数据科学家丰富的金融领域知识积累,以自主研发的安全大数据平台MDP为基础,围绕关联分析挖掘产品SCOPA和分布式数据挖掘系统DI,洞察数据背后的关联关系、挖掘数据中的业务价值、构建金融体系的知识工程,形成垂直领域的行业人工智能。
明略数据利用行业人工智能点亮金融科技,提高金融行业风险防范与精准营销的业务效率,帮助金融从业人员成为更智慧的金融行业专家。