分享一个互联网金融反欺诈评分模型

从前些年爆炒大数据,到目前提到大数据许多业内的朋友都会报以不屑的表情,这源于数据,特别是原来的数理统计被过分的渲染,金融行业的发展,本质也是信息技术的发展,我始终相信科技进步的力量,也相信科技是可以不断改进金融的。

目前比较火的互金领域,简单的说,我认为互联网金融的本质在于互联网+投资理财,特别是P2P、众筹网站的资产端,究其实质仍然是小额信贷,传统的信贷风险管理一定程度上是适用于互金的。

最近几十年随着计算机技术的发展,也随着数据挖掘和机器学习的不断的发展,新的反欺诈和信用评分技术一直在不断进步,本文我会简单介绍一下目前投入生产环境的技术和手段,也算是对近期的工作学习做一个简单的总结。

事实上小额信贷风险管理,本质上是事前对风险的主动把控,尽可能预测和防范可能出现的风险。为了满足业务的需求,我们会使用大量数据,建立相应模型,衡量风险并尽可能避免逾期,一般通过对授信人个人状况、收入能力、负债情况进行数据挖掘,进行模型化综合度量,进而确定授信对象的额度,并确定一个合理的风险定价,使风险和盈利达到一个平衡的状态。

很明显,一般互金公司做的信贷业务(一般p2p公司都无法获得类似银行的优质债权)随着信贷业务不断发展,高端客户无法获取,必然面临授信群体向着普通人群甚至是高风险人群的渗透,必然导致客户质量的参差不齐。信用风险、欺诈风险等都随之迅速上升

如果依托传统的信贷技术,事实上只能对存量市场做精耕,但是如果能结合一些新的数据源(特别是一个人的网上记录包括社交、交易行为、消费习惯等),一来可以有效的降低风险,其次对新客的拓客有着意想不到的效果(啤酒和尿布)。所以数据挖掘在当前数据大爆炸的时代就具有举足轻重的作用,也成了业内竞争的强力武器,降低坏账逾期的重要手段。

说起来很简单,但任何的技术进步,无一不是通过一次次的试错完成的。一般而言,不管是任何一种欺诈,归根到底,都是通过欺诈性地申请实现的。反欺诈策略实质就是探讨挖掘和模型技术来预测欺诈的概率。为企业发现和拒绝欺诈性交易提供科学依据。

一个优秀的评分模型一定是基于统计分析技术的,可以准确和实时的进行风险评估,通过内部的模型更新增强对新的诈模式的适应能力,并通过分析各类人群的行为特征模式,利用先进的数理统计技术,进行深度的数据挖掘,不断修正风险决策模型,对审批、还款管理、催款等各个流程进行科学有效的管理,将风险控制在合理范围内。

据我所知,目前银行业对于信贷风险的常见评级方法之一是通过打分法来进行的。即基于业内长期经验,从众多风险的指标中选择若干指标,并对各个指标给予适当的权重水平,设定各个指标具体数值。进而将授信对象的具体数据代入评级体系中,分析各个指标的打分情况。

事实上,指标体系的设计本身是一个十分复杂的系统。在打分时,对于设定各指标权重大小以及每一项指标的分数并没有十分标准的依据,依靠经验确定指标的权重,参杂人为的经验,主观因素较突出,这种主观意见确定权重形成的评级办法在科学性与客观性方面都存在问题,影响了评级结果的准确性,在主观因素的引导下,加重了风险,也会造成不必要的损失。

这里要介绍另一种基于机器学习和算法的反欺诈评分模型,既神经网络模型。基于神经网络的评分模型在当前的数据挖掘过程中具有特殊的地位,它能够使模型在不断的学习中逐步成长。本文会大致介绍将神经网络的数据挖掘方法应用于小额信贷数据的过程,探索适用于互金的信用风险评判的模型。

神经网络是一种通过模仿人脑信息,类似于大脑神经突触联接的结构加工过程的智能化信息处理技术及进行信息处理的数学模型,与博弈论中的动态博弈很相似,具有自适应性、自组织性以及较强劲的稳健性,在应用过程中具有很强的鲁棒性和容错性,能够并行处理方法,具有自学习性。拥有自组织、自适应性和很强的信息综合能力等良好性能,能同时处理定量和定性的信息,能很好的协调多种输入信息关系,适用于处理复杂非线性和不确定对象,能成功的应用于多种不同的信息处理。

这里引用一张信用评分模型中的图说明


一个神经元可以有任意n个输入

我们将输入参数记作:x1, x2, x3, x4, x5, ..., xn

同样n个权重可表达为:w1, w2, w3, w4, w5 ..., wn

简单的说,激励值就是所有输入与它们对应权重的之乘积之总和

因此,现在就可以写为: y = w1x1 + w2x2 + w3x3 + w4x4 + w5x5 +...+ wnxn。

神经网络经过一系列的输入及加权计算,得到输出数据,即欺诈风险评分。

网络可以在真实的数据集环境中学习,通过不断地学习过程提高效率,交互式的调整其连接权重,每增加一次学习过程,网络对真实数据集的环境就更加了解一些,学习是一个过程,在此过程中,神经网络的参数会随着所处环境的变化自动进行调整。

当所有用于估计模型的训练集样本误差达到最小时,模型就建立了,即拟合成了神经网络模型,隐含的神经网络模型决定属性的分类规则。根据需求把新的属性转换为相应的数据代入模型,便可以得到所属的分类以及相应的概率。

最初神经网络具有结构较复杂、训练时间长、可解释性比较差等缺陷,所以在数据挖掘的分类技术应用中不是很被看好,但神经网络技术具有低错误率,能够承受噪声数据的能力,以及经过不断优化神经网络训练算法,尤其是不断完善很多网络剪枝算法和规则提取算法,使得神经网络算法在数据挖掘分类技术中的应用越来越被接受及认可。

当然,神经网络的信用评级模型是对现存的评级方法的一种改良,而非现存评级方法的完全替代,一个完备的评级体系既要避免主观的陷阱,也要避免统计的陷阱,因而神经网络模型本身是希望通过定量分析,为认为审核判断提供一定依据,而不仅仅依靠个人经验。

事实上我认为,由于神经网络的黑盒性质,从一定程度上牺牲了模型的可解释性,比之逻辑回归、决策树,解释性显得并不是特别的强等一些缺陷。

个人资料
机器小王子
等级:7
文章:34篇
访问:3.2w
排名: 8
推荐圈子
上一篇: 盘点互联网金融大数据公司十大模式:反欺诈、评分评级、数据银行
下一篇:一张表告诉你大数据风控哪家强
猜你感兴趣的圈子:
互联网+金融
标签: 神经网络、评级、欺诈、风险、评分、面试题
隐藏