风控中的大数据和机器学习-k6k4.com

作者：顾鸣

1. 风控的意义

何为风控?字面含义就是对于风险的控制从而使财务不受到损失。对于任何一家金融机构(包括银行，小贷，P2P等)来说，风控的重要性超过流量、体验、品牌这些人们熟悉的指标。风控做得好与坏直接决定了一家公司的生与死，而且其试错成本是无穷大的，往往一旦发现风控出了问题的时候就已经无法挽回了。截止到2015年底，全国总共3000多家P2P平台里超过三分之一已经倒闭。这其中除了一部分明显的自融欺诈外，大多数平台垮掉的原因还是风控不过关。

2. 风控的核心

风险控制需要做什么?与逾期率的绝对数值相比，对风险的控制能力要重要得多。借款人需要享受合理的额度和借款成本。出借人需要能够得到合理的风险调整后的收益。达到这样的目标的核心是对每一笔借款违约概率的准确预测。

借款人：基于借款人的风险评估，优质的借款人能享受更低的借款成本和更高的额度。相对不那么优质的借款人则需要付出更高但还是合理的成本。最劣质的借款人(甚至是欺诈借款人)则会被直接拒绝。

出借人：由于借款人承担的利息成本是基于其风险设置的，我们可以在大数上设定为未逾期的借款人所付出的利息减去逾期借款人带来的本金损失后依旧能够达到合理的收益水平。

满足上述原则的过程我们称为“风险定价”。这可以作为所有金融的First Principle。

3. 国际上传统的风控方法

风控的核心是要准确预测每一笔借款违约概率。显而易见，这需要量化的工具，也就是模型。假设x代表与借款人相关的各类数据，y代表是否违约(1=违约，0=未违约)，则我们需要找到一个函数 f，使得f(x)=y。我们先介绍一下x，y，f在国外的情况。以美国为例。

x ，y：在美国，人们一般在上大学的时候就会拥有人生中第一张信用卡。这样等到后续买房(房贷)买车(车贷)的时候，就已有了不短的信用历史了。美国有3家征信公司(Equifax，Experian，TransUnion)。基本上所有银行，贷款，金融机构都会上传信用数据给这3家公司，包括借款，还款，逾期等数据。征信公司会对原始数据做清洗和处理，进而产品化和商业化这些数据。这些提供数据的公司同时也是数据的使用方。任何公司都可以买到脱敏的具体到个人的信用历史数据，用作分析和建模。由于征信公司能够以处理完的字段形式输出数据，在美国，x一般是小而精的。小是指一般一个人的征信数据实际大小不大。精是指这类借款、还款、违约的历史数据，对于风控建模来说，会是最有用的一块数据，因为历史借贷信息实打实地反映了一个人的信用情况。

f：如果有了非常新鲜的鱼，简单地蒸一下就会非常美味。同样的道理，由于大多数美国人已经有了足够的信用历史数据，通过这些数据来预测一个人未来的违约概率，这里所用到的模型也不用很复杂。一般情况下，简单的决策树和一些回归类的模型已经能够解决90%以上的问题。非常有意思的是，类似FICO这样的公司的商业模式就是提供生成f的能力，也就是基于3家征信公司提供的数据，提供一个比较标准化的信用分给银行和金融机构。

如上所述，美国的征信体系包括了数据提供方(同时也是使用方)，数据整理存储方(3家征信公司)，和提供数据分析解决方案的第三方(例如FICO)。整套体系经过几十年的演变进化，已经成为了一个生态。传统风控

4. 风控机构在大数据领域的探索

我们所说的“大数据”并非指绝对的样本量的巨大，而是把常规的信贷征信数据以外的信息统一称为“大数据”。目前看来，由于美国的征信生态体系已经比较完善，其它非信贷类数据在风控建模里的应用实际上比较有限，在大多数情况下锦上添花多过雪中送炭。例如美国最大的P2P公司LendingClub早年曾经尝试只基于Facebook的社交数据来决定是否放贷。试了一段时间发现不行后，还是回到了征信数据为主，其它数据为辅的体系。目前LendingClub只考虑给FICO信用分640分以上的借款人放贷。

在美国，相比全面替代基于传统征信数据的风控模型，大数据能够起到的作用可能更多的会在某个特定用户群体上的性能优化。例如，我们发现FICO分在580-600分这个区间的用户的逾期率是15%。这是比较高的风险，大多数银行和贷款公司是不做这个群体的，因为需要覆盖这么高的风险所需要的利率可能高于他们的业务允许范围了。然而，15%的人违约的反面是85%的人还是会还钱的。如果能够通过技术手段利用一些征信数据以外的数据，来提高这个群体里好人vs老赖的识别度，从平均15%违约率的群体里把相对比较好的借款人(比如违约率是5%)挑选出来，则这个群体瞬间就可以做了。已经有一些公司看到了这样的机会，也已经开始利用大数据建模做这类银行服务不到的客群了，比如最近比较火的ZestFinance。

5. 大数据风控在中国的机遇

最近10年，以个人信用卡为代表的个人贷款业务在中国有了蓬勃的发展。我国的信用卡交易和风控系统在初期大量借鉴了国外的经验。银联的第一代系统是与VISA合作完成的。国内很多银行的风控流程和系统是从国外采购，很多风控高管也是直接从国外银行引进的。

然而与国外相比，中国最大的差异在于征信体系的不完善。我们的人行征信系统覆盖了8亿人，但是可能只有3亿左右是有信贷记录的，剩下的无任何信贷记录的，我们称之为白户。所以也不难理解，国内银行对于大部分非中高端用户实际上是不愿意也没有能力提供金融服务的。没有征信数据，那套国外搬过来的基于征信数据的方式方法就不管用了。

聪明的人马上意识到，相比国外，由于中国的征信体系的不完善，基于大数据的风控的土壤实际上更成熟，更有的做。这一点对于线上获客的公司来说特别突出。相比传统银行和线下业务为主的平台，线上获客拥有以下优势：

互联网可以提供每个借款人的庞大的、碎片化的、种类繁多的信息。这里面包括用户提交的电子化信息(如身份证、营业执照、房产证、学历证、工资单、社保，银行流水等)，第三方权威机构的查询信息(如公民身份证查询中心、教育部学历中心、法院诉讼信息查询中心等可查询信息)，还包括了海量的互联网碎片数据，如用户的电商交易信息、微博等社交网络数据，百度搜索引擎数据等。说到底，All data is credit data.
互联网的高效性和爆发性使我们能以较低的成本、较短的时间，积累大量的用户数据，为分析建模提供足够的样本量。
这种大样本量、多维度、非结构化的数据非常适合各类大数据分析处理和机器学习技术的运用。

6. 大数据风控的挑战

伴随着机遇同样也有挑战。就像要有美味的菜肴，我们既需要好的材料，也需要好的厨师，当前大数据在风控中运用的挑战主要还是在数据和人才这两方面。

数据

记得我们前面所说的，风控的核心就是能够产生一个f(x)，用来量化违约概率。理想情况下，最好f(x)=y。这里就有一个鸡和蛋的问题。没有足够的y就做不了分析，所以除了一些很明显的信息外，我们是不知道什么样的x对于预测y会有帮助，也就是说在没有足够样本之前是很难确定该收集哪些数据的。反过来，如果有y的样本够了，但一开始就没有意识到应该存哪些x，这些样本的意义也会很有限。这个问题在那些几乎没有信贷记录的白户客群上尤其严重。最终的解决方法只有不停地做测试，收集x和y，迭代x。相对于资金成本，时间成本更大。例如下图所示，用户在网页上填身份证的耗时实际上与这个人的风险是相关的。很快的人很有可能是直接复制粘贴。而填的很慢的人很有可能是记不住自己的身份证号。这两种情况下，欺诈的可能性都会高一些。风控的挑战

退一步说，就算我们事先知道应该用什么样的x，样本特别是坏样本的积累也是很难绕过的。了解建模的同学知道，越是复杂的模型(比如更多的变量)，对于坏样本(y=1)数量的要求也更高。如下图所示，一般每增加一个模型字段，我们需要相匹配地增加至少100个y=1的样本。样本图

人才

除了数据，在机器学习方面的人才缺口也是比较严重的。跟传统征信数据的小而精不同的，大数据里的很多信息实际上只跟违约率有非常弱的，甚至有的时候接近于0的相关性。把这些多而杂的信息整合起来，做成一道好菜，是需要非常专业的机器学习方面的人才的。传统方法和新时代方法

过去的10年里，机器学习领域有了天翻地覆的发展。在机器能够击败超一流围棋高手的时代，让机器基于海量的、人工根本来不及消化的数据来评估一个人借钱后是否会还钱，其可行性是很高的!不幸的是，量化信用评估领域在技术上的方式方法还是基本上停留在几十年前的水平，早已跟不上当前实时化、移动化、内容包罗万象的数据时代的节奏。非常简单的表现就是，除了少有的例外，目前在金融特别是风控的数据建模/数据研发的人才，无论是数量还是质量，都远远落后于互联网行业。可喜的是，业内也已经意识到了人才的匮乏所带来的瓶颈。随着行业的成熟和数据的积累，会有越来越多的高端数据人才加入这个行业。整个行业在基于大数据量化评估风险的能力也会有一个爆发。

via:大数据文摘

End.

个人资料

飘雪无垠
等级：6
文章：24篇
访问：2.1w
排名： 16

推荐圈子

互联网+金融