新闻中心-铅笔头-汽车金融行业解决方案

数据和算法哪个更重要？

同样重要。

前言

可能在部分读者认知中，信用评级模型的主要算法是逻辑回归和XGBoost，其他如无监督、半监督、深度学习方法等，主要用于反欺诈和反作弊。

今天就带大家看看信用评分模型中，算法很多种，到底怎么用。

现状

每家公司都在尽可能地争取着更多更优质的数据。但是仔细想一想，这些数据宝藏的价值最后都被使用者挖掘出来了吗？其实，很多使用者并没搞清楚每种算法的适用场景，也没能发挥算法和数据的最大价值。比如很常用的SMOTE算法，有一些同学觉得用起来没有效果，还容易出现过拟合的问题。就跟有人说“我用了XGBoost，但效果并没有比Cart好”一样。

这种情况会不会出现？会。

一个只有两个取值的特征，代入这两个模型效果不会有啥区别。但是不会有人提出这个疑问对不对？因为大家对这两个算法的内在原理有基本的认识，知道如何使得模型的效果发挥出来。

算法怎么用

算法的重要性，并不在于从XGBoost换成DNN后，KS会有几个百分点的提升，而在于：不同的模型，对不同的数据，在不同的场景下，有不同的表达能力。

比如，FM比逻辑回归就多了特征交叉的能力，算法内部产生了很多手工没有衍生出的特征，从而可以从理论上更好地发挥数据的功效。

比如，强化学习可以用于很多场景下的样本生成。

再比如，半监督学习可以极大程度上地增强风控场景下的模型表现。

类似的例子还有很多。

机器学习的进化

说句扎心的话，不是算法没有用，而是我们不会用。

做过计算机视觉的同学可能知道，最开始CNN没有统治CV领域的时候，我们使用一种视觉词袋模型，和现在的传统信用模型很像，使用手工抽取的特征，以及一些监督学习的模型。直到后来ImageNet大放异彩，几乎不做任何的特征提取，可以全部通过卷积核来自动完成，视觉词袋模型也就彻底退出历史的舞台了。

不是说逻辑回归评分卡一定会被淘汰，但是从目前SHAP值的解释性来看，XGBoost完全有替代逻辑回归的理由，只不过是接受度的问题。

算法架构

OK，理解之后，请看下面的这张图。这是一张信用模型的架构图，因为涉及一些公司的核心，架构图比较简略，只列出几项作为启发。

目前测试下来，信用评级模型中效果比较好且具有代表性的算法分别是：逻辑回归、LightGBM、RNN、DeepFM、GCN。

应用思路是，根据数据结构不同，选择不同类型的算法进行建模。与传统评分卡的区别是，除了结构化数据直接转换为评分卡以外，其余模型的输出可以作为评分卡中的一项。

此外，还有一些无监督、半监督的方法，就不单独列出来了。

细节介绍

下面分开看一下图中的几个部分：

（1）逻辑回归、GBDT类算法主要是用于结构化数据场景下的建模。这在行业内已普遍认可，不再介绍。

（2）FM类算法对高纬稀疏数据比较友好。所以对一些极度系数的数据，当前选用的算法主要是DeepFM。

（3）对于时间序列数据，业内很长一段时间主要是靠切片来做聚合，从而转化为结构化数据。17年开始，逐渐有人尝试使用一些时间序列特征的抽取手段，以及Prophet等算法进行拟合，不过最近个人的主要处理方法还是聚焦在RNN上，当前比较好用的算法是BiLSTM。

（4）网络数据主要是通过节点嵌入和表示学习进行转化。目前自用的是一种改进的node2vec算法和半监督的GCN算法。

（5）最终一般是使用一个广义线性模型做融合。主要还是担心模型的复杂度太高。

最后

模型架构图只是一个示意图，主要是帮助读者理解，事实上可能并不是这么融合的，而且一般A卡中RNN的表现不太好。

风控领域，数据比算法更重要吗？