征信行业
第一门户

信用评分模型中应不应该包括“歧视变量”

qq%e5%9b%be%e7%89%8720170104102915

什么是信贷歧视

最近在审阅一家美资咨询公司交付给国内银行的个人信用评分卡模型的时候,发现了一个非常有意思的评分卡指标:性别。其中,若对象为男性,评分卡分数则会减少5分,否则则会增加11分。这就意味着, 任何一个男性申请人,从成为受精卵、确定了性别那一刻起,就会比女性申请人在信贷评分上少16分。我相信广大男性同胞看到这段信息,心里会是这个样子的:

很明显,这是国内各类“信贷歧视”中性别信贷歧视的一个例子。那么,到底什么是信贷歧视(credit discrimination)呢?在美国政府的官方网站上, 信贷歧视被定义为放贷者在交易过程中,基于一定的特征区别对待申请人(creditor to discriminate in any aspect of credit transaction based on certain characteristics)。其中,性别、种族、年龄和婚姻状况都是属于歧视性变量,在美国,1974 年通过的《美国信贷机会均等法》(Equal Credit Opportunity Act),该法案禁止基于种族、性别、宗教等原因的歧视行为。也就是说, 在美国,歧视性变量是禁止进入信用评分模型的;而实际上也确实如此,在FICO信用评分模型中,客户的性别、种族、宗教、国籍和婚姻状况等因素,  都不会对信用评分产生任何影响。

国内常见的信贷歧视

除了刚才提到的基于性别的信贷歧视,国内其他常见的歧视性变量包括婚姻状况和年龄。就婚姻状况而言, 通常认为已婚的申请人的偿债能力强于未婚、离异的申请人。甚至已婚这一变量也可以具体细分为已婚有子女和已婚无子女,其中有子女的家庭通常被认为同无子女的家庭更具有偿付能力。

就年龄而言,银行信用评分模型通常认为青壮年(25到40岁)能够更有可能偿付贷款。 而年龄更小或者年龄更大的申请者通常会被赋予更低的分数。如图所示:

qq%e5%9b%be%e7%89%8720170104103030

还有一种歧视,这种歧视在银行人工审核放贷 中非常常见,而在信用评分卡建模 中却几乎从未纳入模型, 这就是地域歧视。 2015年曾出现过“上海多家银行严审福建客户钢贸贷款”的新闻。其实类似的案例早已有之。 在2014年,笔者参与某四大行年度审计, 该行就是将全国各个区域坏账高危区域以短清单的形式列出;这种定期更新的区域放贷预警清单,更接近于与区域性的风险控制,而非固化的地域歧视。

信贷歧视的原因

看到这里,有些读者一定会好奇:性别、婚姻状况等申请人的特性,真的含有那么大的信息量,可以大幅提高模型表现吗?答案是否定的。常见检验单变量区分度的指标有:WOE(weight of Evidence)、IV (Infomation Value)或者是比较变量内不同取值的 好坏比(G/B Odds)。接下来,我们将用好坏比这一指标来验证一下歧视性指标的预测能力。

在好坏比指标中, 好客户(Goods)被定义为表现期内未逾期,坏客户(Bads)被定义为表现期内逾期一次以上,其他(others)则是表现期内出现了一次逾期的客户。而好坏比(G/B Odds)是变量分箱内,每一个分箱中好客户和坏客户的比值(Goods/Bads)。

个人信用评分建模的实践中,性别分箱和婚姻状况的分箱之间,好坏比之差均小于20。明显小于其他变量的分箱好坏比差(如活期账户借方交易笔数好坏比差大于50,房贷非房贷好坏比差大于60,最近12个月是否逾期分箱大于80 等)。
qq%e5%9b%be%e7%89%8720170104103054

那为什么还会有很多银行将这些歧视性变量放入模型中呢?归根结底,是银行能够采集到的用户行为指标太少。 许多银行在信贷系统前端设计时,即没有囊括充足的用户背景指标; 还有一部分银行的系统没有实现完全的数据集成,如CRM、管会、核心等系统数据口径不统一,客户在所有系统中没有唯一识别号(unique key)等;或者是银行没有建立风险数据集市和数据仓库等等。种种原因令信用评分卡的备选指标池进一步减小。银行为进一步提升模型表现,于是就将没有那么显著歧视性指标纳入模型之中。

放弃“歧视性变量”,引入第三方数据

那么从银行自身,应当如何解决申请人数据维度稀缺的问题呢?一方面,银行内部应当加强IT系统建设,扩充前端指标和强化数据集成等。但另一方面,因银行缺乏获取用户交易和支付数据的渠道, 银行能够搜集到的信息的维度仍然是有限的。而真正有价值、信息量大(informative)的数据,也就是用户交易行为数据(behavior data),银行却很难得到。

而拥有海量用户行为数据的第三方,往往是淘宝京东般的互联网巨头。这些互联网公司们,并不会将用户数据开放给银行使用。 而是会推出自己的信用评分产品,如芝麻信用分等。银行解决 “数据饥荒” 最好的方式,就是同这些互联网巨头们合作, 引入电商或支付平台的评分数据等作为变量。这样,即使银行无法拥有用户的多维数据,也仍可以对用户的信贷行为作出预测, 进而提高模型表现。业内,光大、浦发等已经接入芝麻信用数据作为信用卡申请模型的变量。相信在将来不久,更多的银行会引入第三方数据作为信用评分模型变量,进一步提升自身的信用风险管控能力。而那些固守“数据孤岛”的银行,只会在他们进一步提升的坏账率下,失去自己的核心竞争力。

Reference:

Credit discrimination,http://www.consumerfinance.gov/fair-lending/#whatis

Equal Credit Opportunity,https://en.wikipedia.org/wiki/Equal_Credit_Opportunity_Act

来源:Frank和风险模型们,欢迎通过上面的二维码关注

%e5%be%81%e4%bf%a1%e5%ae%9d%e5%ae%a3%e4%bc%a0

赞(0) 打赏
网站部分资源来自网上,如有侵权请告知删除,我们期待与你长期合作:征信宝 » 信用评分模型中应不应该包括“歧视变量”
分享到: 更多 (0)
已有 0 条评论 新浪微博

征信宝推荐

大红包万达万e贷