随着传统金融业务与互联网、移动通信技术的深度融合,金融产品飞速创新,金融业务量迅速增大,贷款、支付等金融交易数据呈爆发式增长,在一定程度上增加了银行信用风险管理的难度,审计对银行客户的风险识别与贷款的分类核查也面临着巨大挑战。因此,亟待通过对客户基本情况、金融交易等信息进行整合,将原来分散在银行各个业务处理系统的客户信息集中统一管理,再通过对海量客户贷款数据和客户交易流水数据进行分析,挖掘有价值的信息,提升贷款风险分类的准确度和客户画像的精准度,从而推动银行加强信用风险管理。本文提出基于对抗自编码聚类算法的银行贷款风险分类审计模型,正是在大数据条件下解决这一问题的重要探索。
银行贷款风险分类审计模型相关的机器学习方法
( 一 ) 对抗自编码算法
对抗自编码(Adversarial Auto Encoders,AAE)算法是Google Brain和OpenAI提出的,它提出的使用自编码器进行对抗学习的方法为机器学习解决问题提供了新思路,其核心是利用一个生成器G和一个判别器D进行对抗学习,再通过解码器得到需要的数据。自编码器是深度学习中的一种非常重要的无监督学习方法,能够从大量无标签的数据中自动学习,得到蕴含在数据中的有效特征。因此,自编码学习算法近年来受到了广泛关注,并已成功应用于很多领域,如数据分类、模式识别、特征提取、数据生成等。
AAE算法的具体训练过程主要分为三步:首先,充当生成器G的编码器对输入的客户银行流水统计数据进行编码,生成一个隐藏变量z;然后,生成器G和判别器D组成的对抗网络开始对数据进行无监督学习;最后,借助于解码器对该隐藏变量z进行解码,生成客户银行流水特征数据集。采用上述方法的优势是,不需要预设特征指标,指标完全从原始数据中学习得到,并能指定任意指标长度。同时,上述方法具有较大的拓展空间,可以根据需要对数据时段、采样频率、交易方向、交易类型等进行设定。
( 二 ) 聚类算法
聚类算法是无监督学习的典型算法,不需要对数据集进行标记,即可通过数据挖掘探索发现一定的模式,按照内在相似性将数据划分为多个类别使得类内相似性大而类间相似性小,即同一类数据具有相同的特征,以来发现并区分不同的群体,因而从中分辨出具有异常特征的数据。因为银行流水是反映企业经营情况的重要指标,所以本文使用聚类算法对自编码生成的客户银行流水特征数据进行学习,不仅可以对信贷资产质量情况进行分析,还能够更深层次挖掘出客户的群体信息,实现对客户群体的划分。
本文运用Kmeans、Mini Batch Kmeans、Affinity Propagation、Mean Shift、Spectral Clustering、Ward、Agglomerative Clustering、DBSCAN、Birch、Gaussian Mixture这十种聚类算法对编码完成的客户银行流水特征数据集进行学习(如图 1),并对聚类后的结果进行分析,通过不断学习训练,得出效果较好的几种算法,用以对银行信贷资产质量进行评价。
图1 客户流水特征数据集聚类结果
银行贷款风险分类审计模型的训练和效果验证
( 一 ) 银行贷款风险分类审计模型-对抗自编码聚类学习
本文选取了某商业银行20X1年1月至20X1年12月的流水数据,以小时为采样时间段对所有客户的借方贷方发生额进行汇总,并使用对抗自编码学习算法对客户流水汇总数据进行编码,生成客户银行流水特征数据。除了完全采用从客户银行流水中学习的特征外,本文还引入传统分析中常用的贷款投向行业和地区指标,与自编码生成的特征值组合生成客户混合特征数据。
本文分别使用上述客户银行流水特征数据和客户混合特征数据作为样本,利用第二章提到的多种聚类算法对样本数据集进行机器学习,并将聚类后的结果与 20X2年1月银行贷款数据进行交叉验证分析,得到最佳对抗自编码聚类模型。由于银行贷款风险分类不准确的问题主要集中于关注类贷款,因此本文选择准确度相对较高的正常类和不良类贷款作为模型训练和验证的数据集,然后在接下来的审计实践中将其应用于对关注类贷款风险分类准确性的分析。
通过多次实验,得到客户流水特征数据集训练的结果如图1所示。第一、二行是20X2年1月被审计银行贷款表的五级分类情况,第三、四行是对抗自编码聚类模型训练后的结果。客户混合特征数据集训练结果的分布情况与之基本一致。
( 二 ) 银行贷款风险分类审计模型效果验证
在假定银行信贷资产质量五级分类准确的基础上,根据对银行客户流水特征数据集和银行客户混合特征数据集训练得到的结果,可以得出,Kmeans算法和 Mini Batch Kmeans算法的聚类结果基本相同,Affinity Propagation和 DBSCAN算法聚类后的类别过多与贷款实际情况不符,Mean Shift、Spectral Clustering和 Agglomerative Clustering算法存在分类效果不佳、分类不准确的问题。选用Kmeans算法、Ward算法、Birch算法和Gaussian Mixture算法组成的对抗自编码聚类模型的聚类结果相对清晰,聚类后两簇的数据情况更符合银行信贷资产质量分类,评估水平相对较高,故本文使用混淆矩阵对这四种对抗自编码聚类模型进行了效果验证和分析,并利用所选四种算法聚类结果的混淆矩阵计算出分类器的真正率(True Positive Rate,TPR)、真负率(True Negative Rate,TNR)、假正率(False Positive Rate,FPR)、假负率(False Negative Rate,FNR)、精确率(Precision)和准确率(Accuracy Rate),如表1和表2所示。
表 1 流水特征训练数据聚类结果评价指标
表2 混合特征训练数据聚类结果评价指标
综合上述四种聚类算法的结果,本文提出的基于自编码聚类算法的银行贷款风险分类审计模型的精确率和准确率分别为92.34%和96.03%。
银行贷款风险分类审计模型的应用和评价
贷款是商业银行的重要资产之一,同时也是商业银行最主要的盈利手段,故信贷资产质量真实性是金融审计的关注重点。在商业银行审计中,审计人员可以利用本文提出的模型筛选出银行贷款风险分类不准确的客户作为线索,再逐户逐笔进行核查,揭示信贷资产质量管理中的具体问题,及早防范化解信用风险(具体流程见图2)。
商业银行关注类贷款隐藏不良客户和风险事件的可能性相比正常贷款更大,在对某商业银行的审计中,根据聚类算法的特性,为了更精准地筛选出不良风险较大的关注类贷款,本文将审计截止时点20X1年12月末该银行的关注类贷款和不良贷款客户数据进行对抗自编码学习后生成的特征数据作为测试数据,输入选定的聚类效果相对较好的四种算法,通过分析自编码聚类模型对客户流水特征测试数据和客户混合特征测试 数据的聚类结果,审计人员可以筛选出不良风险较大的关注类贷款客户作为银行贷款风险分类不准确的问题线索,开展重点核查。
由于对某银行的审计调查期间为20X1年,截至20X1年12月,该银行有909笔关注类贷款,假设通过聚类算法得到疑似不良的关注类贷款的数量为A ,其中被后续审计现场核查认定的不良贷款的数量为Q 。截至20X2年12月,上述909笔关注类贷款中被银行实际调整为不良贷款的有518笔,我们用B代表该数值,并假设A 中包含的被银行实际调整为不良贷款的数量为P(即A与B的交集),通过定义不良预测精度和不良预测率这两个指标来对本文提出的银行贷款风险分类审计模型进行评价,其计算公式如下 :
其中不良预测精度的含义是,模型判定的不良风险较高的关注类贷款中被现场审计核实的比率,代表了模型所提供问题线索的质量水平;不良预测率的含义是未来被银行实际调整为不良的贷款中,能够被模型事前预测的比率,代表了模型预测结果对未来实际发生不良贷款的覆盖度。
使用选出的评估水平相对较高的Kmeans 算法、Ward算法、Birch算法和Gaussian Mixture算法组成的对抗自编码聚类模型,对关注类贷款和不良贷款客户数据组成的测试数据进行训练,并对四种算法聚类后的结果进行合并去重,得到疑似不良的关注类贷款有646个,其中审计现场核查认定的不良贷款有509个。截至20X2年12月,其中银行信贷资产质量为次级的有475个,可疑的有31个,损失的有6个,共有不良贷款512个,可以计算得到不良预测精度为78.79%,不良预测率为98.84%。
根据以上结果,审计人员在对商业银行贷款风险分类进行审计时,可以较快速准确地将不良风险较大的关注类贷款筛选出来,同时能够锁定具有较高不良风险的客户群体,进而重点核查这些客户的经营和风险情况,再进行深入延伸调查,以实现对商业银行信用风险管控更有效的审计监督。(作者张瑞芝单位系审计署驻西安特派员办事处;杨国威、徐权单位系审计署金融审计司)
本文得到国家社会科学基金(项目批准号:17BJY202)的资助。
来源:《审计观察》杂志2022年第3期
留言与评论(共有 0 条评论) “” |