量化派副总裁谈恩华详解金融科技大数据实时与多维分析应用

6月29日至7月1日,量化派副总裁谈恩华受邀出席CSDI summit中国软件研发管理行业技术峰会,并在大数据驱动专场进行了“金融科技大数据实时与多维分析应用”的分享,针对不同数据业务痛点,提出技术解决方案,并指出,大数据平台技术架构应当具备前瞻性,才能更好地支持业务发展。

海量多维数据的实时存储和计算

不同于线下有限数量和维度的信审资料,线上智能AI信审会通过在线业务数据、场景数据、三方数据,以及用户授权数据,对信用强关联和弱关联的多维数据进行自动化采集,如设备指纹、电商消费信息,社交数据等,单个用户的数据量非常大,行数可能高达几万行。解决该问题,可以通过高可用的HBase类NoSQL数据库来支持批量写入和查询,对于万条级别数据,访问延时仅在10秒以内,满足线上信审实时性的要求。

与此同时,线上实时反欺诈可基于用户社交数据组成的关系网络,通过构建知识图谱,判断用户身份的真实性、还款能力和还款意愿,数据变量规模极大。当前,实现实时特征计算的架构可以通过流式计算和在线特征服务,不过,流式计算在关系型业务数据的查询上还有一定局限性,目前依然以在线特征服务为主。此外,基于HBase计算特征会遇到Rowkey设计问题,如果Rowkey设计只考虑用户维度,不考虑订单维度,当查询需求变更时,需要重新生成数据;特征计算的过滤和算子操作表达为NoSQL访问开发难度较高,这些问题还需要行业的进一步探索来解决。

在图存储和计算方面,知识图谱的存储需求,HBase可以基本满足;用于反欺诈和智能营销的图计算工具Neo4j目前存在单机扩展问题;在性能方面,对比Graphx、Giraph、Gelly和某闭源软件处理50亿条边、8亿节点的量化派关系网络时的PageRank算法平均迭代性能,Gelly的平均表现最为出色,耗时第二短,CPU占用最低,内存占用第二少。

提升线上获客和风控的效率和精准度

线上信贷业务面临着更为复杂的客户群体和变化多端的欺诈手段,需要实时监控和智能化分析,来实现更加精细化的获客,提升不同类型人群的转化率,从注册渠道、资金方、期限、金额、定价、风险表现等多维度判断;在风控模型方面,不同客群的模型分和特征值的变化需要智能、实时、自动化的子模型异常报警,触发反欺诈和风控等系统调整;在风控策略上,需要根据首贷、复贷、复申的表现及时调整。

谈恩华通过介绍量化派实际数据架构演变过程,总结出准实时监控报警架构、业务风控多维分析(OLAP)的优化路径。目前支撑量化派内部访问量最大的数据可视化平台所应用的架构MQ-TiDB,支持横向扩展运维,开发周期可控,并尽可能避免误报警;而DWH-Spark-Palo的架构,通过Spark任务夜间对低维度、中维度数据进行日级别Cube计算,Palo提供数据聚合服务,支持MySQL路由返回准实时数据,查询延迟在1秒以内,极大提升了运营人员分析效率,成为量化派重要决策的仪表盘,覆盖业务运营、风控策略和模型等多方分析需求。

大数据平台技术架构应当具备前瞻性

展望未来,谈恩华提出NoSQL和NewSQL架构融合的可能性。TiDB 2.0(向量计算、内存级列式存储)带来的性能提升,在OLAP上可以进一步简化架构;TiDB兼容MySQL语法带来的易用性提升和HBase稳定的海量KV存储,双方优势互补。

谈恩华表示,数据类型会随着业务拓展而变化,现在语音和图像数据的技术已经应用到金融服务中,如智能AI催收应用用户的语料数据;反欺诈需要OCR识别、声纹识别、人脸识别等。未来新型数据的出现,还会给数据业务带来更多挑战,数据平台技术架构应当具备前瞻性。

不仅如此,数据安全是大数据时代下的关键,应用AI技术自动监测异常数据传输也需要整个行业不断加强能力。

谈恩华指出,信贷业务的线上化转型,不是简单地将获客渠道拓展至线上,而是在本质上变革为全流程数据驱动,而这意味着金融服务面临全新的技术挑战。一方面,实现对用户多维信息数据的强有力的实时存储和计算,需要构建高可用和强扩展性的在线服务;另一方面,提升线上获客和风控的效率和精准度,需要实现对业务和风控数据的实时监控,以及更加高效的运营分析。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();