服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

AI行业观察|知识图谱与资管风控数字化破局

日期: 来源:文因互联收集编辑:文因君

主讲人

鲍捷

自2015年以来,文因互联专注于知识图谱在金融行业里的应用与实践,团队先后参与了 Reg Tech (监管、合规) 技术服务,交易所 IPO 与债券的发行管理与风控,以及债券全生命周期的自动化风控与交易等项目。


以下为1024国际资管开发者大会上鲍捷的演讲:


原题目:知识图谱与资管风控管理

"金融革命正在等待一场工业革命"


01 刚兑信仰走下神坛


自2017年至今,以商业银行为代表的传统金融机构正在全面拥抱数字化。

从行业外部环境来看,整个社会经济正在高速数字化,并渗透到经济、政治、生产、生活、治理等社会各领域,中国如是,全球如是;从行业内来看,2017 年下半年,为了防范债市风险,资管新规出台,“去杠杆”导向成为其核心目标。

在宏观主动去杠杆的背景下,定点爆破式的违约或将成为常态,任何投资都难免存在风险;城投信仰、国企信仰走下神坛,一连串“爆雷”的债券违约事件爆发。随着刚性兑付被打破后,我国信用评级的诸多突出问题,例如评级虚高、区分度不足、事前预警功能弱等问题也逐渐显现。

近年来监管不断加强对评级行业的整顿改革,2021年2月,证监会发布《公司债券发行与交易管理办法》,取消公开发行公司债券信用评级的强制性规定,旨在推动评级行业由“监管驱动”向“市场驱动”转型。评级市场的需求正在重塑,评级机构面临行业转型和洗牌,以及技术改进的压力。

与此同时,在加快金融开放的大背景下,越来越多外资资管公司以积极的姿态“抢滩”中国市场,对于大多数中国资管机构来说,既是机遇也是挑战。

围绕着整个宏观环境变化,金融行业自身在技术、业务层面上也进行着深度改造,即所谓“新金融”转型。

新金融转型,又分为“四化”——流程线上化、流程自动化、数据资产化和应用智能化,四个现代化又可拆解为数字化转型的三个阶段,因为线上化和自动化几乎是同时发生。

资管业务近几年发展顺应整个金融转型方向,其核心也是数字化。

什么是数字化转型? 


传统金融业务流程就像是手工业,即用简单的工具,依靠手工劳动,从事小规模生产;在知识存储上,每个人的知识被装在个体的大脑里或者以不同的文本为载体被放在每个人的案头上。

传统金融行业正是如此,绝大多数的知识、流程都被承载在每个人的大脑、PC端 、Excel 表格或者 Word 里。

数字化转型就是要打破个体知识壁垒,通过知识建模,把个体知识转化为组织资产,然后再利用组织资产帮助企业去构造智能化应用程序,这是人工智能至关重要的一环。

股票是一门艺术,债券是一种技术,常有人如是说。工作流概念贯穿整个资产管理的全生命周期,而风控又几乎渗透在资管全工作流程。过去几年,在数字化转型的浪潮中,实现了从手工操作到电子化操作,再到线上化、自动化操作的改革。

其中工作流的线上化,本质上就是核心组织资产进行线上转移。

组织资产线上化,核心在于两件事:

第一,数据沉淀。将企业经验资产进行统一识别和存储,实现了文档数据的统一采集、存储,进而使检索快捷方便、同步备份快速简单、维护方便,且有利于跨部门间的共享利用。

第二,流程自动化。有关组织如何利用认知智能优化数据处理流程,比如说发行流程、质控流程、审计流程,还有评级流程、交易流程和托管流程。

资管整个业务流程其本身就是最核心的组织经验知识,在将它线上化的过程中也同时变成了组织资产。当数据形成组织知识沉淀后,应用层上才衍生出各种各样的智能化应用,比如说自动化评级、智能化审核、智能化质控等等。

截至目前,智能化已渗透到金融各领域的各应用场景。交易所的应用材料,比如摘要和问询函,可实现机器自动化生成;券商和投行的专项说明书,债券募集说明书,可实现自动化写作以及自动化质控;资管公司做自动化风险评估和流动性管理,以及在银行投行部和托管部的大量工作都已实现。

数字化转型的五年来,自动化应用逐步深入:从最初的数字化概念,到数据湖、数据仓库,湖仓一体化,再到现在的RPA和IPA,即智能流程自动化,工作流自动化,最后到现在的数据中台和低代码平台,整个数字化转型的生态愈加丰富。


02 认知智能赋能资产管理风控数字化转型全周期


围绕着资产管理风险控制,数字化转型升级的每一个环节都离不开人工智能技术。资管数字化转型主要应用的是认知智能技术,因为资管业务的整个业务场景和流程都以文档为载体,文档处理和知识建模,同属于认知智能的范畴。

底层数据治理是资管数字化转型的第一步。资管全业务流程均建立在数据之上,而底层数据治理是所有工作的基础,包括文档抽取,指标抽取以及抽取之后各类主体数据之间的关联与整合,进而构成了知识图谱。此外,还涉及各类数据的统一管理,比如多源数据、异质数据,多模态数据的有机整合。



资产管理数字化大致可分为三步:


Step1:构建标签体系。针对不同资产品类,根据不同业务规则、风险判断规则,业务经理和知识工程师一起构造数据标签体系。在每一个区段上设置相应的合规知识、评级知识、风控知识,共同构成底层治理的一部分。所以数据整合并不仅仅只是建一个数据集市,而是通过各种与数据相关的规则与标签系统来建立有序的数据集。


Step2:知识建模。有了底层数据,即可将判断知识以及在数据之上构造模型的中间层建立起来。可以说有了数据整合之后,也就有了数据湖,或者湖仓一体化或者数据中台。在结构化数据之上,构建知识图谱,投放至图数据库,并进行关联关系建模。



近年来,各大资产管理机构和投行机构做过诸多类似项目,比如上下游产业链的建模,以及风控模型,比如资产管理中股权关系或者上下游关系等;交易环节的交易图谱,以及各种舆情和公告层面上的事件图谱。有了这些知识建模和图谱,不仅可以看到企业或个人的事件风险,还能够预测未来风险。


资管全生命周期建模,比如不良资产,AMC 估值,从资产到交易之间的全链路各环节形成企业360 度画像和资产的全面诊断,需要底层做大量的知识建模来支撑,进而形成数据中台、知识中台和业务中台。


Step3:构建三大中台。业务中台在风控业务中就是风控自动化系统建设,它直入业务场景,比如在评级公司的自动化评级报告写作,资产管理中的研报自动化解析,研报的自动化审核以及投资尽调,以及银行资管的投前尽调和投后风控等。


知识建模、风控自动化都是数字化转型的核心内容,分别对应数据中台、知识中台以及业务中台三大核心中台。这种大系统通常被称为“一把手工程”,很难一夜完成,需好好规划。

数字化转型工作通常投资非常大,涉及部门多,实施周期长,所以必须进行目标拆解,以小步快跑的方式往前走。

数字化转型实施四大原则:

第一原则:分步实施。数字化升级工具体系庞大,需通过多年规划,从基础的小工具来起步,很难一步到位,需多年计划、并行实施;建议以基础工具起步。

第二原则:快速闭环。每一期聚焦若干较小单点目标,赢得业务部门的认可,获得可验证结果,不断迭代和扩大成功。


推进时不以技术先进性作为规划重点,而是聚焦决策者中间层和基层所关心的业务场景去思考,尽可能快地去取得闭环。

第三原则:数据治理先行。智能化能力深度依赖于底层数据治理,特别是非结构化文本分析,前期重点是数据治理。

在风控系统的数字化改造当中,底层会有许多东西可能被重用。在做第一期规划时,应该想到第一期的数据治理有哪些可以被复用,特别是底层的非结构化文本分析能力,在各期实施当中都会被需要,时刻保持与业务同事的沟通与合作。

近两年我们做了十个这种数字化转型的案例。文本解析是基础能力,在此基础上不断迭代,衍生出来低代码平台和中台,逐渐提高效率,不断地扩大数据自动化处理的覆盖率。从 10% 最后上升到 80% 甚至90%。每年逐渐地提升,业务人员慢慢感受到它的价值。

第四原则:预期管理递进。

探索性的策略优化,知识建模难以一步达到预期,应以自动报告、案例库、财务分析等“标准件”逐渐递进。

技术同事很容易理解技术边界,但是业务同事未必理解,他们会认为人工智能无所不能,但一旦解决不了问题,他们会很失望。尤其这种探索性的决策引擎,是很难短期内达到预期。

从技术架构上来讲,应该从底层叠加不同的工具箱和场景,需要从分析底层开始。

最后应用模块上会有许多不同的场景,要根据需求先做评级,到底先做底稿,还是先做质控还是财务分析,来确定我们接下来要做哪些模块。


03 基于知识图谱的解决方案及应用场景


下面详细介绍一下知识图谱使用场景及其应用


一、数据层 

底层的数据,也就是数据中台的几个核心模块。数据整合的过程当中最基础的工作就是理解文档,即对各种要素指标进行抽取:一个是从表格里抽取,一个是从正文抽取。抽取完后进行标签化处理。

比如在发债过程中,会有一个叫做发债对象的画像,可以帮助营销人员加强工作效率,在承做环节也是一样的。承做环节里,比如一个债券募集说明书可分成上百个章节,每个章节都有相应的模板和套路,这些本身就可以从原有的文书里抽取出来。模板抽取完后进行标签化处理,以界定它是哪一品类的资产,不同品类资产对应不同的 schema ,不同的 schema 则对应不同标签。

本质上来说,相当于从文本里面抽取出来一个知识库,每个知识库有它的 “meta data” ,即元数据。元数据在业务人员的理解里就是标签。

以上是第一步工作,先从文档里抽取出来大量的框架和标签。尤其是后面做风控和财务分析,会有大量的因子,除了常规的财务因子之外,还会有很多另类因子和另类的数据。

这两年出现的 ESG ,即,企业社会责任、环保、企业治理,都成为不断涌现出的新的因子,这些因子是业务层面建模时需要考虑的。对于每一个因子,下面有它所对应的来源及其计算公式。

在发行环节,当我们跟监管机构合作做 ABS 发行审核时,大概是 120 个因子。在交易所,做利率债自动化审核,大概有近百个因子。

涉及上市公司的数据应该更多。像招股说明书, IPO 里涉及超过一万个原始数据点,且每一个因子都有其相对应的出处。

再底层是文本解析引擎。通过自然语言处理的方法将它抽取出来,再经过数据质量控制,文本解析引擎输出结果的准确率可高达90%-95%,其后还会有一个人工质控的过程,其实也很重要。

多维数据融合。数据融合多应用于复杂场景,是指在结构化数据基础上进行指标集群规划和风险指标整合。在资产管理的场景中,最终有 259 个指标的集群和3500 多个风险指标。

发债企业在实际业务中使用复杂的多数据融合,特别是有大量流水数据和单据数据的场景,如何把这些数据整合在一起,工作量巨大。在这里每个文档都需要判断它是不是真实可信,财务数据需核查是否具备完整性和一致性;原始单据,比如发票是不是真的,而银行授信报告、审计报告,均需比对整个经营情况,判断其是否真实可信。

以上大量数据融合(不仅仅是文本数据融合)以及多模态数据融合,需融合多种不同的人工智能算法来实现。

这里简单介绍一下表格抽取,在债券募集说明书 ABS 文件里面,最常见的是大量底层表格。我们在做文本抽取时,把表格分成五大类,每一类有其对应的模型。我们把千变万化的表格整合成中间一层的表格语义,然后再把它整合成知识图谱。

这个过程涉及语言处理的三个概念:语法、语义和语用三个层面。

金融文档里的表格处理跟传统的OCR 有什么区别?最核心的就是 OCR 解决的是语法层面的问题,而我们要在金融领域里做的表格识别,其实是语义层面的事。在业务场景中,我们不仅要把每个单元格里的数字抽取出来,还得去理解其单位是什么,上下位是什么。

业务层的应用要延展到语用层的研究。在业务层面,我们要去理解每一个指标,比如说指标是不是要对齐,因为财政部会发格式导引和会计准则,我们需要与之对齐,这就是语用层面上的应用。

所以,数据整合最终目标是在业务层面理解数据,而不仅仅是从字面上理解数据。也有很多数据是在正文里的,像公告的披露文件,再比如说个人简历,还有财务指标的增长率陈述,其实属于这种文本。

文本里抽取,就是典型的序列抽取,需适配各种人工智能算法。提取完了之后,进一步整合标签化。

比如在研报提取过程中,需对每一段话进行理解,因此便有了投研引擎。比如,当我们想知道大家对硅材料成本的看法,可通过标签化快速聚合研报里相关数据,或者把相关的文字描述变成一个数据库。这就是为什么我们不能仅仅靠传统的数据终端来做这些事情,因为需求是千变万化的,我们没有办法只依靠已生产好的技术数据来做研究工作。所以只有当我们拥有不断从新的数据里实时抽取数据或者进行数据标签化的能力,才能够比同行更快地获得建模结果。

大家称之为“on the fly” 或“ on demand”,这也是数据仓库、湖仓一体化的典型特征。

除内部数据外,还需要有大量外部数据,特别是在资管场景,需对法拍数据和司法数据进行整合。这就需要我们不仅要去抽取底层资产本身的判断文档,还有相关的外部文档,比如说判决书、拍卖公告等等,这些涉及与资产相关描述的文档,我们要把它整合在一起。

以上有关数据层的应用,主要是自然语言处理相关内容,有了数据之后,我们就要把它变成知识。

第二:知识层。

最核心的是本体及规则。本体就是各种各样的概念,建模时,会涉及大量相关的产品、人以及企业,这都是本体。比如说在中国资本市场中,大概发现了 6 万多种产品和分类,从上到下可以把它构造出一个本体。



在诸多实践中,中国最头部的资产公司,他们会建立属于自己的数据集市,内包含上百个不同数据集,这些数据集都有它的schema 。这种企业的信息集成会出现各种问题,那么如何融合数据,把数据串起来,这就需要所谓的 ontology mapping 或者 schema mapping 。所以这要求我们对数据集进行本体建模,在本体层面上在语义上对齐。

这也涉及20 年前语义网成立初期我们做的工作。针对业务场景需求,将大量不同的数据集进行整合,所以,这里都是涉及到本体监管工作。

有了这种上下概念的分类和 schema 分类之后,图谱即可构建,像这种股权关系就是典型的股权关系的图谱实例。

在海航集团出问题之前,文因在帮助交易所做监管系统时,被要求先做预案:如果海航出了问题,公众公司有哪些会被影响。我们基于海航的供应链和股权图谱,做了图谱预警分析。最终发现二百多家公司可能受到影响,类似这样集群风控,现在基本上都可实现半自动化,因为通过知识图谱随即可查。此外,我们还要针对它的上下游做大量对接工作。

这两年资产管理公司、投行、评级公司其实也应用了很多自动化系统和 IT系统。知识中台其实是它对接的一个子模块,我们怎么将它对接进去,主要分为两部分工作:对接上游以及对接下游。

对接上游需对接数据湖或数据仓库,根据不同的企业的发展情况而定,IT比较先进企业已有数据湖,如果IT相对迟缓,可能需要首先提升数据结构化能力。

对接下游,有关各种业务如何理解,我们的办法是抽象成“模型因子”或者叫“模型标准件”。对于业务同事而言,数据湖或许很多人听不懂,但提到信用评级就听得懂,还有流动性管理,头寸管理等,他都听得懂,那就在资产管理风控全流程环节中,抽象出许许多多的标准件。

标准件的效果是什么?一个标准化接入,马上就可以开始用。所以会提供各种各样标准化接口,比如搜索引擎或者即插即用的端口,接入工作流里。

客户有时需要的是数据层面的东西,他每天都需从Wind 里导数据,那尽快帮客户整合在一起,所以这些都是在尽可能少地干扰现有工作流的基础上,进行用户体验优化。

以上是智能化的基础。

第三:应用层的自动化


风险决策引擎工作,包括我们在交易前,中,后其实都会有大量的风险的存在。比如操作性风险、流动性风险、外部宏观风险,这些风险需要逐一进行风险建模,做大量规则。这两年大家越来越多用机器学习来做,但机器学习暴露了各种问题,开始转向知识图谱,即各种黑匣模型和白匣模型。这就需要分享决策引擎来做这件事情,因为最后会变成 MLOps,这是一个在线的持续发现,持续集成,持续调试的环境。

最后会生成各种各样的报告,就是比如说,我们曾经与一家银行合作,该银行的贷后需要自动化报告以示提醒,用户是否可能会违约,流水是否开始出现问题,这都可以进行自动化评估。资产管理公司也会有类似报告,还有投前报告、投中尽调报告、上会报告等等。因为很多报告都是半程式化的,所以如果有了底层的数据平台,自动化生成不再是难事儿。


总结一下数字化金融资管数字化转型,核心就是将传统手工操作变成自动化操作。其中涉及三大类工作:

第一,数据层面上,关于如何用自然语言处理来构造数据中台。

第二,知识建模,关于如何用知识图谱,特别是本体建模和规则建模能力,把传统的流程变成企业的资产。


最后,业务中台。关于风控自动化的工作台,涉及到大量实际业务场景如何落地,最后通过标准化的方式来实现自动化。


04 案例


案例1:


与国内一家头部投行合作承做各环节全流程的自动化。 2021 年实践的结果是,每个项目的交付周期节约 7 天时间。

在债券发行质控环节,可实现对底层经营层面各种违规操作的全面核查。这个过程中我们为其构造各种知识图谱和底层知识库,比如说这种底层的模板库,像债权文书模板库、处罚模板库、问询模板库,最后都是把底层文档变成知识库,然后帮它实现自动化。

在此基础上,我们会做各种财务检查以及各种质控工作。比如文字是不是有错误,篇章样式是不是有错误,完全按照银行间交易商协会或者上交所的要求来进行完整披露,非常耗费人力。所以每个项目大概节约7 天。投行项目周期长,人力成本高,总节约成本非常可观。

案例2:


取消强制评级之后,评级工作亟需自动化实时化处理,需对企业进行更真实的价值判断。

文因互联帮助评级机构实现贯穿全业务流程的文档自动处理。尤其是像传统财务数据的理解,传统财务数据处理速度已经无法满足业务需求,所以我们为其提供了自动化核算工具。

所以说未来的主体评级,会由机器来生成大部分内容,而人应被解放出来去做更多创造性的工作。

案例3:


最后一个案例是操作性层面的工作。我们帮助多家银行的投行部和托管部实现仓位控制和流动性控制自动化。


整个过程中涉及到大量的操作性风险和违约预警风险的需求。将手工操作进行自动化改造,因为它的工作流程中充满了大量的合同比对和底层文书比对工作。指令和合同比对,需要去做操作性风险控制的自动化。

以后,还会有大量的底层财务数据、非财务数据指标化,最后构造风险预警平台。在这过程中,我们帮助客户构造了整个数据生产流水线和模型因子的选取,从实际效果来看非常成功。


点击“阅读原文”了解更多

欢迎加入文因互联智能金融社群,1000+金融科技行业从业者汇聚于此,联系微信 18500686425,我们将不定期组织线上讨论,添加好友,请附上姓名、所属机构、部门及职位。


商务咨询(需求对接、产品试用等):contact@memect.co


如果您有意愿加入我们,在智能金融领域做一番事业,请联系:hr@memect.co

相关阅读

  • 【赢家日报】三股指收跌 医药股重挫

  • 市场涨跌 资金流向 赢家策略持仓建议:8成看好方向:地产产业链、汽车、国企改革、电力、科技、消费、军工等。策略观点: 上一交易日,三大股指集体走低,沪指跌1.92%,深证成指跌1
  • 聚源研究 | 基金经理“出走”大揭秘

  • 摘要 公募基金经理频现出走潮。今年以来变动人数已接近往年全年水平。统计发现,近一年混合型基金的基金经理、大型基金公司的基金经理变动最频繁。基金经理变更涉及的基金规

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • AI行业观察|知识图谱与资管风控数字化破局

  • 主讲人鲍捷自2015年以来,文因互联专注于知识图谱在金融行业里的应用与实践,团队先后参与了 Reg Tech (监管、合规) 技术服务,交易所 IPO 与债券的发行管理与风控,以及债券全生命
  • 中国软件三十年:烟尘隐入,夹缝重生

  • ▲点击上方 蓝字 关注我们▲转载来源 | 饭统戴老板作者:戴老板编辑:李墨天视觉设计:疏睿责任编辑:戴老板1994年,比尔·盖茨第一次访问中国。访华目的,是为了推动即将发布的Windows
  • 高盛金融科技的全球投资版图

  • ▲点击上方 蓝字 关注我们▲转载来源 |点滴科技资讯竞争是为任意市场带来有利价值的众多因素之一——无论是创新产品和服务、选择的多样性还是实惠的价格。金融科技领域一直
  • A股公司12月风险分析

  • 本期作者:罗果招商证券研究咨询部策略组合首席S1090615070002特别鸣谢:岳迪对本文有重要贡献2022年,美联储年内已加息6次,这是该央行自上世纪80年代以来最激进的加息周期,美国通
  • 12月策略:政策发力强,跨年行情蓄势待发

  • 本期作者:卢国昆招商证券研究咨询部行业比较与配置首席S1090615040005联系人:赵峙淳 S1090122040015特别鸣谢:实习生邹颖、王培瑜对本文整理有贡献A股市场研判:市场具备较多的底