服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

TKDE 2023 | 交叉学科项目申请书学科代码生成

日期: 来源:PaperWeekly收集编辑:乔子越

©PaperWeekly 原创 · 作者 | 肖濛
单位 | 中国科学院计算机网络信息中心
研究方向 | 文本分类



摘要


本文介绍来自中国科学院大学、中佛罗里达大学、澳门大学与香港科技大学 (广州)的作者们提出的一种交叉学科科技文本层次分类算法,应用于项目申请书的学科代码生成。


论文标题:
Hierarchical Interdisciplinary Topic Detection Model for Research Proposal Classification

论文地址:

https://www.doi.org/10.1109/TKDE.2023.3248608


近期,随着一年一度的国家基金委项目申请期拉开序幕,如何为科学家撰写的基金项目申请书选择合适的学科代码成为了不少年轻科学家头疼的话题(前序报道见中国科学报):

https://www.kepuchina.cn/more/202110/t20211006_3069095.shtml


科研人员撰写项目申请书,资助机构对研究项目申请书进行同行评审,并决定拨款奖项。这一直是科研人员获得经费的主要机制。以国家基金委的项目申请为例,在项目的申请和评审过程中,往往需要研究人员手动提交项目申请书的学科代码,这代表着该项目申请书的研究主题,然后,根据这些学科代码分配相关的评审人。


然而,由于科研人员之间存在的认知差异,造成了学科代码的填写可能存在不准确,不一致,甚至存在有的科研人员为了更好地通过评审而故意选择容易获得资助的学科代码的情况。尤其随着近年来各学科的发展,越来越多的科研人员开始开展跨学科的研究,造成了其项目申请书往往需要两个学科代码。如何更精确,更有效的填写跨学科项目申请书的学科代码,以提升项目评审的公平性是一个新的挑战。


在这项研究中,作者与中国国家自然科学基金会合作,利用 AI 技术提出一个自动跨学科主题路径检测模型,可以根据项目申请书的标题,摘要,关键词等信息,自动生成其学科代码,且能够自动检测出交叉学科的申请书,为其生成交叉学科代码。


具体而言,本工作首先提出了一种层次的 Transformer 来提取项目申请书的文本语义信息。然后,本工作设计了一个跨学科知识图,并利用图卷积神经网络学习每个学科的表示,以提取跨学科知识。在提取语义和跨学科知识后,在预测阶段,本工作设计了一个逐层级的预测组件,以融合两种知识表示并检测每个项目申请书的跨学科主题路径。


实验部分,本工作在三个真实数据集上进行了广泛的实验,并邀请了基金委的专家进行评估,以展示该论文所提出的模型的有效性。



简介


项目申请书这一类科技文本的主题推理的主要挑战来自于项目的撰写者所理解的学科体系可能与项目管理者所编撰的学科体系之间有一些误差,而这些误差会导致部分学科主题代码漏选或者误选,从而导致不公平的评审问题。例如一份来自生命科学与信息科学的交叉学科工作,如果直接送审到生命科学的专家而不考虑信息科学主题,那这份工作的创新性和对研究方法的评估可能会有偏差。如何建模交叉学科知识来辅助模型预测?


此外,从模型的角度来看,项目申请书与一般的长文本建模场景不一致,其一般包含若干类别、并带有不同语义的长短文本,例如标题、摘要、关键词等。而这些文本在由专家进行的手工科技文本分类场景中可能承担不同的作用,例如专家可能可以简单的通过阅读标题来确定申请书的主要学科从属,但如果需要进行更细粒度的分类,也许需要研读申请书的摘要或是正文。


最后,层次化的学科体系本质上来说是一类由专家编撰和设计的具有层次信息的标签系统,具有自反性、非对称性和传递性。如何利用这一类标签的层次特点减少模型在预测时的困难?



上图是交叉学科科技文本推理的例子,一份包含多类别文本的交叉学科科技文本(左图 1)将会在包含大量学科主题的层次标签体系(右图 1)下推理得出一到两条主题路径(中间图)。例如在这个例子里的左侧一条路径中,F 表示信息科学,F06 表示人工智能,F0601 表示人工智能基础。



针对上文提到的三个任务的特性,本文设计了一种基于 Transformer 的迭代式主题推理层次多标签分类模型:语义抽取部分(Semantic Information Extractor)设计了一个层次化的 Transformer 架构,来获取并融合不同类别文本的语义信息,交叉学科主题抽取(Interdisciplinary Knowledge Extractor)通过一张预先构建的交叉学科知识图获取层次学科体系上每个标签的表达。


信息融合部分类似于 Transformer Decoder,将会自适应地融合由语义抽取获得的各部分文本的语义表征与交叉学科主题抽取初始化的各历史预测结果的交叉表征,并结合注意力机制随着推理粒度的加深改变对每一部分的关注度。


最后,层次推理将会迭代地更新历史预测信息并推理新的主题路径。该迭代架构同时可以保证模型能够在专家提供粗粒度标签的场景下模型进行接续预测,补全剩余的细粒度标签。




实验结果


实验部分主要在三个交叉度依此提高的 RP-all、RP-bi、RP-differ 数据集上进行,使用了两个多标签分类的评价指标 Micro-F1 与 Macro-F1。


实验结果表明模型在推理过程中不但能够在整体上取得优秀的表现,同时,在分层预测的评估中,模型也能取得最好的表现。各部分的消融实验也证明了模型设计的不同组件对于该场景下主题推理的有效性。



除了使用多标签分类指标评价外,本文还研究探讨了推理过程具体的有效性,在与基金委专家沟通后,本工作将不同层级的错误用带权值的编辑距离来定量评估(Interdisciplianry Distance,交叉距离),每一个层级出现错误的惩罚分别为 {1, 10, 30, 50}。例如真实标签在第四层的主题标签为 A010101 而模型在该层推理出 B010101 时,该案例与真实值的距离为 50。


同时,实验还统计了不同层级出现不同错例的情况,如 Lack 表示模型在之前层级停止了预测,TooMuch 表示模型未在正确层级停止预测,Wrong 表示模型预测出了一个不符合层次依赖的标签,而 Other 表示其他所有错误情况。



可以看到模型在各个层级的交叉距离都并不大,与第二、第三好的基线模型对比也有着较大的提升。同时根据错例分析,模型主要产生误差的场景为相对谨慎地提早停止预测(Lack 错误)。这些评估对于之后在实际场景部署有着很好的参考价值。


本工作还对模型各个模块注意力机制、可解释性、模型利用专家提供的部分标签进行接续预测等角度进行了丰富的实验论证和评估,详情可见正文。




结语


本文描述了分层跨学科主题推理模型 HIRPCN,这是一种基于 Transformer 的面相真实科技文本数据的自定向下层次多标签分类方法。


实验部分验证了 HIRPCN 在三个真实世界数据集上能够取得最佳性能,除此之外,HIRPCN 还可以寻找到每个级别的最合适的最细粒度推理。


实验部分还讨论了模型的注意力机制,并且验证了模型在领域专家评估下修复不完整的跨学科标签。HIRPCN 可以从任意给定的标签开始预测,在真实系统中承担起人工智能辅助系统的功能,这在现实场景中对改进审稿人、评审专家分配这一任务至关重要。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


相关阅读

  • Copilot:科技巨变的蝴蝶效应

  • 《侠说》:新电商,商业智能,房产/金融需要下载报告的朋友,可扫下方二维码付费成为会员,侠说智库已含2.7万+份报告,5100+会员,下载不限制,基本保存日更新。文末加微可免费入群交流~➤~
  • 【技术分享】如何利用API对AI发动攻击?

  • 前 言 现在机器学习即服务(Machine Learning as a Service,MLaaS)是非常热门的,很多大厂都把自己的模型开放作为其云平台的一项服务,国外的Google,Amazon,国内的Baidu,Face++等
  • 语言智能时代呼唤语言学理论创新

  •   ChatGPT等语言智能技术的出现与应用,对语言学、语言教学、写作、出版等领域带来了一定冲击,并引起了不少争议。随着技术公司的不断涌入以及全球用户的不断增加,各种支持和
  • 中信建投:重视AI算力投资机遇

  • ‍重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅
  • 仲裁申请书应当载明哪些内容?

  •   申请人申请仲裁应当提交书面仲裁申请,并按照被申请人人数提交副本。  仲裁申请书应当载明下列事项:  (一)劳动者的姓名、性别、出生日期、身份证件号码、住所、通讯地址

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • TKDE 2023 | 交叉学科项目申请书学科代码生成

  • ©PaperWeekly 原创 · 作者 | 肖濛单位 | 中国科学院计算机网络信息中心研究方向 | 文本分类摘要本文介绍来自中国科学院大学、中佛罗里达大学、澳门大学与香港科技大学 (广
  • 长顺:“盘活”闲置资产 “唤醒”沉睡资源

  • 近年来,长顺县长寨街道因地制宜,多措并举盘活低效闲置资产,通过租赁、转包、整合等方式,强化村集体“造血”功能,让“沉睡资产”变“增收活水”,有效激发农村各类要素活力,助力乡村