文章信息
Hyper-parameter optimization of multiple machine learning algorithms for molecular property prediction using hyperopt library
Jun Zhang (张俊), Qin Wang (汪勤), Weifeng Shen (申威峰)
Volume 52, December 2022, Pages 115−125
https://doi.org/10.1016/j.cjche.2022.04.004
识别查看全文
Chinese Journal of Chemical Engineering
研究背景
深度神经网络和其他机器学习模型的预测性能在很大程度上依赖于模型超参数的选择。然而,目前研究主要通过网格搜索法或依靠经验选择的方式确定超参数。网格搜索方法对整个搜索空间的搜索效果较好,当网格搜索间隔设定的足够小时就可以获得全局最优解,但会消耗大量的计算资源。通常,在不同数据集上训练的机器学习模型对应不同的最优超参数,因此通过经验选择最优超参数的概率非常小。贝叶斯优化算法作为一种非常高效的优化算法,也被广泛的应用到机器学习超参数的优化,但该算法的应用对使用者编程能力较高,使得许多化工领域的学者望而却步。在本研究中,我们通过使用嵌入了贝叶斯优化算法的hyperopt数据库对多种分子性质预测机器学习算法进行超参数优化,并与基于网格搜索法的超参数优化进行多指标的对比。
成果展示
本文构建的基于贝叶斯优化算法的超参数优化框架如下图所示,主要由特征工程、机器学习模型搭建和超参数优化以及预测性能评价组成。
图1 机器学习预测模型的超参数优化的框架
通过Precision, Recall, F1-score, accuracy, Cohen’s kappa (CK), Matthews correlation (MCC)和AUC这6个评价指标对基于贝叶斯优化算法的超参数优化模型和基于网格搜索的超参数优化模型进行对比,其结果如下图所示。结果表明,贝叶斯优化算法能够非常高效的确定机器学习预测模型的最优超参数组合,相比于网格搜索法能够显著的节约计算资源和优化时间。
图2 针对Chagas disease数据集预测结果对比,(a) BNB、(b) LLR、(c) ABDT、(d) RF、(e) SVM和 (f) DNN模型
图文导读
该工作通过贝叶斯优化算法和网格搜索法来优化不同机器学习预测模型的超参数,并对比了在不同数据集上的预测性能。实验结果表明贝叶斯优化算法能够更加高效的寻找到机器学习的超参数组合,且适应性更强。但是贝叶斯优化算法也有可能陷入到局部最优,需要一种更加有效的跳出局部最优的机制来寻找全局最优的超参数组合。
图3 通过(b)贝叶斯优化算法,(c)网格搜索法,(d)任意选择方法在(a)超参数搜索空间中对超参数进行优化的结果
表1 在不同数据集上基于贝叶斯优化算法的超参数优化结果
表2 根据评价指标对不同机器学习模型的标准化分数进行重新排名
作者及团队介绍
申威峰, 工学博士,教授,博士生导师,重庆大学科学技术发展研究院副院长。国家自然科学基金优秀青年基金获得者,重庆市自然科学基金杰出青年项目获得者,重庆市青年拔尖人才,重庆高层次人才,《中国化学工程学报英文版》编委,《过程工程学报》编委,国家工信部工业节能行业标准化总体组专家委员,中国化工学会过程模拟委员会委员,中国系统工程学会过程系统工程专业委员会委员,中国化工学会化工过程强化委员会委员。2009年在重庆大学获得工学硕士学位,2012年在法国图卢兹大学国立综合理工学院获得工学博士学位,2012−2015年美国克拉克森大学博士后、荷兰皇家壳牌石油助理研究员。
主要从事智能化工与系统节能降碳研究。共发表SCI论文近100篇,以第一或通讯联系人发表SCI论文80余篇, 其中包括化工三大刊:AIChE J(5篇)、Chem. Eng. Sci.(3篇)、Ind. Eng. Chem. Res.(19篇),化工系统工程顶刊:Comput. Chem. Eng.,绿色生态类:Green Chemistry、J. Clean. Prod.,能源类:Energ. Convers. Manage.、Energy,6篇文章入选ESI的1%高被引论文,1篇入选ESI的1%热点论文,出版专著1本。以第一完成人获重庆市科技进步奖二等奖1项。主持包括国家自然科学基金委:优青项目、面上项目、青年项目,国家重点研发计划子课题,重庆市面上项目,重庆市社会民生类应用示范,留学人员回国创新支持计划,中央高校重点项目等国家、省部级、中央高校等项目10余项。长期为AIChE J 等20余家SCI期刊审稿。在未来论坛「AI+化学与制药」,中美化学工程会议,全国过程模拟与仿真会议作主题或邀请报告。聚焦工业能耗大的工艺装置流程,开展节能降碳与系统智能化研发,研究成果在行业得到应用和推广,助力企业的环境、社会及经济效益最大化,助力国家“双碳”目标。
点击下方“阅读原文”查看摘要及更多信息
关于CJChE
Chinese Journal of Chemical Engineering (CJChE),即《中国化学工程学报(英)》,是由中国科学技术协会主管、中国化工学会和化学工业出版社主办、化学工业出版社与Elsevier合作出版的化工领域综合性英文学术期刊。1982年创刊,1993年更名后重新立卷,时任主编湿法冶金开拓者陈家镛和国际著名精馏专家余国琮两位院士,中国化工学会会刊。创刊以来,经历了由半年刊改为季刊、双月刊直至月刊的发展过程。目前为月刊,大16开,国内外公开发行。现任主编清华大学费维扬院士,执行主编骆广生教授。
本刊以反映我国化工领域中具有创新性的科学研究成果,促进国内外化工学术发展与交流,培养化工科技人才为宗旨,立足于我国乃至世界化学工程领域的发展前沿和国民经济的重大需求,主要刊载原创性的化工基础理论、新技术、新方法、新装备和新材料的研究论文,报道有重要价值的基础数据和对学科发展和技术进步起指导作用的综述与专论。内容范围包括化学工程、化工工艺、化工设备、过程开发、化工冶金以及与之相关的生物、信息、能源、材料、环境工程、安全工程等高新技术领域。
自1996年以来,本刊连续被SCIE、EI、SCOPUS、CA、Dimensions、《中国科技论文统计与分析》、《中国科学引文数据库》等国内外著名的检索系统及数据库收录,读者覆盖100多个国家和地区。根据科睿唯安公布数据,CJChE2021年影响因子3.898,中科院和SCI双2区。2012—2022连续11年荣获“中国最具国际影响力学术期刊”称号,2012年获中国科协“学会能力提升专项”优秀国际科技期刊二等奖,2019年入选中国科技期刊卓越行动计划梯队期刊项目,2020年入选全国石油和化工期刊百强榜,入选第五届中国国际化精品科技期刊。
CJChE已开通投稿绿色通道,鼓励原创!欢迎您向Chinese Journal of Chemical Engineering 投创新性强、对化工及交叉领域发展具有重要推动作用的稿件!
CJChE官网 http://www.cjche.com.cn
投稿前请您仔细阅读投稿须知,感谢您的配合!
CJChE编辑小助手
扫码加好友 | 加入学术交流群
验证请写明 姓名+单位