华泰金工 | 九坤Kaggle量化大赛有哪些启示？--粉丝服务平台-粉丝头条-fensifuwu.com

日期： 2023-03-01 04:38:36 来源：华泰证券金融工程收集编辑：林晓明何康

人工智能系列之64：从九坤Kaggle量化大赛高分方案中寻找借鉴。本文梳理2022年九坤Kaggle量化大赛高分队伍解决方案，提炼出特征工程、损失函数、交叉验证、模型集成四个主要方向，并应用于华泰人工智能中证500指数增强策略改进。结果表明：(1)特征工程引入均值因子对神经网络有效；(2)CCC损失优于MSE损失和IC损失；(3)时序交叉验证作用不明显；(4) 集成神经网络和决策树类模型提升较稳定。对比整合多项改进的模型与基线模型，回测期2011年至2022年内，年化超额收益从14.2%提升至17.0%，信息比率从2.3/2.4提升至2.7。

摘要

多家头部量化机构在Kaggle发布竞赛，九坤竞赛贴近实际量化选股场景

随着数据科学在线社区日益成熟，越来越多的爱好者投身于网络编程竞赛之中。Kaggle是全球知名的数据科学在线平台之一，Two Sigma、Optiver等头部量化机构曾在Kaggle发布挑战竞赛。国内量化私募九坤投资于2022年1月启动Kaggle竞赛，吸引两千多只队伍参赛。比赛具体任务为基于给定的A股匿名特征，预测股票未来短期收益，最终评价指标为预测收益和真实收益的IC值，属于典型的监督学习问题，和实际量化选股场景较贴近。

四个改进方向：引入均值因子，引入CCC损失，时序交叉验证，模型集成

我们梳理九坤Kaggle量化大赛高分队伍解决方案，提炼出四个改进方向。(1)特征工程引入截面上全部股票因子的均值，均值因子可能反映原始因子整体分布的时变特性，是市场环境的一种简单表达。(2)损失函数引入一致性相关系数CCC，可视作IC和MSE的融合，兼顾相关性和距离。(3)采用时序交叉验证选取最优超参数。(4)集成不同类型机器学习模型。以神经网络和XGBoost构建中证500指数增强策略作为基线，测试上述技巧的改进效果。

均值因子对神经网络有效，加权CCC损失回测表现好，模型集成提升稳定

四项改进技巧效果各异。特征工程引入的均值因子对神经网络有提升，但削弱了XGBoost模型。损失函数中，MSE表现不突出；IC损失单因子测试表现好，但指增组合回测表现差；CCC损失在单因子测试表现一般，但指增组合回测表现较好；加权均优于等权。交叉验证调参改进不显著，考虑到时间开销大，性价比不高，算力有限前提下，使用经验超参数即可。模型集成提升较稳定，神经网络类和决策树类模型有互补效果。

讨论：(1)如何使用弱因子；(2)因子合成和组合优化的目标错配问题

研究发现均值因子对神经网络有效但对XGBoost无效。均值因子属于弱因子，有用但比重不宜过大。XGBoost引入弱因子后，特征采样使原始因子可能被排除在外，从而削弱模型。神经网络可通过预处理缩小取值，有限度地使用弱因子。研究还发现IC损失单因子测试优于MSE损失，但指增组合表现差，本质是因子合成和组合优化的目标错配。IC属于全局统计量，不会侧重于个别头部样本，但这些样本可能对组合优化影响较大。MSE的特点之一是给予极端误差较大惩罚，恰好弥补IC弱点。CCC融合IC和MSE，兼顾共性和个性，是一类理想的损失函数。

目录

01 研究导读

02 九坤Kaggle量化大赛高分方案解析

特征工程

损失函数

交叉验证

模型集成

03 方法

04 结果

特征工程

损失函数

交叉验证

模型集成

05 讨论

均值因子在神经网络和XGBoost间的差异，兼谈如何使用弱因子

MSE和IC损失函数的差异，兼谈因子合成和组合优化的目标错配问题

06 总结

参考文献

风险提示

正文

01 研究导读

得益于数据科学在线社区日益成熟，机器学习和大数据的学习门槛逐渐降低，全球的爱好者都可以通过在线平台参与编程训练和竞赛项目，和顶尖团队进行较量和探讨。Kaggle正是影响力较大的平台之一，囊括了超过500项竞赛、5万个数据库和40万组代码。美国白宫、斯坦福大学、北京大学、微软、谷歌等机构和企业都曾在Kaggle发布竞赛，征集解决方案。

量化投资和机器学习、大数据关系紧密，多家量化投资机构也在Kaggle平台发起挑战竞赛，发布方不乏Winton、Two Sigma等知名对冲基金，也包含Jane Street、Optiver等头部做市商。项目内容大多是基于资产历史行情、新闻数据或匿名特征，预测未来收益率或波动率。下表整理了Kaggle平台量化投资相关竞赛。2022年1月，国内量化私募九坤投资也上线Kaggle竞赛，受到市场关注，2893支队伍参赛，最终前10名队伍获得10万美元奖金。

本文的主题是“抄作业”，九坤Kaggle量化大赛高手云集，高分队伍是否有经验值得借鉴？我们梳理了部分高分队伍公布的解决方案，提炼出有共性的四个方向——特征工程、损失函数、交叉验证和模型集成，并应用于中证500指数增强策略的改进。结果显示，改进策略相比基线策略有稳定提升，回测期2011年至2022年内，年化超额收益从14.2%提升至17.0%，信息比率从2.3/2.4提升至2.7。测试的改进技巧中，神经网络引入均值因子、CCC损失、模型集成提升作用较显著。

02 九坤Kaggle量化大赛高分方案解析

九坤Kaggle量化大赛的具体任务为：基于给定的A股匿名特征，采用机器学习或深度学习算法，预测股票未来短期收益，评价指标为预测收益和真实收益的IC值均值，属于典型的监督学习问题。

大赛提供的训练数据超过18GB，每条样本为一只股票在一个交易日的数据，包含如下字段：

1. time_id：时间id，为有序数据。

2. investment_id：股票id。

3. [f_0:f_299]：300个匿名特征。

4. target：预测目标，股票未来一段时间的收益率，但未公布具体区间。

比赛于2022年1月开始，7月公布最终成绩，部分排名靠前队伍公开了解决方案，如上表。我们从众多方案中提炼具有共性的技巧，从特征工程、损失函数、交叉验证和模型集成四个方向展开介绍。

特征工程

特征工程是模型搭建前的数据预处理和新特征构造工作，特征工程的质量一定程度上决定了预测结果的好坏。数据预处理主要包括缺失值填充、异常值剔除和标准化；新特征的构造则依赖投资者的经验和对市场的理解。原始特征可能无法很好反映样本和潜在问题的关系，通过引入对原始特征处理和组合后的新特征，或可提升模型训练效果。

九坤量化大赛中，原始数据进行了预处理和匿名处理，无法基于因子含义构造新特征，这给特征构造增加了困难。我们发现多数高分队伍都进行了新特征的构造，仅有少数方案只使用原始的300维特征。第1、2、8名队伍都提到了构造“按照时间ID取平均的均值因子”，他们指出均值因子的引入对于模型效果有显著提升。

具体而言，假设f_0为某个因子，在每个交易日对全部股票的f_0求均值，即得到该交易日股票的均值因子f_mean_0。该交易日全部股票的f_mean_0取值相同，在交易日间有差异，反映f_0因子整体分布的时变特性。这一操作在传统机器学习中似乎不常见，构造一个全部股票取值相同的因子也略显反常，但在九坤量化大赛中有效。

关于均值因子的有效性和背后的含义，我们猜想：与其他领域的预测问题相比，股票收益率预测有其特殊性——未来表现不仅和股票本身特征相关，还与市场整体环境（如宏观状态、市场风格等）相关，规律存在时变特性，因此有必要引入特征刻画市场环境变化。均值因子反映原始因子整体分布的时变特性，是市场环境的一种简单表达，可能具备一定信息量。

损失函数‍‍‍‍

损失函数决定了模型的优化方向，损失函数的选择取决于评价指标、下游任务等因素。九坤量化大赛的最终评价指标为预测收益和真实收益的Pearson相关系数，即IC值，衡量预测值和真实值的线性相关程度，部分高分队伍直接采用IC值的相反数作为损失函数：

均方误差MSE是回归任务中常用的损失函数之一，衡量预测值和真实值间的距离，对偏离真实值的预测给予较大惩罚。部分高分队伍也采用MSE或RMSE（MSE的平方根）作为损失函数：

总结IC和MSE作为损失函数的优缺点：

1. IC衡量预测值和真实值的相关性。优点是和比赛最终的评价指标直接挂钩，也是量化机构都会考察的指标，不受量纲影响从而在模型间可比。缺点是非凸不保证收敛，可能导致训练不稳定。

2. MSE衡量预测值和真实值的距离。优点是易于计算和求导，具有凸性从而保证收敛，在数据噪声较小的情况下可作为IC的替代。缺点是受数据量纲影响。

九坤量化大赛的讨论区里，有选手提出使用一致性相关系数CCC（concordance correlation coefficient）作为IC和MSE的融合，同时考虑相关性和距离。CCC由Lawrence I-Kuei Lin在1989年于Biometrics发表的论文A concordance correlation coefficient to evaluate reproducibility中提出：

Pandit和Schuller在2019年于arXiv平台发布的论文The many-to-many mapping between the concordance correlation coefficient and the mean square error推导了其等价形式：

观察CCC的定义，(1)式分子中的ρxy代表x和y的Pearson相关系数，即IC；(2)式分母包含MSE。直观来看，分子考虑两组数据的相关性，分母对两组数据均值的偏离度进行了惩罚。实际使用中，可以取CCC的相反数作为损失函数。尽管高分队伍未使用CCC损失，我们仍可以从讨论区中获得启发。

交叉验证

交叉验证主要用于选择模型超参数。最简单的方式是单次验证，即选择固定比例的训练集和验证集。常用的方式是K折交叉验证，将原始数据分成K份，每次使用K-1份训练模型，使用剩余1份评价模型，对K次评价取平均作为该组超参数的整体评价。但K折的缺点是可能使用未来信息，第1、7名队伍均提到该问题，并提出使用时序交叉验证。

我们在《人工智能14：对抗过拟合：从时序交叉验证谈起》（2018-11-28）中介绍过该方法。时序交叉验证将原始数据按时间顺序划分为K份，第i次验证时，使用1至i份训练模型，第i+1份评价模型，避免未来信息，使用数据量约是K折交叉验证的一半。总的来看，时序交叉验证的优点是无未来信息，且使用数据量少时间开销低，缺点是可能存在欠拟合风险。

模型集成‍‍‍‍

模型集成可以看成机器学习中“免费的午餐”。完美训练单个模型难度很大，模型集成通过融合多个子模型，实现取长补短，为比赛中多数高分队伍采用。第1、8、17名集成了多种不同类型的子模型，如决策树类模型和神经网络模型；第2、3名集成了多个同类型的子模型。尽管投票法、Stacking等模型集成方法层出不穷，比赛中仍主要采用最简单的等权法。

高分队伍使用决策树类模型和神经网络模型作为子模型，两者有各自优势，集成能起到互补效果。决策树类模型对于数据的要求相对较低，对异常值、缺失值和特征间数量级不敏感，是在实操中较常用的一类模型。神经网络一般要求数据数量级一致、不能有缺失值，但可以通过批量训练将多个截面的信息一并地输入到模型中，自动构造出有效的新特征。

除上述四项外，高分队伍在模型架构上亦有可取之处，如第1名采用TabNet，第3名采用Transformer，但模型本身不是本研究关注的重点，故不作进一步测试。有少数队伍采用了独特的训练技巧，如第3名使某些特征随机变为0，第5名对预测目标取对数，对特征做分位数转换（未指明转换成何种分布），上述个性化处理也不在后文讨论之列。

03 方法

本研究在现有周频中证500指增模型基础上，引入九坤量化大赛中的技巧，测试改进效果。全部测试模型如下表。

基线模型为全连接神经网络（nn）和XGBoost（xgb），特征为42个常规的基本面和量价因子，标签为未来10个交易日收益率在截面上的排序，损失函数为加权mse（wmse），以截面上个股收益率排序进行衰减加权。交叉验证方法为单次验证，以252*6个交易日为训练集，252*2个交易日为验证集，252*0.5个交易日为测试集，相当于约半年滚动训练一次。交叉验证配合早停，仅用于确定模型的迭代次数，其余超参数均为固定值。

下面介绍四个方向的改进技巧：

1. 特征工程：除原始42个因子外，增加42个均值因子。针对每个原始因子，首先进行去极值；其次在截面上将因子转换为标准差等于1的分布，避免因子间量纲差异的影响；随后对截面上全部股票求均值；最后整体乘以0.01，突出原始因子作用，弱化均值因子影响。整体乘以0.01对模型的影响将在后文讨论。

2. 损失函数：测试MSE、IC、CCC三类损失函数，每类损失又分为等权和加权两种情况。其中加权CCC定义为：‍

XGBoost不便于自定义此类损失函数，故测试仅针对全连接神经网络。

3. 交叉验证：采用5折时序交叉验证结合网格搜索，确定XGBoost学习率和最大树深。神经网络训练时间开销大，故测试仅针对XGBoost。同样受限于时间开销，本文未测试K折交叉验证，网格搜索颗粒度也较粗。超参数搜索方式的优化有待进一步研究。

4. 模型集成：直接对全连接神经网络和XGBoost预测值取均值，两类模型等权。若神经网络有细分子模型，则内部再进行等权平均。

选股因子、模型构建方法及网络结构如下列图表。具体细节可参考华泰金工研报《人工智能55：图神经网络选股的进阶之路》（2022-04-11）。

04 结果

全部测试模型因子评价指标及回测绩效如下列图表。核心结论如下：

1. 特征工程引入的均值因子对神经网络有提升，但削弱了XGBoost。

2. 损失函数中，MSE表现不突出；IC损失单因子测试表现好，但指增组合回测表现差；CCC损失在单因子测试表现一般，但指增组合回测表现较好；加权均优于等权。

3. 交叉验证调参改进不显著，考虑到时间开销大，性价比并不高，算力有限前提下，使用经验超参数即可。

4. 模型集成提升较稳定，神经网络类和决策树类模型有互补效果。

特征工程

对比引入均值因子前后的表现。神经网络无论在Top组收益，还是在指增组合年化超额收益、信息比率方面，均有显著提升。但XGBoost在上述指标均有较大削弱。原因可能是XGBoost对均值因子的“过度”使用，具体将在后文探讨。

损失函数‍‍‍‍

对比神经网络模型MSE、IC、CCC三类损失函数，以及等权和多头加权两种方式的表现。

单因子测试结果可概括为“种瓜得瓜，种豆得豆”。IC损失下的IC均值和Rank IC均值较高，加权IC损失下的加权IC均值和加权Rank IC均值较高。多头加权损失的Top组收益均高于对应的等权损失。

但单因子测试和指增组合测试存在错位。加权IC损失的单因子多头收益和对冲收益均高于其余损失，但指增组合表现却低于除等权IC损失外的其余损失。CCC损失的单因子表现不算突出，但从指增组合表现看，无论是等权和加权，均优于对应的MSE和IC损失。加权CCC损失的年化超额收益和信息比率较出色。

交叉验证‍‍‍‍

对比XGBoost模型时序交叉验证调参的表现，调参后的模型仅在指增组合超额收益回撤比指标上有显著提升，其余重要指标反而略有削弱。但交叉验证调参的时间开销（近19小时）远高于不调参（近5分钟），在算力有限情况下性价比不高。

需要说明的是，本文采用网格搜索的调参方法效率较低，从而导致调参颗粒度较粗糙。基于贝叶斯优化的调参方法可以提升搜索效率，有待进一步测试。

模型集成‍‍‍‍

对比模型集成后的表现，各集成模型在单因子加权RankIC均值、多空收益、指增组合年化超额收益、信息比率上均有显著提升。并且子模型为改进模型（后3组）的表现优于子模型为原始模型（nn+xgb）。对比前述特征工程、损失函数、交叉验证的技巧，模型集成带来的提升幅度更大且效应更稳定。

05 讨论

均值因子在神经网络和XGBoost间的差异，兼谈如何使用弱因子

特征工程引入均值因子提升神经网络表现，但削弱XGBoost表现。要弄清此中原因，相当于用线性的人脑理解非线性模型的工作机理，难度颇大，我们尝试从下列角度分析。

首先，我们提出一个假设：均值因子属于弱因子，有用，但比重不宜过大。前文提到，均值因子是对市场环境的刻画，有一定信息量；高分队伍的实践也表明该因子有效。但我们同时观察到，比赛中第1、2名未使用全部300个匿名特征构建均值因子，而是筛选IC前100个特征构建，均值因子从数量上比重不高，模型对均值因子的使用是有限度的。并且从理论上分析，选股模型应侧重于个股信息的挖掘，市场环境信息只起到辅助作用。

其次，考察XGBoost模型的特征重要性，计算各期特征重要性均值，部分结果如下表。在引入均值因子的xgb_fe模型中，重要性最高的特征为bp_lf_mean，即bp_lf的均值因子。重要性排名前10的特征中，均值因子占据4位。XGBoost模型全部均值因子重要性之和占比44%，接近一半水平，比重较高。

再次，测试均值因子缩放系数的影响。预处理环节，我们对均值因子整体乘以0.01，突出原始因子作用，弱化均值因子影响。需要说明的是，从两类模型的原理看，特征的相对量级对神经网络有效，对XGBoost影响不大。我们进一步测试均值因子缩放系数为1e-4和1时的表现以验证上述猜想。

结果如下表所示，当缩放系数为1，即不对均值因子做缩放处理时，神经网络和XGBoost均表现较差。随着缩放系数的降低，神经网络有显著提升，在系数为0.01时已能战胜原始模型；XGBoost变化不大，都不能战胜原始模型。由此可见，神经网络主动降低均值因子值有一定效果，但对XGBoost不起作用。

最后，从理论角度分析两类模型训练过程。XGBoost对特征进行随机采样，在采样的候选特征中寻找最优划分方式，并非从全部特征中搜索。XGBoost引入均值因子这类弱因子后，原始特征被采样到的概率下降，可能被排除在候选特征外，导致模型预测效果下降。神经网络不涉及特征采样操作，因此可以通过缩小取值的方式，在合理限度内使用弱因子。

MSE和IC损失函数的差异，兼谈因子合成和组合优化的目标错配问题

本文另一个“反直观”的结论是IC和加权IC作为损失函数，单因子测试表现较好，但指增组合表现较差，弱于MSE和CCC损失。这也是因子投资长期存在的痛点，难度同样颇大，我们尝试做如下分析。

一个不会出错的回答是：单因子测试和策略回测有差异，其背后是因子合成和组合优化两步的目标错配。该问题早已为研究者关注，常用的样本多头加权，正是针对指数增强多头组合，在因子合成这步进行的修正（尽管未必是最佳解决方法），使因子合成的目标尽可能向组合优化的现实场景靠拢。

然而这并不能解答本文遇到的问题，即使是加权IC损失，在分10层多头收益高于加权MSE和加权CCC的情况下（25.0%，高于24.7%和24.2%），指增组合超额收益仍然大幅落后（8.3%，低于14.2%和15.4%），这又如何解释？

容易想到的解释是分10层还不够细。随着A股市场的扩容，指增选股数量在股票池的占比进一步减小，选股更加向头部集中。目前行业里常见的做法是分20层测试，结果如下图，加权IC多头端收益仍然优于加权MSE和加权CCC。看来问题不在于评价指标是分10层还是20层。

可否考察加权IC超额收益低于加权MSE的交易日，从个案出发寻找线索？我们统计加权MSE相比加权IC近10日超额收益，差距最大的交易日为2015年1月19日。由于预测区间为未来10个交易日，前推10日为2015年1月5日。我们对比该截面日下，各模型的预测值和真实值，如下图所示。

左图加权MSE模型的IC值为0.51，低于右图加权IC模型的IC值0.56。但观察预测值（横轴）排名靠前的样本（红点为前5名），这些点在左图对应的纵坐标也较大，表明真实收益高，但在右图的纵坐标不算高。这些预测值靠前的股票有大概率会被选中，且分配较高权重。该截面日股票池有1127只有效样本，即使分 20层测试，由于分层组合收益通常为等权重计算，这些点也会被淹没在Top组的50多只股票中，但恰恰是这些样本很大程度上左右了策略的收益。

至此我们得到下列关键结论：

1. 评价指标的角度：传统的单因子测试评价指标可能不适用于目前多头选股场景。IC值、t统计量等反映预测值的全局性，但对多头侧重不够，即使是加权IC、分20层回测多头收益，也会和最终选股组合表现脱节。

2. 损失函数的角度：以IC为损失函数，可以让评价指标变得很好看。但IC作为全局性的统计量，不会侧重于个别头部样本，但这些少数样本可能对组合优化影响很大。而MSE的特点之一是给予极端误差较大惩罚，恰好可以弥补IC的弱点。CCC结合IC和MSE的特点，同时学习数据中的共性和个性，在本文中表现好也就不难理解。

3. 因子合成和组合优化的目标错配：理想的解决方案是将两步放在相同的网络中进行优化，实现真正的端到端训练。但当前技术尚未成熟，我们也暂没有特别好的思路。相对现实的方案是设计因子合成的损失函数和评价指标，尽可能向组合优化场景靠拢。例如根据多头选股数量，确定损失函数和评价指标的多头倾斜程度；融合多种损失函数，或采用多目标训练等。

06 总结

本文梳理2022年九坤Kaggle量化大赛高分队伍解决方案，提炼出特征工程、损失函数、交叉验证、模型集成四个主要方向，并应用于华泰人工智能中证500指数增强策略改进。结果表明：(1)特征工程引入均值因子对神经网络有效；(2)CCC损失优于MSE损失和IC损失；(3)时序交叉验证作用不明显；(4) 集成神经网络和决策树类模型提升较稳定。对比整合多项改进的模型与基线模型，回测期2011年至2022年内，年化超额收益从14.2%提升至17.0%，信息比率从2.3/2.4提升至2.7。

四项改进技巧效果各异。特征工程引入的均值因子对神经网络有提升，但削弱了XGBoost。损失函数中，MSE表现不突出；IC损失单因子测试表现好，但指增组合回测表现差；CCC损失在单因子测试表现一般，但指增组合回测表现较好；加权均优于等权。交叉验证调参改进不显著，考虑到时间开销大，性价比不高，算力有限前提下，使用经验超参数即可。模型集成提升较稳定，神经网络类和决策树类模型有互补效果。

参考文献：

Lin, I. K. . (1989). A concordance correlation-coefficient to evaluate reproducibility. Biometrics, 45(1), 255-268.

Pandit, V. , & Schuller, B. . (2019). The many-to-many mapping between the concordance correlation coefficient and the mean square error.

风险提示：

人工智能挖掘市场规律是对历史的总结，市场规律在未来可能失效。人工智能技术存在过拟合风险。深度学习模型受随机数影响较大，本文未进行随机数敏感性测试。本文测试的选股模型调仓频率较高，假定以vwap价格成交，忽略其他交易层面因素影响。

服务粉丝

华泰金工 | 九坤Kaggle量化大赛有哪些启示？

文章推荐

相关阅读

华泰金工 | 利用文本和反转改进机构调研选股

看懂元宇宙的三个世界模型|认知建模笔记翻译（5）

跟ChatGPT聊查理·芒格，回答让我很惊喜

从初学者角度的二次解读文章 - 《自己实现黑白图片自动上色AI》

没有 β、都是 α ?

Cochrane Asset Pricing, Preface

因子投资的高维数时代

再见 2022

数据驱动的投资思想史

因子动量和动量因子

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

华泰金工 | 九坤Kaggle量化大赛有哪些启示？

华泰金工 | 基金个股仓位测算与偏股混指数增强

华泰金工 | HYCLE月报：经济基本面或将成为海外市场核心驱动

华泰金工 | TMT板块底部特征或显现

贪婪、恐惧与希望

华泰金工 | 利用文本和反转改进机构调研选股