本文构建了对标万得偏股混合基金指数的增强策略,该指数代表偏股混合型基金的市场中位数水平,指增策略以较高年度胜率战胜基准,回测期20101230~20221230区间内,指增组合年化收益19.78%,年化超额12.30%,信息比率1.39。指增组合的构建分为两步进行:第一步对万得偏股混合基金指数的成分股进行穿透,以股票持仓来模拟指数;第二步基于穿透持仓,使用基于非线性或线性模型的多因子指增模型构建指数增强组合。构建的指增组合调仓频率较低(月频),持仓数量少便于实际操作(平均持仓数量在30-35只之间),且组合仓位对标偏股混合基金权益仓位,自带仓位控制,能以较高胜率战胜市场中位数水准。
本文构建了对标万得偏股混合基金指数的增强策略,该指数代表偏股混合型基金的市场中位数水平,指增策略以较高年度胜率战胜基准,回测期20101230~20221230区间内,指增组合年化收益19.78%,年化超额12.30%,信息比率1.39。指增组合的构建分为两步进行:第一步对万得偏股混合基金指数的成分股进行穿透,以股票持仓来模拟指数;第二步基于穿透持仓,使用基于非线性或线性模型的多因子指增模型构建指数增强组合。
在较长的时间区间维度下连续战胜市场中位数难度较高
万得偏股混合基金指数的成分为万得二级权益基金分类中的偏股混合型基金,成分基金等权持有,受基金规模影响较小,每年在偏股混合型基金中的排名大约在中位数上下浮动。拉长时间尺度来看,能连续战胜市场中位数的基金占比较低:成立8年以上的普通股票型和偏股混合型基金中,有超过6年以上每年排名同类可比产品前50%的基金占比仅为13.37%,连续8年均排名前50%的基金占比为零,说明长时间维度下连续战胜市场中位数难度较高,每年都排名前列难度更高。
对偏股混合指数股票持仓进行穿透,分两步骤进行
由于偏股混合指数持仓为基金,无法直接构建指增组合,因此需要对成分持仓进行测算。分两步对持仓进行高频测算:首先对基金季报非重仓股进行补全,季报只披露十大重仓,结合最近披露的年报或半年报详细持仓、季报披露的重仓以及基金净值,使用二次优化法对非重仓股进行补全。其次基于补全的季报详细持仓,以及日频基金净值,使用二次优化法对月频个股持仓进行测算。每月末对所有偏股混合型基金测算得到的个股仓位求均值,得到偏股混指数的个股仓位估计。
仅个股仓位模拟的净值无法紧密跟踪指数,还原打新收益后跟踪效果更好
如果仅基于测算出的指数个股仓位对偏股混合指数进行模拟,发现模拟净值无法紧密跟踪指数,我们考虑纳入基金的打新收益。打新一直是机构投资者比较关注的话题,2019年科创板股票上市将这一话题推向了新的高潮。我们根据5条假设,对适当规模的偏股混合型基金打新收益率进行测算,并在模拟净值中还原这部分打新收益,发现经还原以后的模拟组合可以较为紧密地跟踪基准指数,每年区间收益差值在零附近小幅波动。
基于穿透持仓,采用非线性模型构建指数增强组合
基于测算出的高频穿透持仓,我们进一步构建偏股混合基金指数增强组合
使用估值、成长、反转、换手率、分钟线、一致预期及文本等因子作为输入,采用XGBoost和线性回归两类模型进行滚动训练因子合成,并使用最大化预期收益的方式构建指数增强组合,控制相对基准指数的行业及市值中性。基于非线性模型的指增组合在回测期20101230~20221230区间内,年化收益19.78%,基准指数年化收益7.48%,年化超额12.30%,信息比率1.39。
指增组合的优势:调仓频率低,持仓较为集中,自带仓位控制
本文构建的指增组合调仓频率较低(月频),持仓数量少便于实际操作(平均持仓数量在30-35只之间),且组合仓位对标偏股混合基金权益仓位,自带仓位控制,除2017年外每年在偏股混合基金中排名均位于市场前50%,年度胜率超过90%。
风险提示:机器学习模型构建的选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。本文不涉及基金推荐业务。
01 研究导读
02 万得偏股混合基金指数
指数简介:特点是成分基金等权计算
业绩对比:稳定战胜偏股混合基金指数并非易事
03 基金个股仓位高频测算
基金季报非重仓股补全
基金个股高频仓位测算
04 偏股混合基金指数模拟
05 偏股混合基金指数增强
增强模型
增强结果
06 总结与展望
风险提示
01 研究导读
回顾A股发展历史,2009~2015年小盘股行情盛行,小市值因子高歌猛进,投注于小盘股票的基金表现一骑绝尘;2016~2017年价值风格兴起,以白马蓝筹股为代表的“漂亮50”持续走强,小市值偃旗息鼓,重仓大盘价值的基金风云睥睨;时间线进入2019~2021年以后,赛道行情兴起,在低利率和货币超发的环境下,估值中枢提升,机构投资者抱团于高确定性高景气的赛道龙头,押对赛道的基金将风格演绎到极致。
但回首总结,很难说哪一类型基金能跨越牛熊持续站在市场榜首。我们统计了成立8年以上的普通股票型和偏股混合型基金(只计入初始基金份额,总样本共359只)在过去8年间有超过N年以上(N考察2-8)每年排名同类可比产品前30%/50%的占比,如下图所示。当时间尺度达到5年以上时,每年都能排在市场前列的基金占比已经较低。8年中每年都排名位于市场前列的基金占比为零。
对于长期投资者而言,如何稳定战胜市场成为不得不考虑的问题,这里“战胜市场”需要先行厘定。从上述图表来看,即使我们只考虑每年排名都位于市场前50%,当时间维度够长以后也是一项具有困难的挑战,遑论每年都在市场名列前茅。因此不如把每年的要求放宽,追求长期的稳健。
本文从量化的视角出发构建能长期稳定战胜主动权益基金市场中位数的选股策略。具体来说,万得偏股混合基金指数代表了市场中位数水平,我们以该指数为对标基准,构建指数增强策略,希望能以较高胜率战胜基准。对标该指数的增强策略主要分为两步:第一步,由于该指数的成分为偏股混合基金,因此我们需要对股票持仓进行穿透估计;第二步再基于测算持仓使用非线性模型或线性模型构建指数增强组合。
第一步中本文采用结合财报披露持仓及基金净值的二次优化方法对基金高频仓位进行测算,并根据偏股混合基金指数的编制方法用股票持仓模拟出指数本身,构建出的模拟组合可以较好地跟住指数表现;第二步中本文采用XGBoost和线性回归两种模型构建多因子指数增强组合,在回测期20101231~20221230回测期内,非线性模型年化收益19.78%,相对于基准指数年化超额收益12.30%,信息比率1.39,超额收益最大回撤13.05%(注意为方便与偏股混合基金指数比对,这里的业绩包含测算打新收益)。
本文构建的指增组合调仓频率较低(月频),持仓数量少(平均持仓数量在30-35只之间),且组合仓位对标偏股混合基金的权益仓位,自带仓位控制,除2017年外每年在偏股混合基金中排名均位于市场前50%,年度胜率超过90%。
02 万得偏股混合基金指数
最近三年权益基金市场发展迅速,自2019年下半年开始结构性行情特点较为明显,部分赛道型主动权益基金涨幅较大,受到投资者的广泛关注。万得早在2013年就推出系列投资类型指数来刻画不同投资类型基金的市场整体表现,偏股混合型基金指数是系列其中之一,该指数自2019年1月至2021年1月约两年时间涨幅超过100%,明显跑赢主流宽基指数,部分基金公司开始筹备运作以该指数为基准的基金产品。
指数简介:特点是成分基金等权计算
万得未公布偏股混合基金指数的详细编制方法,通过成分基金的分析及万得公开资料,可以总结出其大致的编制方案:
1. 成分基金的范围:成分基金为万得二级基金分类中的偏股混合型基金(其他权益基金二级分类:普通股票型、平衡混合型、被动指数型、指数增强型和灵活配型);
2. 指数收益的计算:采用成分基金复权净值日收益率等权作为指数日频收益率;同一基金有多种份额的,所有份额都等权纳入;成分基金包括每日开放式基金、定开基金及持有期基金;
3. 成分基金的纳入:成分基金不定期调整,新基金成立满3月后纳入成分基金;在样本出现调整后才进行等权的成分权重计算,否则按上次的权重结果继续运行;
4. 成分基金的剔除:成分基金类别发生变更时,例如变更注册、产品到期等原因,及时调整成分基金,剔除非偏股混合型基金;
该指数的特点是所有成分基金等权计算,这与主流宽基指数的流通市值加权有所不同。流 通市值加权的宽基指数受到大市值个股影响较大,也即我们常称的“权重股”;而偏股混合 基金指数对所有成分基金一视同仁,会呈现以下另类特点:
1. 大规模基金和迷你基金对指数的影响相同,不会因为部分规模较大的基金或行业主题基金押注于某些板块或风格而对指数本身的风格造成过于明显的影响,指数代表的是市场整体水平;
2. 类似于股票,基金也存在“小规模效应”,大规模基金由于调仓交易、流动性等操作层面的约束,长期来看表现不如小规模基金;该指数对大小规模基金的一视同仁反而使得其受此影响更小。如右下图所示,我们在每季度次月末将所有偏股混合型基金按最新披露的规模从大到小划分为5档,每档内成分基金等权持有3个月直至再平衡,可以看到小规模组基金表现优于大规模组(分层1表示小规模组,分层5表示大规模组)。
业绩对比:稳定战胜偏股混合基金指数并非易事
万得偏股混合基金指数与沪深300、中证500指数的净值对比如下图所示,可以看到相比于宽基指数的超额收益主要在2019年以后产生,主要是由于市场结构化行情以及公募基金抱团持股情况使得偏股混合型基金业绩表现明显优于宽基指数。
我们分年度统计各指数在偏股混合型基金中的排名,统计基金数量时只计入初始基金份额。偏股混合基金指数每年的排名在50%上下浮动,表明其确实代表了市场的整体水平,即市场中位数水准。沪深300及中证500的分位数排名则方差较大,部分年份能排进前20%,而部分年份甚至低于90%分位数。从这个角度来看,在公募主动权益基金同类排名的考核体系下,以沪深300与中证500为对标基准或许并不是最优选择。
进一步统计成立2/3/5/8年的偏股混合型基金每年都战胜偏股混合指数的占比。为便于统计,若基金成立时间大于当前考核年份,则取最近N年;例如某只基金成立5年,当我们考核2年这个尺度时,该基金也纳入考虑,但是仅考察最近2年是否连续战胜指数。考察截止日期为2022年12月30日。从结果来看,考察时间区间越长,每年都能战胜指数的基金占比越低;当考察区间为5年时,仅有3.25%的基金能每年均超越基准指数;当考察区间为8年时,只有2只基金每年均超越基准指数(这两只基金分别为:交银先进制造A,519704.OF,2022Q4最新规模99.96亿元;交银趋势优先A,519702.OF,2022Q4最新规模99.56亿元)。从这个结果来看,想要每年均战胜市场中位数并非易事,时间区间越长越难做到。
接下来我们将从量化的视角尝试对万得偏股混合基金指数进行增强。区别于传统宽基指数有直接可供参考的成分股数据,偏股混合指数成分为基金,没有现成的穿透持仓,因此首先我们需要对该指数的成分股进行拟合。
03 基金个股仓位高频测算
由于偏股混合基金指数的成分是偏股混合型基金,从选股增强的角度来说无法操作,因此需要对基金指数的成分股进行穿透,用成分股来模拟偏股混合基金指数。为达到这一目的,需要先对偏股混合型基金的个股仓位进行高频测算。
A股公募基金每年披露四次季报、一次半年报及一次年报,披露频率较低,且季报只披露十大重仓股而不披露全部持仓股票,半年报及年报披露全部持仓股票。除财报外,重要的公开信息为公募基金每日净值,个股仓位的高频测算将利用以上两部分数据展开。
基金季报非重仓股补全
首先我们对基金季报非重仓股进行补全,在此基础上再进行个股仓位更高频的测算。之所以要先补全季报非重仓股,是因为季报还披露报告期基金股票总仓位、债券总仓位及股票仓位在证监会行业的占比,这些信息可以及时对个股仓位的测算进行修正。
公募基金季报规定在季度结束后15个工作日内披露;年报规定在年度结束后的三个月内披露,但是年度结束后(同时对应四季度结束)15个工作日内要披露四季报;半年报在半年度结束后两个月内披露,但是半年度结束后(同时对应二季度结束)15个工作日内需要披露二季报。
一般来说,对一、三季报补全即可,二、四季度可以使用半年报/年报披露的详细持仓。但是半年报/年报发布滞后周期较长,如果等到半年报/年报披露再更新持仓信息则二、四季报披露的十大重仓股、股票仓位、证监会行业配置信息则无法充分利用。因此我们也对二、四季报的非重仓股仓位进行补全。
季报仓位测算模型
每个季度非重仓股仓位补全的目标函数公式推导如下:
上述目标函数中的第一项表示我们使用过去20天的基金日频净值来对个股仓位进行测算,希望最小化模拟净值与真实净值之间的偏差,采用时间衰减加权,离测算截面期越近的交易日权重越大;第二项对权重进行约束,为约束的目标权重。从数学角度来说,目标函数的第一项本质是加权最小二乘回归,可能出现较严重的共线性问题,目标函数的第二项类似于岭回归的损失函数,旨在降低共线性带来的影响。
关于参数,可以有两种选择:
方法一:在每个季度末截面期,将其设置为最近可得的半年报或年报的详细持仓,需要注意结合最新季报披露的总仓位对目标持仓进行调整。
例如一季报非重仓股补全,一季报已披露的十大重仓股固定不变,再根据季报披露的总股票仓位数据计算得到非重仓股的总仓位,以前一年年报披露的详细持仓剔除该期十大重仓股的剩余部分股票作为一季报非重仓股股票池,根据前一年年报的个股占比来分配非重仓股的总仓位。下图以T期一/二季报为例展示的计算,如果是T期三/四季报,则取T期半年报详细持仓作为参考。
的计算我们没有考虑证监会行业信息,这是因为并不是我们最终对季报仓位的完整测算,而是作为参考权重,证监会行业的信息我们在二次优化的约束条件中考虑。
方法二:在一、三季度末截面期,将其设置为最近可得的半年报或年报的详细持仓,同样需要进行上述权重调整;在二、四季度末截面期,将其设置为一、三季度末测算得到的详细持仓。与方法一的区别在于二、四季度的仓位补全可以融入一、三季度季报披露的持仓信息,理论上来说测算准确度更高。
二次优化还有一些约束条件:
条件1)表示前十大重仓股仓位季报披露已知;
条件2)表示债券仓位季报披露已知;债券收益用中债-国债总财富总值指数计算;
条件3)表示权益+债券总仓位季报披露已知;
条件4)表示非重仓股个股仓位介于0~之间, 表示重仓股的最低仓位;逻辑是已知该季度披露的十大重仓股,那么剩余股票权重不应高于十大重仓股;
条件5)表示证监会一级行业配置权重需要与已披露的行业权重相等。
二次优化需要确定备选股票池(即待测算季报期基金经理可能的持仓),这里我们选取为以下两部分并集:
1) 该基金最近两年披露的全部财报的详细持仓;
2) 证监会各行业当期市值前十的股票。
严格来说,同一基金经理近期的全部详细持仓、该基金经理近期调研过的公司、出现在上市公司十大股东中的基金,这些股票也可能是该基金的备选持仓,但高频仓位测算不是我们的最终目标,因此不作为本文的优化细节。
季报仓位补全结果
我们对比以上两种选取方法在不同惩罚参数下的测算偏差,将每年二、四季度的测算持仓与半年报、年报披露的真实详细持仓进行比对,计算个股平均预测误差。作为对比,我们还计算和真实详细持仓的误差作为基准。误差计算公式如下:
分子表示当期补全详细持仓,表示当期真实详细持仓,表示总的测算误差;如果是计算基准误差,则将替换为。分母表示当期真实详细持仓的持股数量。
取为方法一的测算偏差如下图所示,在每个截面期对所有偏股混合型基金的测算误差求平均或标准差,得到整体测算偏差。
取为方法二的测算偏差如下图所示
从测算偏差的均值和测算偏差的标准差来看,两种方法规律类似,惩罚参数越小偏差越小;持仓数量的偏差没有明显差别。当惩罚参数λ=0.1时,两种方法的对比如下图所示。从对比结果来看,方法二在整体的测算偏差均值和标准差上的表现更佳,这印证了前文我们的推测,即方法二可以融入一、三季度披露的持仓信息,测算误差更小。
从历史平均偏差来看,两种方法均为λ取0.1时平均偏差最小,λ越大平均偏差越接近基准,这是因为惩罚参数很大时,得到的最优权重会趋近于,即baseline。误差关于是单调的,即越小误差越小,但是我们不将置为零,是因为需要纳入已披露的财报信息。
基金个股高频仓位测算
高频仓位测算模型
基于前文补全的基金季报详细持仓,接下来我们进行更高频的基金仓位测算,从而达到高频偏股混合指数成分股穿透的目的。在没有基金财务报告披露的时期,可得的基金公开信息为每日的净值变化,基于基金每日净值可以测算其仓位。二次优化模型如下:
上述模型目标函数的推导与前文类似,目标仍然是最小化两项:第一项为测算持仓对基金净值的拟合,希望拟合误差最小化;第二项是测算持仓与目标持仓的偏差不要太大,缓解共线性问题。约束条件的第一项表示偏股混合型基金的权益仓位介于60%~95%之间,第二项对债券仓位进行限制,第三项表示个股权介于0~10%之间。
关于目标持仓的取法,不同频率下测算个股仓位时略有不同,月频测算如下图所示。
低于月频的测算频率下的选择如下图所示,为处理方便假设基金季报都在次月最后一个交易日发布。
高频仓位测算结果
我们采取月度频率对偏股混合型基金仓位进行测算,由于无法获知基金真实的月频详细持仓,因此在衡量测算偏差时无法计算和真实持仓的偏差,我们采用模拟净值和基金真实净值的偏差来衡量:
表示用测算详细持仓模拟出的当日收益率,表示基金真实的当日收益率,计算测算日期前后三日的误差总和来估计。值得注意的是,并不一定能完全拟合(例如后文我们讨论的打新收益),但是对所有参数测算的结果都有影响,因此在可变量相同的情况下可以对不同参数的进行对比。
在具体进行高频仓位测算时,我们首先需要选取基金季报详细持仓的补全方法,根据上一小节可知,λ取0.1且取方法二时平均偏差最小,因此在这里我们选定该方法作为我们高频仓位测算的基准,同时对高频仓位测算这一优化问题中的进行进一步测试。
图表26是在给定取值下,将全部时间序列上的全部基金的仓位测算偏差混合,求混合平均值与标准差;图表27与图表28则是对每个截面上的全部基金的仓位测算偏差求平均值与标准差,随后再将各个截面上所得值以时间序列的形式与进行呈现。
从结果来看,当λ取值为0.1时,偏差的均值与标准差均较优,分别为0.262%与0.283%。同样地,误差关于λ单调,即λ越小误差越小,但是我们不将λ置为零,是因为需要纳入已补全的基金季报持仓信息。
04 偏股混合基金指数模拟
前文我们得到了偏股混合基金详细持仓的月频测算,接下来我们尝试对偏股混合基金指数进行模拟。在此之前我们首先对偏股混合基金测算得到的持仓进行简单分析。
偏股混合基金测算持仓分析
将所有偏股混合型基金的持仓按个股计算平均,得到个股的市场平均配置仓位,进而分析偏股混合型基金总权益仓位、在不同行业和板块上的配置情况。总权益仓位配置情况如下图所示。2019-2020年结构性牛市中公募偏股混合基金权益仓位不断提高,2021年初“抱团行情瓦解”前后达到局部高位。2021-2022年整体权益仓位不断波动降低,2022年末权益仓位占比约为85.25%。
观察偏股混合型基金穿透持仓在板块及行业上的配置情况,板块划分及配置变化如下图表所示。2019-2022年电力设备及新能源行业的配置权重不断攀升,从2019年末的3.33%攀升至2022年末的11.82%,伴随电新的牛市量价齐升。医药行业的长期配置权重整体波动不大,2021-2022抱团瓦解后的盈利兑现期持仓权重不断被其他行业“蚕食”。食品饮料行业最近两年的持仓权重整体平稳。
指数模拟
接下来我们讨论偏股混合基金指数的模拟。由前文所述,偏股混合型基金由所选成分基金等权持有,因此我们在穿透持仓时也考虑所有偏股混合型基金的股票仓位等权持有。我们测试两种成分基金筛选方案下的模拟结果:
1. 选择成立时间在半年以上的偏股混合型基金;
2. 不对是否为初始基金进行筛选,不同份额基金都保留;
3. 剔除测算出的港股仓位;
4. 方案一:每个截面期选择规模为1~20亿之间的偏股混合型基金(不同份额分开计算);
5. 方案二:每个截面期不对基金规模进行限制,选择全部规模的偏股混合基金。
每月最后一个交易日结束后生成模拟持仓,次月第一个交易日按vwap价格进行调仓,若遇到停牌无法交易或涨跌停板的股票则相应调整持仓权重,手续费取双边千三。
从结果来看,两组方案模拟出的净值近似,但与万得偏股混合基金指数具有比较明显的差距,2017~2021Q3模拟净值持续跑输,尤其在2019-2020年大幅跑输,2021Q4以后模拟净值又能跟住偏股混合指数。这是因为上图模拟净值只考虑二级市场权益持仓部分,打新收益没有计入,而2019-2020恰好为打新大年,我们推测这部分收益会造成较大的影响,因此接下来我们考虑在模拟的权益持仓中还原打新带来的收益。
打新收益测算
打新一直是机构投资者比较关注的话题,2019年科创板股票上市将这一话题推向了新的高潮。华泰金工前期研究《拥抱打新盛宴,详解打新收益测算》(20200814)中详细介绍过打新收益测算流程以及公募基金年度基金打新收益和打新收益率,关于打新规则的更多介绍投资者可以参考上述研究报告。
在测算打新收益时,我们提出以下5条假设,结合新股的网下打新配售明细数据,详细测算基金的年度打新及打新收益率:
1. 在计算打新收益时,有锁定期的新股不算在内;
2. 非科创板新股在一字板连涨结束的开板日以vwap价格卖出;
3. 若非科创板新股不存在一字板连涨现象,则在上市首日以vwap价格卖出;
4. 科创板新股在上市首日以vwap价格卖出;
5. 根据以上4条假设可以测算出打新收益,在估算打新收益率时,我们对基金资产规模采取“平均法”的思路进行处理,比如:若计算基金产品A在2016年的打新收益率,则使用基金产品A在2016年的打新收益除以其在2015、2016年基金年报上披露的净资产的平均值(当基金资产净值出现较大变动时,此种测算方式可能带来较大误差)。
每个截面期选择最近财报期披露的规模为1~5亿元的偏股混合型基金(规模过小的基金,微小的规模变化都可能会对打新收益率造成很大的影响,测算准确性有限;规模过大的基金打新收益率可能会被规模稀释),测算其打新收益率,求均值作为整体打新收益率的估计。
接下来为使得模拟的偏股混合指数更为平滑,我们假设每月测算得到的打新收益均等分配到每一个交易日,再将模拟指数日频收益率还原为模拟指数净值。模拟指数日频收益率 = 日频打新收益率 + 穿透持仓日频收益率
同样地,穿透持仓按全部成分基金计和按1~20亿基金规模计算两种方案来模拟还原打新收益以后的偏股混合基金指数,模拟结果如下图表所示。
还原打新收益以后,模拟净值与万得偏股混合基金指数的净值走势较为接近,至此本文第一部分对偏股混合基金指数的还原基本完成。值得注意的是,方案一选取的成分基金为全部偏股混合基金指数,模拟净值仍然略微跑输指数;方案二选取的成分基金为1~20亿之间规模的基金,拟合效果更好。我们推测可能由于基金规模因子本身是区分基金业绩好坏的一个较为有效的因子,规模越大的基金受限于股票流动性、调仓难度等因素运作难度更高,长期来看表现不如中小规模的基金,因此我们对基金规模的限制本身就是在弥补仓位测算的不准确性。
实际上为了弥补基金披露仓位滞后的影响,我们采取的是高频仓位测算的方式,另一种思路是先通过多因子选基的方式对成分基金进行一步增强,相当于规模因子筛选的升级版,而后再用优选后的成分基金低频披露仓位来模拟偏股混合基金指数。这种方法无法完全拟合出偏股混合基金指数本身,每一步都在做增强,缺少对中间结果的观测;而我们更希望对基准指数本身有更完整的认知,因此没有采用此种方法。
05 偏股混合基金指数增强
前文我们对万得偏股混合基金指数进行穿透,得到穿透持仓以后通过还原打新收益,在月频尺度上较好的还原了万得偏股混合基金指数,模拟净值与指数净值较为接近。本章我们基于拟合出的穿透持仓来对该指数进行增强。
增强模型
采用XGBoost模型对因子进行非线性合成,选择的因子包括估值、成长、反转、换手率、一致预期、高频及华泰文本因子等几大类,每年滚动训练XGBoost模型合成因子。RankIC和RankICIR计算的股票池为拟合出的万得偏股混合基金指数持仓,预测区间为月频。
将上述因子进行行业及市值中性处理后,使用XGBoost模型进行合成,每一年滚动训练一次模型,样本内采用时序交叉验证,合成因子在模拟指数成分股票池中的表现如下图所示。
同时为比较线性模型和非线性模型的区别以及为投资者提供更多的选项,我们再采用线性模型对细分因子进行合成,具体我们采用线性回归的方式来进行因子合成,合成后的因子表现如下图表所示。
基于合成因子,采用以下模型进行组合优化,模拟指数成分股内选股,月频调仓。
第一个约束条件表示个股权重介于0~10%之间;第二个约束条件表示优化权重总和与当期模拟偏股混合基金指数权益总权重相等;第三个条件对行业和市值进行约束,保持优化组合相对于模拟指数持仓的行业和市值中性,表示行业因子或市值因子;第四个条件表示个股持仓相对基准指数持仓的偏离。我们放松了对个股持仓偏离的约束,主要出发点是希望以较少的股票数量构建中性组合,便于主动投资的投资者操作。
增强结果
线性模型和非线性模型合成的因子进行组合优化,构建得到的指数增强组合表现分别如下图表所示。为便于和万得偏股混合基金指数进行比较,下图所展示的增强组合均还原打新收益,打新收益测算方式和前文相同。
06 总结与展望
本文构建了对标万得偏股混合基金指数的增强策略,力求以较高的胜率战胜市场中位数。主要分两步骤进行:步骤一是对该指数的成分股进行穿透,步骤二是对模拟出的成分持仓进行指数增强。最后我们构建出月频选股组合,非线性模型下组合年化收益率19.78%,相对于万得偏股混合基金指数年化超额收益12.30%,除2017年外其余年份均位于市场前50%。
万得偏股混合基金指数是2013年万得发布的系列基金指数之一,目的是刻画公募偏股混合型基金的整体表现。指数成分为万得权益基金二级分类下的偏股混合型基金,不定期调整持仓基金,成分基金等权持有,对大规模和小规模基金一视同仁。最近三年公募主动权益基金市场发展迅速,偏股混合型基金业绩表现亮眼,该指数自2019年1月至2021年1月约两年时间涨幅超过100%,机构关注度趋增,部分基金公司开始筹备运作以该指数为基准的基金产品。
对该指数进行增强的难点之一在于如何用股票持仓模拟出指数本身。传统研究中关于公募基金整体仓位测算偏多,对于个股仓位测算偏少,本文采用基于基金净值的二次优化的方法对基金个股仓位进行高频测算,在无基金财报披露的时间节点也能对基金个股仓位进行估计,从而拟合出指数的穿透持仓。
个股仓位高频测算主要分为两步:
1. 对季报非重仓股进行补全。公募基金季报仅披露十大重仓,不披露详细持仓;年报和半年报披露详细持仓,为充分利用财报的信息及后续高频仓位测算的准确性,首先对季报非重仓股进行补全。补全方法为二次优化,目标函数最小化模拟净值与基金真实净值之间的误差,同时增加惩罚项为估算持仓与目标持仓间的偏离幅度,以此降低共线性影响;目标持仓为经修正后的最近详细持仓。
2. 基于补全的季报持仓,对个股进行高频测算。高频测算时可供参考的公开信息基本只有基金每日披露的净值,可以结合日频净值来测算个股仓位。补全方法仍为二次优化,目标函数仍为最小化模拟净值与基金真实净值之间的误差,同时增加惩罚项为估算持仓与目标持仓间的偏离幅度;目标持仓为最近测算的季报详细持仓。
每月末测算出偏股混合型基金的个股持仓后,对个股等权求均值即得到指数在该股票上的仓位。月频调仓下还原出的模拟持仓并不能很好地跟住指数,这是因为打新收益是基金收益的重要组成部分,还原打新收益以后我们发现穿透持仓与基准指数的走势较为接近。
最后我们对模拟的穿透持仓进行增强,构建万得偏股混合基金指数增强策略。我们选取了估值、成长、反转、换手率、一致预期、分钟线及华泰文本因子,采用线性模型和非线性模型进行因子合成,通过最大化预期收益的方式构建了增强组合。结果表明非线性模型效果优于线性模型,月频调仓,增强组合年化收益率19.78%,相对万得偏股混合基金指数年化超额收益12.30%。
值得说明的是,本文对偏股混合基金测算出的高频个股持仓用处并不仅局限于指数持仓穿透,在因子构建、行业配置等方面亦有应用前景。因子构建层面,可以从测算个股仓位的边际变化、基金之间的分歧度等方面构建有效的选股因子;行业配置层面,可以跟踪主动权益基金在不同行业上的超配或低配情况,生成行业信号;在此本文暂不展开。
风险提示
通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。文本不涉及基金推荐业务。
相关研报
研报:《华泰金工:基金个股仓位测算与偏股混指增》2023年02月02日
林晓明 S0570516010001 | BPY421
李子钰 S0570519110003 | BRV743
何 康 S0570520080004 | BRB318
陈 伟 S0570121070169
关注我们
https://inst.htsc.com/research
访问权限:国内机构客户
https://intl.inst.htsc.com/mainland
免责声明
▲向上滑动阅览
本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。
本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。
本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。
在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。
本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。