正昱科技：如何通过强化学习，构建有效的销量预测系统？--粉丝服务平台-粉丝头条-fensifuwu.com

正昱科技：如何通过强化学习，构建有效的销量预测系统？

科技 05-29 来源：北京正昱科技

文：陈星强

最近一直在研究强化学习如何应用于销量预测系统。

对于销量预测，特征的变化模式很多。我们如何才能快速生成有效的策略，从而调整预测中出现的badcase ，这是我们尤为关注的问题。

前后思考，诸多实践，在GBDT的模型，Random Forest 的模型中，不断迭代feature的改进和模型的参数优化，始终不能够完全解决所有问题。所以，我们需要的是一个自动规避和产生决策方案的销量预测系统，这个系统能够自主自发的学习和生成策略，并且能后不断迭代优化，提高预测的准确度。这样，就能够真实的替代人工的筛查和过多精力的投入。

为此，我认为，有两个方向值得考虑，一是增强学习；二是对抗学习。

近期大家越来越强调AI系统的整体性，即perception、prediction、reasoning、planning以及底层的监督、非监督、强化学习算法。

简而言之，增强学习是一种基于环境反馈而做决策的通用框架。具体到机器学习领域，很多人往往知道监督式学习和非监督式学习（甚至半监督式学习），但却不知道第三类机器学习方法，即增强学习。因为增强学习强调与环境的交互，我认为是离普遍意义上的人工智能更接近的一个领域。这里『增强』或者『强化』的意思是，根据不断试错而得到的奖惩来不断增强对趋利决策的信念。

就目前看，还没有将增强学习应用于销售零售的场景当中，这其中，我想主要的因素在于销量预测本身具有多交互场景需求，并不能够通过增强学习完成对各种多重交互的一致训练。但是从各角度去尝试，并且建立有效的规则，增强学习就能够很好的模拟真实的交易场景，从而对交易的情况作出预测和预判。

对于我们目前能够尝试应用的地方，就是基于增强学习的训练方案设计一款POS机系统，实时训练增强学习的模型，POS机天然就是训练模拟器，任何交易都通过POS结账，同时，我们需要强大的信息收集能力，统计员工的到岗和工作情况，连接后台的仓储信息，连接外部天气，道路，交通，人流情况的数据，将这些数据统一收集到一处，集成到POS机中作为增强学习的训练模拟器，实时动态的训练增强学习模型，相信通过一段时间的训练，这样一台POS机本身就非常熟悉这家门店的属性和能力，对销量预测有了进一步的把握。