强化学习有哪些应用领域？如何选择不同的RL算法？--粉丝服务平台-粉丝头条-fensifuwu.com

强化学习有哪些应用领域？如何选择不同的RL算法？

科技 08-07 来源：产业智能官

强化学习有哪些应用领域？

RL 算法已经在各个领域被广泛使用：

控制领域。这是 RL 思想的发源地之一，也是 RL 技术应用最成熟的领域。控制领域和机器学习领域各自发展了相似的思想、概念与技术，可以互相借鉴。比如当前被广泛应用的 MPC 算法就是一种特殊的 RL。在机器人领域，相比于 DL 只能用于感知，RL 相比传统的法有自己的优势：传统方法如 LQR 等一般基于图搜索或概率搜索学习到一个轨迹层次的策略，复杂度较高，不适合用于做重规划；而 RL 方法学习到的则是状态 - 动作空间中的策略，具有更好的适应性。

自动驾驶领域。驾驶就是一个序列决策过程，因此天然适合用 RL 来处理。从 80 年代的 ALVINN、TORCS 到如今的 CARLA，业界一直在尝试用 RL 解决单车辆的自动驾驶问题以及多车辆的交通调度问题。类似的思想也广泛地应用在各种飞行器、水下无人机领域。

NLP 领域。相比于计算机视觉领域的任务，NLP 领域的很多任务是多轮的，即需通过多次迭代交互来寻求最优解（如对话系统）；而且任务的反馈信号往往需要在一系列决策后才能获得（如机器写作）。这样的问题的特性自然适合用 RL 来解决，因而近年来 RL 被应用于 NLP 领域中的诸多任务中，如文本生成、文本摘要、序列标注、对话机器人（文字 / 语音）、机器翻译、关系抽取和知识图谱推理等等。成功的应用案例也有很多，如对话机器人领域中 Yoshua Bengio 研究组开发的 MILABOT 的模型 [54]、Facebook 聊天机器人 [55] 等；机器翻译领域 Microsoft Translator [56] 等。此外，在一系列跨越 NLP 与计算机视觉两种模态的任务如 VQA、Image/Video Caption、Image Grounding、Video Summarization 等中，RL 技术也都大显身手。

推荐系统与检索系统领域。RL 中的 Bandits 系列算法早已被广泛应用于商品推荐、新闻推荐和在线广告等领域。近年也有一系列的工作将 RL 应用于信息检索、排序的任务中 [57]。

金融领域。RL 强大的序列决策能力已经被金融系统所关注。无论是华尔街巨头摩根大通还是创业公司如 Kensho，都在其交易系统中引入了 RL 技术。

对数据的选择。在数据足够多的情况下，如何选择数据来实现“快、好、省”地学习，具有非常大的应用价值。近期在这方面也涌现出一系列的工作，如 UCSB 的 Jiawei Wu 提出的 Reinforced Co-Training [58] 等。

通讯、生产调度、规划和资源访问控制等运筹领域。这些领域的任务往往涉及“选择”动作的过程，而且带标签数据难以取得，因此广泛使用 RL 进行求解。

如何选择不同的RL算法？

虽然有上文列举的诸多成功应用，但我们依旧要认识到，当前 RL 的发展还处于初级阶段，不能包打天下。目前还没有一个通用的 RL 解决方案像 DL 一样成熟到成为一种即插即用的算法。不同 RL 算法在各自领域各领风骚。在找到一个普适的方法之前，我们更应该针对特定问题设计专门的算法，比如在机器人领域，基于贝叶斯 RL 和演化算法的方法（如 CMAES[61]）比 DRL 更合适。当然，不同的领域间应当互相借鉴与促进。RL 算法的输出存在随机性，这是其“探索”哲学带来的本质问题，因此我们不能盲目 All in RL, 也不应该 RL in All, 而是要找准 RL 适合解决的问题。