强化学习有哪些应用领域?如何选择不同的RL算法?

强化学习有哪些应用领域?

RL 算法已经在各个领域被广泛使用:

控制领域。这是 RL 思想的发源地之一,也是 RL 技术应用最成熟的领域。控制领域和机器学习领域各自发展了相似的思想、概念与技术,可以互相借鉴。比如当前被广泛应用的 MPC 算法就是一种特殊的 RL。在机器人领域,相比于 DL 只能用于感知,RL 相比传统的法有自己的优势:传统方法如 LQR 等一般基于图搜索或概率搜索学习到一个轨迹层次的策略,复杂度较高,不适合用于做重规划;而 RL 方法学习到的则是状态 - 动作空间中的策略,具有更好的适应性。

自动驾驶领域。驾驶就是一个序列决策过程,因此天然适合用 RL 来处理。从 80 年代的 ALVINN、TORCS 到如今的 CARLA,业界一直在尝试用 RL 解决单车辆的自动驾驶问题以及多车辆的交通调度问题。类似的思想也广泛地应用在各种飞行器、水下无人机领域。

NLP 领域。相比于计算机视觉领域的任务,NLP 领域的很多任务是多轮的,即需通过多次迭代交互来寻求最优解(如对话系统);而且任务的反馈信号往往需要在一系列决策后才能获得(如机器写作)。这样的问题的特性自然适合用 RL 来解决,因而近年来 RL 被应用于 NLP 领域中的诸多任务中,如文本生成、文本摘要、序列标注、对话机器人(文字 / 语音)、机器翻译、关系抽取和知识图谱推理等等。成功的应用案例也有很多,如对话机器人领域中 Yoshua Bengio 研究组开发的 MILABOT 的模型 [54]、Facebook 聊天机器人 [55] 等;机器翻译领域 Microsoft Translator [56] 等。此外,在一系列跨越 NLP 与计算机视觉两种模态的任务如 VQA、Image/Video Caption、Image Grounding、Video Summarization 等中,RL 技术也都大显身手。

推荐系统与检索系统领域。RL 中的 Bandits 系列算法早已被广泛应用于商品推荐、新闻推荐和在线广告等领域。近年也有一系列的工作将 RL 应用于信息检索、排序的任务中 [57]。

金融领域。RL 强大的序列决策能力已经被金融系统所关注。无论是华尔街巨头摩根大通还是创业公司如 Kensho,都在其交易系统中引入了 RL 技术。

对数据的选择。在数据足够多的情况下,如何选择数据来实现“快、好、省”地学习,具有非常大的应用价值。近期在这方面也涌现出一系列的工作,如 UCSB 的 Jiawei Wu 提出的 Reinforced Co-Training [58] 等。

通讯、生产调度、规划和资源访问控制等运筹领域。这些领域的任务往往涉及“选择”动作的过程,而且带标签数据难以取得,因此广泛使用 RL 进行求解。

如何选择不同的RL算法?

虽然有上文列举的诸多成功应用,但我们依旧要认识到,当前 RL 的发展还处于初级阶段,不能包打天下。目前还没有一个通用的 RL 解决方案像 DL 一样成熟到成为一种即插即用的算法。不同 RL 算法在各自领域各领风骚。在找到一个普适的方法之前,我们更应该针对特定问题设计专门的算法,比如在机器人领域,基于贝叶斯 RL 和演化算法的方法(如 CMAES[61])比 DRL 更合适。当然,不同的领域间应当互相借鉴与促进。RL 算法的输出存在随机性,这是其“探索”哲学带来的本质问题,因此我们不能盲目 All in RL, 也不应该 RL in All, 而是要找准 RL 适合解决的问题。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();