资源 | 「OpenAI Five」战胜的秘诀

资源从上周四上线到今天

在大家的共同建设下

资源板块越来越丰富了

截止到目前为止

资源总共被下载1300+次

看来

有很多社区小伙伴在利用空闲时间

默默学习升级打怪呢

今天社长就给大家推荐一个好资源

【深度强化学习】

当AlphaGO战胜了世界围棋冠军李世石之后,整个工业界都为之振奋,越来越多的学者意识到强化学习在人工智能领域可以带来更多的惊喜,因此也有越来越多的人关注强化学习。

最新里程碑,美国时间 8 月 5 日星期天,OpenAI 开发的基于强化学习的 DOTA 5v5 AI 「OpenAI Five」以2:1的比分在即时战略游戏DOTA2中击败了由5名人类高手(前职业选手)组成的队伍。

这说明强化学习已经越来强大了。

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

在强化学习的世界里, 算法称之为Agent,它与环境发生交互,Agent从环境中获取状态(state),并决定自己要做出的动作(action).环境会根据自身的逻辑给Agent予以奖励(reward)。奖励有正向和反向之分。比如在游戏中,每击中一个敌人就是正向的奖励,掉血或者游戏结束就是反向的奖励。

这个资源包是一个强化学习的课程,你可以下载后,利用业余时间学习,进一步了解强化学习!

扫码即可下载资源

【课程内容】

强化学习简介

强化学习基本概念

马尔科夫决策过程

Bellman方程

值迭代求解

代码实战求解过程

QLearning基本原理

QLearning迭代计算实例

QLearning迭代效果

求解流程详解

DeepQnetwork原理

DQN网络细节

DQN网络参数配置

搭建DQN网络模型

DQN卷积操作定义

数据预处理

实验阶段数据存储

实现训练模块

Debug解读训练代码

完整代码流程分析

DQN效果演示

欢迎大家学习后

在社区发布学习笔记

或者分享相关的感受

毕竟爱分享的童鞋

会进步得更快喔~

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();