Osaka

发表于 2018-03-24 | 分类于 Photography | 0 comments

CartPole小游戏DQN实现（NIPS版本）

发表于 2018-03-12 | 分类于 AI | 0 comments

本次试验用DQN实现了CartPole游戏的AI，游戏中设定了当10轮平均reward达到200之后退出游戏。当训练到1600轮之后，Agent成功达到了200平均奖励，说明该DQN成功的估计了Q值，找到了游戏的策略。

发表于 2018-03-10 | 分类于 AI | 0 comments

DQN使用的环境与之前Q-learning的大体相同，修改了state的表达。

发表于 2018-03-08 | 分类于 AI | 0 comments

整个DQN的实现分为两部分，第一部分是用纯Q-learning的表格形式训练Agent，第二部分是DQN算法，结合深度学习，用网络进行Q值更新。

发表于 2018-03-06 | 分类于 Algorithms | 0 comments

发表于 2018-03-03 | 分类于 Algorithms | 0 comments

发表于 2018-02-28 | 分类于 AI | 0 comments

这篇总结了Q-learning算法和DQN算法2013年的NIPS版本和2015年的NATRUE版本。

发表于 2018-02-04 | 分类于 AI | 0 comments

本篇对谷歌发布的论文Human level control through deep learning进行翻译与学习。
之后会附上完整的AI版Atari Breakout游戏Tensorflow代码。

发表于 2017-10-08 | 分类于 AI | 0 comments

发表于 2017-10-05 | 分类于 AI | 0 comments