CartPole小游戏DQN实现(NIPS版本)
本次试验用DQN实现了CartPole游戏的AI,游戏中设定了当10轮平均reward达到200之后退出游戏。当训练到1600轮之后,Agent成功达到了200平均奖励,说明该DQN成功的估计了Q值,找到了游戏的策略。
DQN 实现(二)
DQN使用的环境与之前Q-learning的大体相同,修改了state的表达。
DQN 实现(一)
整个DQN的实现分为两部分,第一部分是用纯Q-learning的表格形式训练Agent,第二部分是DQN算法,结合深度学习,用网络进行Q值更新。
字符串——后缀数组
字符串——后缀数组
字符串——KMP算法
字符串——KMP算法
DQN 总结
这篇总结了Q-learning算法和DQN算法2013年的NIPS版本和2015年的NATRUE版本。
Human level control through deep learning - 阅读学习
本篇对谷歌发布的论文Human level control through deep learning进行翻译与学习。
之后会附上完整的AI版Atari Breakout游戏Tensorflow代码。