强化学习:原理与Python实现
上QQ阅读APP看书,第一时间看更新

1.5 如何学习强化学习

本节介绍强化学习需要的预备知识,以及如何学习强化学习,本节中还提供了一些参考资料。

1.5.1 学习路线

在正式学习强化学习前,需要了解一些预备的知识。在理论知识方面,你需要会概率论,了解概率、条件概率、期望等概念。要学习强化学习的最新进展,特别是AlphaGo等明星算法,你需要学习微积分和深度学习。在学习过程中往往需要编程实现来加深对强化学习的理解。这时你需要掌握一门程序设计语言。本书将使用Python 3作为编程语言。对于第6章到第9章的深度学习算法,配套的实现将基于深度学习库TensorFlow。本书不介绍这些预备知识。

要学习强化学习理论,需要理解强化学习的概念,并了解强化学习的建模方法。目前绝大多数的研究将强化学习问题建模为Markov决策过程。Markov决策过程有几种固定的求解模式。规模不大的问题可以求得精确解,规模太大的问题往往只能求得近似解。对于近似算法,可以和深度学习结合,得到深度强化学习算法。最近引起广泛关注的明星算法,如AlphaGo使用的算法,都是深度强化学习算法。本书第2章介绍Markov决策过程,第3章到第9章介绍Markov决策问题的求解,其中也涵盖了大多经典的深度强化学习算法。

在强化学习的学习和实际应用中,难免需要通过编程来实现强化学习算法。强化学习算法需要运行在环境中。Python扩展库Gym是最广泛使用的强化学习实验环境。本书1.6节将介绍强化学习实验环境Gym库的安装。强化学习算法需要和环境交互。本书各章节在介绍理论知识的同时,都会涉及强化学习算法的实现。本书第10章到第12章通过一些比较大型的例子来演示强化学习的综合应用。

1.5.2 学习资源

本书作为一套完整的强化学习教程,将引领读者实现从入门到精通。同时,如果还希望阅读英文教程对照参考,推荐Richard Sutton等在2018年出版的《Reinforcement Learning:An Introduction(第2版)》。该书和本书使用相同的数学符号和技术术语,和本书完全兼容。