答案:深度神经网络的引入使RL能够处理一些高维问题。通过表征学习(representation learning),DRL可以有效地处理维数诅咒问题,这与传统表格化的非参数方法不同。 尽管目前也有基于无梯度的DRL方法,但目前主流还是依赖于梯度和反向传播算法,原因是如果梯度可得就能提供一个强大的学习信号。实际中这些梯度一般通过采样或者其他的方法近似估计得到。反向传播的一个好处就是能将期望回报的优化看作是一个随机函数的优化。 1.值函数 基于值函数的方法比较典型的是DQN,DQN是基于Q-learning的改进,在处理高维问题时,Q-learning需要庞大的Q表作支撑,但是目前的存储条件有限,而DQN中可以利用深度网络来对Q值作较为精准的估计,这个估计也叫函数逼近(function approximaion)。 2.策略搜索 (1)随机函数的反向传播 目前DRL的主流方式仍然是反向传播]。先前讨论的REINFORCE规则允许神经网络以任务相关的方式(task- dependent manner,)学习随机策略,例如决策从何处寻找图片进行追踪,分类或理解对象(image caption objects)。在这些情况下,随机变量将确定一小幅的坐标,从而减少所需的计算量。一般而言,使用REINFORCE 或“重新参数化技巧(reparameterisation trick)” 等技术进行随机函数反向传播,允许将神经网络视为随机计算图(stochastic computation graphs),这也是诸如随机值梯度(SVG)等算法中的关键概念。 (2)复合误差(Compounding Errors) 直接搜索由具有很多参数的神经网络表示的策略可能很困难,并且可能会面临严重的局部最小值问题。 解决此问题的一种方法是使用引导策略搜索(GPS),该策略从其他控制器(可以使用分离的方法separate method构造,如最优控制)获取一些动作序列。GPS通过结合有监督的学习和重要性采样(importance sampling)从中学习,从而纠正一些离线策略样本(off-policy samples),这种方法能有效地使搜索偏向一个好的(局部)最优值。 另种一种更常用的方法是使用置信区域(trust regions),即优化步骤被限制为位于仍然保留真实成本函数近似值的区域内。 (3)Actor-Critic 前面RL讲到该方法是基于值函数和策略搜索两者的结合,因此在DRL当policy gradient可以用GAE优化以及基于值函数可以用目标网络改善时,那么在DRL中Actor-Critic同样也能获益。 Actor-Critic方面较新的进展是deterministic policy gradients(DPGs),它将随机策略的标准策略梯度定理扩展到确定性策略。DPG的主要优点之一是,尽管随机策略梯度在状态空间和动作空间上都可以集成,但DPG可仅在状态空间上进行集成,在较大动作空间中只需要较少样本。 DRL目前的主要研究集中无模型(model-free)的方法,而基于模型的RL算法在提高RL数据效率以及权衡探索(exploration)和开发(exploitation)方面发挥着重要作用。分层强化学习(Hierarchical RL)问题也是研究的重点之一,它通过将最终政策明确分解为几个层级,对最终策略施加归纳性偏置。此外鉴于来自其他一些控制器的轨迹可用于引导学习过程,因此也有模仿学习和逆RL(IRL)相关研究,然后就是研究多智能体系统方面[30]。 在DRL的背景下,其中也有两个更广泛的领域,即与RNN的结合和迁移学习。