Q-learning智能体

Q-learning算法是一种无模型、在线、非策略的强化学习方法。Q-learning算法是一种基于价值的强化学习算法，它训练一个评价网络去估计回报或未来奖励。对于给定的观测值，智能体选择并输出估计收益最大的动作。

注：Q-learning算法不支持循环网络。

Q-learning智能体可以在具有以下观察和动作空间的环境中进行训练。

图片.png

Q-learning使用如下的评价网络：

图片.png 在训练过程中，智能体使用贪心策略来探索动作空间。在每个控制区间内，agent随机选择一个概率为 $\epsilon$ 的动作，否则选择值函数最大的动作，概率为 $1-\epsilon$ 。

为了估计值函数，一个Q-learning智能体维持一个评价函数 $Q(S,A;\phi )$ ，它是一个带参数 $\phi$ 的函数逼近器。评价网络将观察S和行动A作为输入，并返回对长期回报的相应期望。

对于使用基于表的值函数的评价网络， $\phi$ 中的参数是表中实际的 $Q(S,A)$ 值。

在训练过程中，智能体调整参数值 $\phi$ 。训练后，参数保持在它们的调整值和训练值函数逼近器的参数被存储在评价网络 $Q(S,A)$ 中。

创建一个Q-learning智能体:

Q-learning智能体使用如下的训练算法。要配置训练算法，请使用rlQAgentOptions对象指定选项。

Q(S, A)=Q(S, A ; \phi)+\alpha \cdot \Delta Q

- 对于所有其他类型的评价网络，计算损失函数相对于参数 $φ$ 的梯度 $Δφ$ 。然后，根据计算得到的梯度更新参数。在这种情况下，损失函数是 $ΔQ$ 的平方。
$\begin{array}{c}\Delta \phi=\frac{1}{2} \nabla_{\phi}(\Delta Q)^{2} \\ \phi=\phi+\alpha \cdot \Delta \phi\end{array}$
f. 将观测值 $S$ 设置成 $S'$ 。

Q-learning强化学习智能体