本文已参与「新人创作礼」活动，一起开启掘金创作之路。

一、策略学习

思路：用policy network来近似策略函数 $\pi$ ，用policy gradient算法来训练这个网络

函数近似的一般方法：线性函数，kernel函数，神经网络（就叫policy network了）

在这里插入图片描述

softmax是用来做映射的，因为我们需要各个动作的概率，所以要求输出都为正数，且加和为1，这里的softmax就是让输出具有这样的特征。

我们要找到一种评价方式，在这种评价方式下，当前的局面是最好的。因此，我们肯定需要状态价值函数：

在这里插入图片描述

目标函数： $J(\theta)=E_S[V(S;\theta)]$ ，策略学习就是改进θ，让 $J(\theta)$ 最大

在这里插入图片描述

策略梯度：如果a是离散的，那么 $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TDc54M77-1627708988884)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210721162446955.png)]$