本文已参与「新人创作礼」活动，一起开启掘金创作之路。

一、基本术语

state：s，状态。

action：a，行为，比如游戏里的向上、向右，是随机的。为什么不是确定的？如果是在博弈背景下，确定性动作会让对手发现规律，而随机的动作才可能赢。

agent：动作是由谁做的，谁就是agent，比如自动驾驶里的汽车，游戏里的马里奥

policy： $\pi$ ，根据观测到的状态来决策，然后控制agent的运动。它是个概率密度函数，数学上的定义：在s状态下采取a动作的概率，

在这里插入图片描述

例如：

在这里插入图片描述

如果让policy函数来自动决策，那么它就是进行一个随机抽样，来决定下一步怎么走。强化学习，学的就是这个policy函数，只要学会了，就可以自动操作了。

reward：R，奖励，需要自己来定义。例如，游戏里根据不同目标的重要程度来确定不同状态得到的奖励的大小：

在这里插入图片描述

奖励定义的好坏会影响强化学习的结果。

state transition：状态转移，可以是确定的也可以是随机的，一般认为是随机的，其随机性来源于环境。可以用状态密度函数来表示：

在这里插入图片描述

环境可能会变化，在当前环境和行动下，衡量系统状态向某一个状态转移的概率是多少。注意环境的变化通常是未知的。

在这里插入图片描述

强化学习中的随机性

来源一：action，action是根据 $\pi$ 函数随机抽样得到的，所以随机。

来源二：state transition，state transition是根据p函数随机抽样的，所以随机。

强化学习的生效过程

观测一个状态，学习 $\pi$ 函数来控制agent，转移到另一个状态并获得奖励，循环……由此得到游戏的trajectory（轨迹）：（状态，动作，奖励）

在这里插入图片描述

return

回报，又称cumulated future reward，定义为：

在这里插入图片描述

其中 $R_t$ 表示第t时刻的奖励。agent的目标就是让return最大化。

未来的奖励不如现在等值的奖励那么好（比如一年后给100块不如现在就给），所以 $R_{t+1}$ 的权重应该小于 $R_t$ 。因此，强化学习通常用discounted return（折扣回报，又称cumulative discounted future reward），取 $\gamma$ 为discount rate（折扣率）， $\gamma\in(0,1]$ ，则有，