强化学习(一)

268 阅读4分钟

学习强化学习需要了解的概念

一、什么是强化学习?

强化学习是一种通过与环境交互,学习状态到行为的映射关系,以获得最大累计期望回报的方法。

二、强化学习基本原理

在一个离散时间序列t=0,1,2,...中,智能体需要完成某项任务。在每一个时间t,智能体都能从环境中接收一个状态st,并通过动作at,与环境继续交互,环境会产生一个新的状态st+1,同时给出一个立即回报rt+1。循环迭代,智能体利用新的数据完善自己的行为。

三、智能体和环境

智能体和环境之间的边界通常与机器人结构或动物躯体的物理界限不同。 智能体指的是存在于环境中,能够与环境进行交互,自主采取行动以完成任务的强化学习系统。 系统之外的部分称为环境。 例如,扫地机器人的电动机和机械结构,以及它的传感器硬件被认为是环境,基于强化学习的路径规划算法被认为是智能体。

四、智能体主要组成

智能体主要由策略、值函数、模型三个组成部分中的一个或多个组成。

1.策略

策略是决定智能体行为的机制,是状态到行为的映射,用 公式表示,它定义了智能体在各个状态下的各种可能行为及概率。

公式

也就是智能体会经历很多种状态,而对于每个状态又有很多种行为可以选择,而具体采取哪个行为是由概率决定的,策略就是给出智能体能选择的行为和各个行为的概率。

2.值函数

值函数代表智能体在给定状态下的表现,或者给定状态下采取某个行为的好坏程度。好坏程度好坏程度用未来的期望回报表示。 回报Gt为从t时刻开始往后所有的回报的有衰减的总和,也称“收益”或“奖励”。

公式

其中公式为折扣因子,也称衰减系数,体现了未来的回报在当前时刻的价值比例。若公式接近0,则表明趋向于近期的利益,若接近1,则偏重考虑远期的利益。

状态值函数公式 表示从状态s开始,遵循当前策略公式所获得的期望回报;或者说是执行当前策略时,针对当前状态s执行某一具体行为a所获得的期望回报。 公式

3.模型

模型M是智能体对环境的一个建模,期望模型能够模拟环境与智能体的交互机制。给定一个状态和行为,该环境模型能够预测下一个状态和立即回报。模型仅针对智能体而言,是环境实际运行机制的近似。

五、强化学习、监督学习、非监督学习比较

监督学习:需要人工给定标记,通过对具有标记的训练样本进行预测。

非监督学习:无须给定标记,通过对没有标记的训练样本进行学习,以挖掘训练样本中潜在的结构信息。

强化学习:没有任何标记,仅有一个延迟的回报信号。通过对训练数据进行学习,以期获得从状态到行动的映射。

在监督学习和非监督学习中,数据是静态的,不需要与环境进行交互,而强化学习是一个序贯决策的过程,需要在与环境不断交互的过程中动态学习

六、强化学习的几个重点概念

1.学习与规划

学习针对的是环境模型未知的情况,智能体不知道环境如何工作,状态如何改变,以及每一步的回报是多少,仅通过与环境进行交互,采用试错法逐渐改善其策略。

规划是在智能体已经知道或近似知道环境如何工作的情况下,此时,智能体并不直接与环境发生实际的交互,而是利用其拟合的环境模型获得状态转换概率和回报,在此基础上改善其策略。

2.探索与利用

探索是指智能体在某个状态下试图去尝试一个新的行为,以图挖掘更多关于环境的信息。

而利用则是智能体根据已知信息,选取当下最优的行为来最大化回报。

3.预测与控制

预测即评估当前策略有多好,具体的做法一般是求解在既定策略下的状态值函数。

控制即在预测的基础上,对当前策略不断优化,直到找到一个足够好的策略能够最大化未来的回报。

申明:本博客为整理的清华大学出版社邹伟老师的《强化学习》的笔记,转载引用请申明,博主是新人,有错请指教