Python机器学习——第一章赋予计算机从数据中学习的能力

1.1 构建把数据转换为知识的智能机器

强化学习的目标是开发系统或代理，通过它们与环境的交互来提高其预测性能。

当前环境状态的信息通常包含所谓的奖励信号，可以把强化学习看作是与有监督学习相关的领域。然而强化学习的反馈并非标定过的正确标签或数值，而是奖励函数对行动的度量。代理可以与环境交互完成强化学习，通过探索性的试错或深思熟虑的规划来最大化这种奖励。