Python机器学习——第一章 赋予计算机从数据中学习的能力
1.1 构建把数据转换为知识的智能机器
1.2 三种不同类型的机器学习
1.2.1 用有监督学习预测未来
预测标签的分类
预测连续结果的回归
1.2.2 用强化学习解决交互问题
强化学习的目标是开发系统或代理,通过它们与环境的交互来提高其预测性能。
当前环境状态的信息通常包含所谓的奖励信号,可以把强化学习看作是与有监督学习相关的领域。然而强化学习的反馈并非标定过的正确标签或数值,而是奖励函数对行动的度量。代理可以与环境交互完成强化学习,通过探索性的试错或深思熟虑的规划来最大化这种奖励。