强化学习 - 笨蛋酱46049的收藏集 - 掘金

强化学习

更多收藏集

3篇文章 · 0订阅

强化学习的基本概念与代码实现

神经网络造就了最近我们在计算机视觉、机器翻译和时间序列预测等领域上的突破—同时它也可以和强化学习算法结合来创建一些惊人的成果，例如 AlphaGo（参阅：无需人类知识，DeepMind 新一代围棋程序 AlphaGo Zero 再次登上 Nature）。强化学习指的是面向目标…

机器之心
8年前
1.2k
13
评论

监督学习是利用标记了的样本进行学习，无监督学习则是使用未标记的样本进行学习，这两个是我们最常见的。半监督学习则是样本中只有少量带标记的样本，多数样本都未标记，利用这些样本进行学习。强化学习则是很不同的一种学习方式，它没有规则的训练样本和标签，主要通过奖励和惩罚达到学习的目的。 …

超人汪小建
8年前
1.3k
10
评论