首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
小小何先生
掘友等级
硕二在读
|
公众号:小小何先生
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 24
沸点 1
赞
25
返回
|
搜索文章
最新
热门
【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning
如果所有的动作值函数都被均匀地加上一个常数,似乎这不会对策略有什么影响。问题就在于当你有一个动作值函数过估计之后在加上探索和利用技术之后,那可能就会偏向于之前就过估计的动作值函数,而导致有些动作根本就没选到,那就会影响策略学习的好坏了。那么得到的就是一个次优解。 假设你有两个网…
【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs
这篇论文最开始是15年提出来的,但最新的修订版本是17年的,下文所有内容都以17年版本为主。 如题目中所述,作者解决的就是部分可观测马尔可夫决策过程 (Partially-Observable Markov Decision Process (POMDP)) 中难以获得全部的可…
【5分钟 Paper】Playing Atari with Deep Reinforcement Learning
解决从高维传感器获取数据而端到端实现控制的难题(以前很多都是使用手工提取的特征)。所使用的例子:直接用图像数据学会控制Atari游戏,并且达到了人类水平。 在这之前已经有很多研究工作是直接从高维数据直接获取输出结果的例子。如视觉和语音方面(文末参考文献中有具体文献)。作者将这种…
经典机器学习系列之【聚类分析】
在《战国策·齐策三》中有这么一句话:“物以类聚,人以群分”,用于比喻同类的东西常聚在一起,志同道合的人相聚成群,反之就分开。而所谓的科学,不过是把我们日常的生活经验,大自然的规律用数学的语言描述出来罢了。在机器学习中也有这么一类算法,聚类算法,借鉴的就是“物以类聚,人以群分”的…
强化学习中的无模型预测
在大多是强化学习(reinforcement learning RL)问题中,环境的model都是未知的,也就无法直接做动态规划。一种方法是去学MDP,在这个系列的理解强化学习中的策略迭代和值迭代这篇文章中有具体思路。但这种做法还是会存在很多问题,就是在sample过程中会比较…
动态规划与策略迭代、值迭代
上一节我们说了马尔可夫决策过程,它是对完全可观测的环境进行描述的,也就是观测到的内容完整决定了决策所需要的特征。马尔可夫决策过程可以用方程组求解简单问题,但是对于复杂一点的问题,一般通过迭代的思想对其进行求解。动态规划是非常有效的求解马尔可夫决策过程的方法。 动态规划求解的大体…
马尔可夫决策过程与贝尔曼方程
马尔可夫决策过程 (Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型,一般用于具备马尔可夫性的环境中。最早的研究可以追溯到最优控制 (optimal control)问题上,1957年,美国学者Richard…
经典机器学习系列之【相似性度量】
相似性度量是机器学习中一个非常基础的概念:是评定两个事物之间相似程度的一种度量,尤其是在聚类、推荐算法中尤为重要。其本质就是一种量化标准。在机器学习中主要是用于衡量样本之间的相似程度。 为什么要有一个衡量标准?这世间万物都是公说公有理,婆说婆有理,而这衡量标准一旦定下来,大家都…
手把手教你强化学习 (一) 强化学习基本概要 (下)
上节聊完了这个强化学习从直观上的一些理解。以及它和其他的机器学习方法的一些异同点。这一节来唠唠强化学习中的一些基本的概念及其组成部分。主要就是一些概念,将其罗列出来,方便理解和观看。 Agent中文名称一般被称为智能体,或者称之为“玩家”,是整个强化学习算法的核心。整个的学习过…
手把手教你强化学习 (一) 强化学习基本概要 (上)
在19年4月,有写过一篇强化学习的入门直观简介。强化学习通俗入门简介(一)。感兴趣的可以看一下,如果知道一些基本概念的话,也就没啥必要了,都是些很通俗的理解。 强化学习智能体通过与环境交互,为了获取整个交互过程中的收益最大,不断自我调整优化。就像你的整个人生过程一样,算法的原理…
下一页
个人成就
文章被点赞
66
文章被阅读
84,326
掘力值
1,432
关注了
5
关注者
587
收藏集
0
关注标签
11
加入于
2020-01-28