首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
盐的甜
掘友等级
研究生
修之于身,其德乃真
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 6
沸点 0
赞
6
返回
|
搜索文章
最新
热门
强化学习 4 —— 时序差分法(TD)的 预测与控制
对于MC采样法,如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。当获取不到完整状态序列时, 可以使用时序差分法(Temporal-Difference, TD)。 这样一来,这样我们只需要两个连续的状态与对应的奖励,就可以尝试求解强化学习问题了。 在上面我们用 $ …
强化学习 3 —— 蒙特卡洛法(MC)解决无模型问题的预测与控制
可以发现,对于这两个算法,有一个前提条件是奖励 R 和状态转移矩阵 P 我们是知道的,因此我们可以使用策略迭代和价值迭代算法。对于这种情况我们叫做 Model base。同理可知,如果我们不知道环境中的奖励和状态转移矩阵,我们叫做 Model free。 不过有很多强化学习问题…
强化学习 2 —— 用动态规划求解 MDP 问题(Policy Iteration and Value Iteration)
在上一篇文章 强化学习 1 —— 一文读懂马尔科夫决策过程 MDP 介绍了马尔科夫过程,本篇接着来介绍如何使用动态规划方法来求解。 一是问题的最优解可以由若干小问题的最优解构成,即通过寻找子问题的最优解来得到问题的最优解。 二是可以找到子问题状态之间的递推关系,通过较小的子问题…
强化学习 1 --- 马尔科夫决策过程(MDP)
根据上图,agent(智能体)在进行某个任务时,首先与environment进行交互,产生新的状态state,同时环境给出奖励reward,如此循环下去,agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互,产生新的数据,…
自编码器 Tensorflow 实战 MNIST
概率统计层面:能够在给丁某一些隐含参数的条件下,随机生成观测数据的这样一种模型,称之为“生成模型”。它给观测值和比周数据系列制定一个连和概率分布 机器学习层面:直接对数据进行建模,比如根据某个变量的概率密度函数进行数据采样。在贝叶斯算法中,直接对连和概率分布P(x,y)…
MNIST 手写数据集介绍
1、数据集介绍MNIST数据集是机器学习领域中非常经典的一个数据集,最简单的方法就是使用如下代码直接加载:可以看出数据集由60000个训练样本和10000个测试样本组成每个样本都是一张28*28像素的
深度卷积生成对抗网络(DCGAN)---- tensorflow 实现
固定判别器,让生成器不断生成假数据,给判别器判别,开始生成器很弱,但是随着不断的训练,生成器不断提升,最终骗过判别器。此时判别器判断假数据的概率为50% 固定生成器,训练判别器。判别器经过训练,提高鉴别能力,最终能准确判断虽有的假图片 循环上两个阶段,最终生成器和判别器都越来越…
神经网络之反向传播算法(BP)详细推导
我们将以全连接层,激活函数采用 Sigmoid 函数,误差函数为 Softmax+MSE 损失函数的神经网络为例,推导其梯度传播方式。 要的时候计算出其导数。Sigmoid 函数导数的实现: 其中为真实值,为输出值。则它的偏导数 可以展开为: 我们把单个神经元模型推广到单层全连…
神经网络之反向传播(BP)算法代码实现
本次的反向传播算法是基于上篇文章神经网络之反向传播算法(BP)公式详推导实现的,如果对反向传播算法不太了解,强烈建议参考上篇文章。 我们将实现一个 4 层的全连接网络,来完成二分类任务。网络输入节点数为 2,隐藏 层的节点数设计为:25、50和25,输出层两个节点,分别表示属于…
Golang实现简单爬虫框架(5)——项目重构与数据存储
在上一篇文章《Golang实现简单爬虫框架(4)——队列实现并发任务调度》中,我们使用用队列实现了任务调度,接下来首先对两种并发方式做一个同构,使代码统一。然后添加数据存储模块。 通过分析我们发现,两种不同调度的区别是每个worker一个channel还是 所有worker共用…
下一页
个人成就
文章被点赞
55
文章被阅读
65,424
掘力值
1,044
关注了
7
关注者
71
收藏集
3
关注标签
22
加入于
2018-08-29