稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
夏野了的个人资料头像

夏野了

创作等级LV.2
掘友等级
掘友4级:进阶掘友
学生
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
22
文章 20 沸点 2
赞
22
返回
|
搜索文章
最新 热门
  • 深度强化学习系列:Soft Actor-Critic(SAC)算法原理及代码解析
    柔性 Actor-Critic(Soft Actor-Critic,SAC)算法采用了最大化熵的想法。学习的目标是最大化熵正则化的累积奖励而不只是累计奖励,从而鼓励更多的探索。
    • 2年前
    • 3.2k
    • 4
    • 1
    强化学习
  • 深度强化学习系列: A3C(Asynchronous Advantage Actor-critic)算法原理及Tensorflow实现
    A3C是A2C的异步版本。在A3C的设计中,协调器被移除。每个Worker节点直接和全局行动者和全局批评者进行对话。
    • 2年前
    • 1.3k
    • 5
    • 6
    强化学习
  • 深度强化学习系列: Actor-Critic(AC)算法原理及代码详解
    为了解决 High Variance 和 High bias 之间的矛盾,可以把它们结合在一起,利用value based 和 policy based 两类方法各自的优势,就有了集大成的 AC类方法
    • 2年前
    • 2.8k
    • 5
    • 4
    强化学习
  • 深度强化学习系列:Reinforce算法原理及Tensorflow代码实现
    Reinfoce算法是一种无模型算法,它不需要对环境建立模型,也不需要预测值函数等中间步骤,相比其他强化学习算法更加简单和直接。
    • 2年前
    • 1.5k
    • 7
    • 8
    强化学习
  • 个人成就
    文章被点赞 21
    文章被阅读 8,834
    掘力值 226
    关注了
    4
    关注者
    8
    收藏集
    0
    关注标签
    10
    加入于
    2022-09-19