稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
强化学习
订阅
avatar
用户5933265041827 创作等级LV.1
更多收藏集

微信扫码分享

微信
新浪微博
QQ

3篇文章 · 0订阅
  • 开发也能看懂的大模型:强化学习
    ### **什么是强化学习(Reinforcement Learning,RL)?** 强化学习是一种通过**试错机制**学习如何在环境中做出决策的机器学习方法。与监督学习不同,它没有直接的正确答案
    • 逸风尊者
    • 1月前
    • 136
    • 4
    • 评论
    Java 算法 Trae
  • LLM中的强化学习:PPO、DPO、KTO等
    LLM中的强化学习:PPO、DPO、KTO等。 为什么要用强化学习训练、强化学习算法发展脉络、常见的强化学习算法:PPO、DPO、KTO等等
    • 特里斯丹_专注前沿深度学习算法
    • 1年前
    • 2.2k
    • 1
    • 评论
    算法 人工智能
    LLM中的强化学习:PPO、DPO、KTO等
  • 【RL】强化学习入门(一):强化学习问题定义
    强化学习入门(一),讲解强化学习问题定义。强化学习是一种学习如何从状态映射到动作以最大化最终奖励的学习机制。
    • IceTeapoy
    • 5月前
    • 257
    • 4
    • 评论
    算法 强化学习 人工智能