首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
强化学习
Q同学
创建于2023-03-11
订阅专栏
关于强化学习的笔记
等 3 人订阅
共10篇文章
创建于2023-03-11
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
ReSearch:通过强化学习让大模型学会在推理中搜索
摘要 当前大语言模型(LLMs)在多跳推理任务中展现出卓越表现,但如何将外部搜索与推理过程深度融合,仍是一大挑战。本文提出ReSearch框架,通过强化学习训练模型从零开始学会何时与如何进行搜索,并在
TORL:工具集成强化学习,让大语言模型学会用代码解题
近年来,大语言模型(LLMs)在推理能力上取得突破,但在精确计算和复杂逻辑任务中仍受限。本文提出 TORL(Tool-Integrated Reinforcement Learning),一个可
在RTX5060Ti上进行Qwen3-4B的GRPO强化微调
导语 最近赶上618活动,将家里的RTX 4060显卡升级为了RTX 5060Ti 16GB版本,显存翻了一番,可以进行一些LLM微调实验了,本篇博客记录使用unsloth框架在RTX 5060Ti
Qwen3技术报告笔记
昨晚Qwen3发布了完整的技术报告,介绍了最新的 Qwen3 系列模型,包含稠密架构和 MoE 架构,参数规模从 0.6B 到 235B。Qwen3 将“思考模式”(用于复杂、多步推理)和“非思
字节ReTool:大模型也要学会善于利用工具
尽管强化学习训练的推理模型在纯文本推理任务中表现突出,但在需要精确计算或符号操作的结构化问题上仍显不足。为此,本文提出 ReTool 框架,通过将实时代码执行与自然语言推理交叉集成,并采用结果驱动的强
论文笔记:DAPO——改进的开源GRPO强化学习系统
导语 GRPO是当前LLM强化学习的核心算法,本文作者在实验中发现了原始GRPO的一些不足,进行了几点改进,有效提升了评测性能表现。
强化学习笔记(四):AC方法(Actor-Critic Methods)
本文正在参加「金石计划」 导语 本系列笔记为b站Shusen Wang老师的强化学习课程笔记,整体按照老师讲课的思路来记录。本节课主要介绍AC算法。 Actor-Critic方法 Actor是策略网络
强化学习笔记(三):基于策略函数的强化学习(Policy-based Reinforcement Learning)
本文正在参加「金石计划」 导语 本系列笔记为b站Shusen Wang老师的强化学习课程笔记,整体按照老师讲课的思路来记录。本节课主要介绍Policy-gradient算法。 Policy Funct
强化学习笔记(二):基于价值函数的强化学习(Value-based Reinforcement Learning)
本文正在参加「金石计划」 导语 本系列笔记为b站Shusen Wang老师的强化学习课程笔记,整体按照老师讲课的思路来记录。本节课主要介绍DQN和利用TD算法来训练DQN。 Action-Value
强化学习笔记(一):强化学习基础(Deep Reinforcement Learning Basic)
本文正在参加「金石计划」 导语 本系列笔记为b站Shusen Wang老师的强化学习课程笔记,整体按照老师讲课的思路来记录。本节课介绍强化学习中的一些基础概念和一个标准的实验库Gym。 概率论复习 随