强化学习

强化学习

强化学习

关于强化学习的笔记

等 3 人订阅共14篇文章创建于2023-03-11

谷歌ICLR2026提出监督式强化学习提升Agentic RL效果

谷歌ICLR2026提出监督式强化学习提升Agentic RL效果摘要本文提出监督式强化学习（Supervised Reinforcement Learning, SRL），用于解决开源 LLM

4月前
408
点赞
评论

Meta超级智能Lab提出Early Experience增强Agent训练

摘要本文提出 Early Experience（早期经验）训练范式，使语言智能体在无奖励环境中也能从自身行为后果中学习，突破传统依赖专家示范（SFT）或依赖奖励的强化学习（RL）的局限。具体设计了

7月前
217
1
评论

Meta超级智能Lab提出Early Experience增强Agent训练

阿里WebDancer：自主信息搜索Agent

摘要随着大语言模型（LLMs）和大推理模型（LRMs）的能力不断提升，构建具备长期任务规划与复杂信息检索能力的智能体Agent成为关键研究方向。阿里通义实验室提出WebDancer——一套从数据构建

11月前
286
1
评论

阿里WebDancer：自主信息搜索Agent

Kimi-K2论文解读

摘要 Kimi在近期发布了最大规模开源模型K2，其为MOE架构，包含1.04T参数，32B激活，。K2 重点强调了其大规模的智能体（agentic）数据合成流水线和联合强化学习方法，模型通过与真实和合

11月前
524
1
评论

ReSearch：通过强化学习让大模型学会在推理中搜索

摘要当前大语言模型（LLMs）在多跳推理任务中展现出卓越表现，但如何将外部搜索与推理过程深度融合，仍是一大挑战。本文提出ReSearch框架，通过强化学习训练模型从零开始学会何时与如何进行搜索，并在

1年前
311
点赞
评论

ReSearch：通过强化学习让大模型学会在推理中搜索

TORL：工具集成强化学习，让大语言模型学会用代码解题

近年来，大语言模型（LLMs）在推理能力上取得突破，但在精确计算和复杂逻辑任务中仍受限。本文提出 TORL（Tool-Integrated Reinforcement Learning），一个可

1年前
676
1
评论

TORL：工具集成强化学习，让大语言模型学会用代码解题

在RTX5060Ti上进行Qwen3-4B的GRPO强化微调

导语最近赶上618活动，将家里的RTX 4060显卡升级为了RTX 5060Ti 16GB版本，显存翻了一番，可以进行一些LLM微调实验了，本篇博客记录使用unsloth框架在RTX 5060Ti

1年前
783
1
评论

在RTX5060Ti上进行Qwen3-4B的GRPO强化微调

Qwen3技术报告笔记

昨晚Qwen3发布了完整的技术报告，介绍了最新的 Qwen3 系列模型，包含稠密架构和 MoE 架构，参数规模从 0.6B 到 235B。Qwen3 将“思考模式”（用于复杂、多步推理）和“非思

1年前
1.2k
1
评论

字节ReTool：大模型也要学会善于利用工具

尽管强化学习训练的推理模型在纯文本推理任务中表现突出，但在需要精确计算或符号操作的结构化问题上仍显不足。为此，本文提出 ReTool 框架，通过将实时代码执行与自然语言推理交叉集成，并采用结果驱动的强

1年前
583
1
评论

字节ReTool：大模型也要学会善于利用工具

论文笔记：DAPO——改进的开源GRPO强化学习系统

导语 GRPO是当前LLM强化学习的核心算法，本文作者在实验中发现了原始GRPO的一些不足，进行了几点改进，有效提升了评测性能表现。

1年前
870
1
评论

强化学习笔记（四）：AC方法（Actor-Critic Methods）

本文正在参加「金石计划」导语本系列笔记为b站Shusen Wang老师的强化学习课程笔记，整体按照老师讲课的思路来记录。本节课主要介绍AC算法。 Actor-Critic方法 Actor是策略网络

3年前
1.8k
4
3

强化学习笔记（三）：基于策略函数的强化学习（Policy-based Reinforcement Learning）

本文正在参加「金石计划」导语本系列笔记为b站Shusen Wang老师的强化学习课程笔记，整体按照老师讲课的思路来记录。本节课主要介绍Policy-gradient算法。 Policy Funct

3年前
1.3k
6
1

强化学习笔记（二）：基于价值函数的强化学习（Value-based Reinforcement Learning）

本文正在参加「金石计划」导语本系列笔记为b站Shusen Wang老师的强化学习课程笔记，整体按照老师讲课的思路来记录。本节课主要介绍DQN和利用TD算法来训练DQN。 Action-Value

3年前
1.4k
6
3

强化学习笔记（一）：强化学习基础（Deep Reinforcement Learning Basic）

本文正在参加「金石计划」导语本系列笔记为b站Shusen Wang老师的强化学习课程笔记，整体按照老师讲课的思路来记录。本节课介绍强化学习中的一些基础概念和一个标准的实验库Gym。概率论复习随

3年前
1.7k
7
1