Q同学

学生

研究生在读，个人主页：https://jiexingqi.github.io/

赞

1.7K

|

搜索文章

verl进行Agentic-RL多工具数据集字段匹配问题记录

问题背景近期在用verl框架进行Agentic-RL训练，之前的agent model实验我一般都是采用了与ToRL或者ReTool类似的数据格式，即模型的工具调用通过对应的特殊工具调用token实

5天前
23
点赞
评论

Meta超级智能Lab提出Early Experience增强Agent训练

摘要本文提出 Early Experience（早期经验）训练范式，使语言智能体在无奖励环境中也能从自身行为后果中学习，突破传统依赖专家示范（SFT）或依赖奖励的强化学习（RL）的局限。具体设计了

9天前
23
1
评论

Meta超级智能Lab提出Early Experience增强Agent训练

阿里WebDancer：自主信息搜索Agent

摘要随着大语言模型（LLMs）和大推理模型（LRMs）的能力不断提升，构建具备长期任务规划与复杂信息检索能力的智能体Agent成为关键研究方向。阿里通义实验室提出WebDancer——一套从数据构建

3月前
132
1
评论

阿里WebDancer：自主信息搜索Agent

阿里WebSailor：超越人类的推理Web Agent

摘要 WebSailor 是一套开源智能体训练方法，旨在提升其在复杂信息检索任务中的超人类推理能力。现有开源网页智能体在 BrowseComp-en/zh 等任务中几乎无法作答，其原因在于缺乏应对高不

4月前
534
点赞
评论

阿里WebSailor：超越人类的推理Web Agent

Kimi-K2论文解读

摘要 Kimi在近期发布了最大规模开源模型K2，其为MOE架构，包含1.04T参数，32B激活，。K2 重点强调了其大规模的智能体（agentic）数据合成流水线和联合强化学习方法，模型通过与真实和合

4月前
237
1
评论

SciMaster：无需微调，在人类最后考试上刷新 SOTA

摘要随着 AI Agent的发展，人们期待其在科学发现中发挥关键作用。本文提出 X-Master，一种工具增强型通用推理Agent（tool-augmented reasoning agent），

4月前
122
1
评论

SciMaster：无需微调，在人类最后考试上刷新 SOTA

ChatGPT使用限额记录与插件统计

昨晚使用ChatGPT发现一直报错，出现以下报错： Hmm...something seems to have gone wrong.；消息流中的错误；无论怎么试都无法继续使用。后续检索

5月前
213
1
评论

ChatGPT使用限额记录与插件统计

ReSearch：通过强化学习让大模型学会在推理中搜索

摘要当前大语言模型（LLMs）在多跳推理任务中展现出卓越表现，但如何将外部搜索与推理过程深度融合，仍是一大挑战。本文提出ReSearch框架，通过强化学习训练模型从零开始学会何时与如何进行搜索，并在

5月前
64
点赞
评论

ReSearch：通过强化学习让大模型学会在推理中搜索

TORL：工具集成强化学习，让大语言模型学会用代码解题

近年来，大语言模型（LLMs）在推理能力上取得突破，但在精确计算和复杂逻辑任务中仍受限。本文提出 TORL（Tool-Integrated Reinforcement Learning），一个可

5月前
308
1
评论

TORL：工具集成强化学习，让大语言模型学会用代码解题

Qwen3开源最新Embedding模型

Qwen3-Embedding 是构建于 Qwen3 基础模型上的新一代文本嵌入与重排序模型系列，显著提升了多语言理解、代码检索与复杂指令任务中的表现。该系列模型覆盖三个参数规模（0.6B、4B

5月前
440
2
评论

Qwen3开源最新Embedding模型

个人成就

优秀创作者

文章被点赞 2,193

文章被阅读 409,391

掘力值 11,230

加入于

2021-12-01