今日候选池 255 篇,硬过滤 + LLM 打分后通过评估 47 篇,精选 Top-10,另列 37 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs
评分 8.9 · 方向 cs.CL · Computation and Language · arxiv 2605.15077 · PDF
💡 提出 AsyncFC,以 future-based 异步函数调用重叠解码与工具执行,并支持可并行函数的并发调度。
推理加速 工具使用 agentic workflow 系统
摘要:本文提出 AsyncFC,一种无需改模型、微调或修改函数实现的异步 function calling 框架。它将 LLM 解码与函数执行解耦,使模型生成可与工具执行重叠,并在依赖允许时并行调用多个函数,从而缓解同步 tool use 带来的延迟瓶颈。实验在标准函数调用与软件工程基准上表明,AsyncFC 能显著缩短端到端任务时间且基本不损失准确率;同时也揭示 LLM 天然具备基于 symbolic futures 推理未决执行结果的能力。
评分细项:rel 9.3 / nov 8.6 / prac 9.4 / author 7.0
2. Performance-Driven Policy Optimization for Speculative Decoding with Adaptive Windowing
评分 8.9 · 方向 cs.CL · Computation and Language · arxiv 2605.14978 · PDF
💡 提出 PPOW,把 speculative decoding 的 drafter 训练改为窗口级 RL,并用自适应窗口获得 3.39–4.36× 加速。
推理加速 投机解码 强化学习
摘要:论文关注 speculative decoding 中“难草拟位置”导致的窗口早停问题。作者提出 PPOW,用强化学习把 drafter 的优化目标从逐 token 模仿,转为面向整段窗口的性能优化。方法结合成本感知的加速奖励、基于分布接近度的奖励,以及自适应 divergence-aware windowing,优先学习高信息量窗口。统一解码协议下,PPOW 在多类模型和基准上将平均接受长度提升到 6.29–6.52,推理加速达到 3.39–4.36×,说明窗口级优化是提升 speculative decoding 效率的有效路径。
评分细项:rel 9.7 / nov 8.6 / prac 9.0 / author 5.0
3. Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy
评分 8.9 · 方向 cs.CL · Computation and Language · arxiv 2605.14558 · PDF
💡 提出 ActFocus,用 token-level energy 重加权 agentic RL,降低 reasoning token 梯度并强化高不确定 action token。
Agentic RL 后训练 credit assignment
Comments:Preprint
摘要:该工作研究 agentic reinforcement learning 中的 credit assignment 问题,指出 PPO、GRPO 等对所有 token 一视同仁会错配训练信号。作者从能量模型视角发现,真正与奖励方差强相关的信号主要集中在少量 action tokens,而非长 reasoning tokens,并称之为 Action Bottleneck。基于此提出 ActFocus:降低 reasoning token 梯度权重,并通过能量驱动的重分配机制进一步强化高不确定性的 action token。四个环境、不同模型规模实验显示,其相对 PPO 和 GRPO 最终可分别提升 65.2 和 63.7 个百分点,...
评分细项:rel 9.6 / nov 8.7 / prac 8.9 / author 5.5
4. Self-Distilled Agentic Reinforcement Learning
评分 8.8 · 方向 cs.CL · Computation and Language · arxiv 2605.15155 · PDF
💡 提出 SDAR,在 agent RL 中把 OPSD 变为门控辅助目标,用 sigmoid gate 按 token 选择性蒸馏教师信号。
后训练 agent RL 自蒸馏 GRPO
摘要:本文提出 SDAR(Self-Distilled Agentic Reinforcement Learning),用于改进多轮 LLM agent 的后训练。针对传统 RL 只有轨迹级稀疏奖励、OPSD 在多轮场景下又易不稳定的问题,SDAR 将自蒸馏作为带门控的辅助目标,仍以 RL 为主干。其做法是把 detached 的 token 级信号映射为 sigmoid gate:增强教师支持的正向 token 蒸馏,同时对负向拒绝进行柔性抑制。基于 Qwen2.5/Qwen3 在 ALFWorld、WebShop、Search-QA 上,SDAR 相比 GRPO 分别提升 9.4%、10.2% 和 7.0%,且比朴素 GRPO+OPS...
评分细项:rel 9.5 / nov 8.6 / prac 8.7 / author 6.5
5. Factorization-Error-Free Discrete Diffusion Language Model via Speculative Decoding
评分 8.6 · 方向 cs.CL · Computation and Language · arxiv 2605.14305 · PDF
💡 FeF-DLLM以prefix-conditioned精确分解替代独立X0预测消除factorization error,并在扩散去噪中结合speculative decoding。
扩散语言模型 投机解码 推理加速
摘要:论文提出 FeF-DLLM,解决离散 diffusion language model 中标准 X0 预测因独立 token 建模带来的 factorization error。核心思路是用严格的前缀条件分解来建模 clean posterior,更好保留 token 依赖;为缓解前缀条件带来的串行开销,作者进一步把 speculative decoding 融入 diffusion 去噪,在保持并行预测与 re-masking 特性的同时加速推理。理论上证明该方法可从真实联合分布采样,并给出期望加速比。实验在 GSM8K、MATH、HumanEval、MBPP 上平均提升准确率 5.04 个百分点,推理加速达 3.86×。
评分细项:rel 9.5 / nov 8.5 / prac 8.0 / author 5.0
6. Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance
评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2605.15012 · PDF
💡 提出 FEST,用 128 条随机 few-shot 示例结合衰减权重 SFT 与 on-policy RLVR,提升难题样本效率。
RLVR 后训练 few-shot SFT
Comments:25 pages, 11 figures
摘要:本文针对 RLVR 在困难任务上样本效率低、难以产生正确 rollout 的问题,提出 FEST:一种基于随机少样本示例引导的 RLVR 方法。与依赖大量 SFT 数据的演示引导方案不同,FEST 仅需从 SFT 数据集中随机选取 128 条 demonstrations,即可显著提升训练效果。作者指出其成功依赖三点:监督信号、on-policy 信号,以及对 few-shot SFT 数据采用递减权重以避免多轮训练过拟合。多个基准上,FEST 用远少于基线的 SFT 数据取得更好结果,甚至可匹配使用全量数据的方法。
评分细项:rel 9.5 / nov 7.8 / prac 8.8 / author 6.0
7. Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2605.14539 · PDF
💡 提出 CIPO,把 RLVR 中失败轨迹转成 correction-oriented supervision,与原始策略优化联合训练。
RLVR 后训练 自我纠错
Comments:Work on progress
摘要:该论文提出 CIPO(Correction-Oriented Policy Optimization),用于缓解 RLVR 中二值稀疏奖励和弱 credit assignment 导致的训练信号模糊问题。核心思想是把 on-policy 失败轨迹转化为面向纠错的监督信号,无需任何外部标注;模型在优化标准 RLVR 目标的同时,也学习如何修正自己先前的错误。作者在数学推理与代码生成共 11 个基准上验证,CIPO 持续且显著优于强基线,不仅提升推理与纠错能力,也带来更强的 pass@K 增益,说明其提升的是模型内在推理能力,而非仅重新分配已有正确答案的概率。
评分细项:rel 9.4 / nov 8.0 / prac 8.6 / author 5.5
8. PreFT: Prefill-only finetuning for efficient inference
评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2605.14217 · PDF
💡 PreFT仅在prefill阶段应用LoRA或ReFT适配器、decode阶段丢弃适配器,并在vLLM实现多适配器高吞吐服务。
推理加速 PEFT vLLM
摘要:本文提出 PreFT(Prefill-only Finetuning),面向多适配器部署场景提升推理吞吐。作者指出 PEFT 在服务大量用户特定 adapter 时,decode 阶段吞吐显著低于 prefill,因此应按服务吞吐而非参数量优化。PreFT 仅在 prefill token 上应用 adapter,进入 decode 后直接丢弃,从而大幅减少多 adapter 推理开销。基于 vLLM,作者实现并开源了 prefill-only LoRA 和 ReFT;在 Llama 3.1 70B 上服务 512 个 adapter 时,吞吐可达传统 PEFT 的 1.9×。实验还表明,虽然 SFT 场景下损失略高,但可通过增大 ...
评分细项:rel 9.0 / nov 8.0 / prac 9.0 / author 6.0
9. APWA: A Distributed Architecture for Parallelizable Agentic Workflows
评分 8.4 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15132 · PDF
💡 提出 APWA 分布式多智能体架构,将查询分解为可并行的非干扰子问题,并在独立资源上并发执行。
多智能体 agentic workflow 分布式系统
Comments:25 pages, 2 figures, 14 tables
摘要:本文针对基于 LLM 的多智能体系统在任务规模增大时面临的推理、协同与计算扩展瓶颈,提出分布式架构 APWA(Agent-Parallel Workload Architecture)。其核心是将工作流拆解为彼此无干扰的子问题,使其可在独立资源上并行执行、无需跨代理通信。APWA 支持异构数据与多种并行模式,适用于多类 agentic 任务。实验表明,APWA 能动态把复杂查询分解为可并行工作流,并在以往系统失效的大规模任务上实现有效扩展。
评分细项:rel 9.4 / nov 7.9 / prac 8.8 / author 5.0
10. Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
评分 8.2 · 方向 cs.CL · Computation and Language · arxiv 2605.14747 · PDF
💡 提出 Video2GUI,从无标注互联网视频抽取 GUI 交互轨迹,构建 1200 万条 WildGUI 预训练数据。
GUI Agent 数据合成 预训练
Comments:Accepted at ICML 2026
摘要:为缓解 GUI agent 训练数据稀缺、人工标注昂贵且覆盖面有限的问题,本文提出全自动框架 Video2GUI,可直接从无标注互联网视频中提取带 grounding 的 GUI 交互轨迹。方法采用 coarse-to-fine 过滤,先筛选高质量 GUI 教程视频,再转换为结构化 agent 轨迹。基于 5 亿条视频元数据,作者构建了 WildGUI 数据集,包含 1200 万条交互轨迹,覆盖 1500 余个应用与网站。用其预训练 Qwen2.5-VL 和 Mimo-VL 后,在多项 GUI grounding 与动作基准上提升 5%–20%,达到或超过现有最优水平。
评分细项:rel 7.8 / nov 8.4 / prac 9.0 / author 7.5
📚 速览 · 其他通过评估的工作(37 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
-
cs.CL8.1ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both · 💡 提出 ATLAS,把单个 functional token 同时作为 agentic 操作与潜在视觉推理单元,并兼容 SFT 与 RL 训练。 -
cs.CL8.1Minimal-Intervention KV Retention: A Design-Space Study and a Diversity-Penalty Survivor · 💡 研究小预算KV压缩设计空间后,提出在TriAttention打分中加入V-space redundancy penalty的贪心保留策略α。 -
cs.MA8.0Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience · 💡 训练轻量 prompter 策略网络,并用含文本 critique 的对比经验缓冲做迭代经验蒸馏,优化黑盒 LLM 推理与工具调用。 -
cs.CL8.0Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use · 💡 提出 CAST,从历史工具执行轨迹提取 complexity 与 failure profile,并把案例信号写入 RL 奖励设计。 -
cs.CL8.0EndPrompt: Efficient Long-Context Extension via Terminal Anchoring · 💡 提出 EndPrompt,用短序列加 terminal anchoring 暴露长距离 RoPE 位置差,实现低成本长上下文扩展。 -
cs.CL8.0Language Generation as Optimal Control: Closed-Loop Diffusion in Latent Control Space · 💡 将文本生成建模为最优控制,在 latent control space 中用 Flow Matching 近似 HJB 闭环策略。 -
cs.CL8.0Diagnosing Training Inference Mismatch in LLM Reinforcement Learning · 💡 用VeXact隔离LLM RL中的Training-Inference Mismatch,证明token级概率偏差可单独触发训练崩溃并分析补救方案。 -
cs.CL7.9Uncertainty Quantification for Large Language Diffusion Models · 💡 系统研究语言扩散模型的不确定性估计,利用去噪轨迹、remasking 动态与 masked diffusion likelihood 构造零样本 UQ。 -
cs.CV8.1Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity · 💡 提出 Head Forcing,按注意力头类型分配 KV cache 与分层记忆,扩展 AR 视频生成到分钟级。 -
cs.CV7.9HASTE: Training-Free Video Diffusion Acceleration via Head-Wise Adaptive Sparse Attention · 💡 提出 HASTE,以 Temporal Mask Reuse 和 Error-guided Budgeted Calibration 做视频扩散稀疏注意力加速。 -
cs.CL7.6Dynamic Latent Routing · 💡 DLR把General Dijkstra Search映射到后训练,联合学习离散latent code、routing policy与模型参数,实现单阶段动态路由。 -
cs.CV8.1CoRDS: Coreset-based Representative and Diverse Selection for Streaming Video Understanding · 💡 把流式视频 VLM 的 KV 压缩建模为 coreset selection,在 key/value 联合空间做覆盖与多样性子集选择。 -
cs.CL7.5Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement · 💡 DiHAL用几何代理分数选择扩散插入层,以diffusion bridge替换Transformer下层前缀,重建hidden state而非token。 -
cs.CV8.0Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models · 💡 针对扩散 VLM 长生成,提出 Mask Prior Suppression 与 Monotonic RoPE Scaling 两种免训练解码修正。 -
cs.CV7.9HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling · 💡 按注意力头跨尺度历史关注度做离线校准与静态剪枝,压缩 VAR 的 KV cache, 在 Infinity-2B 上实现 2× 更高压缩率。 -
cs.CV7.8The Velocity Deficit: Initial Energy Injection for Flow Matching · 💡 发现 flow matching 的 Velocity Deficit,并提出训练式 MAFM 与一行代码的 SSC 校正速度幅值,50 步采样超过 250 步基线。 -
cs.CL7.2MeMo: Memory as a Model · 💡 提出 MeMo,用独立训练的 memory model 编码新知识,并以固定推理成本给冻结 LLM 做即插即用更新。 -
cs.CL7.0Improving Multi-turn Dialogue Consistency with Self-Recall Thinking · 💡 提出 Self-Recall Thinking,用 dependency construction 构造 self-recall chains,使对话模型按需回忆关键历史轮次。 -
cs.AI7.2Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling · 💡 DDC用Confidence-Weighted Bayesian protocol评估路径质量,并以Trend-Aware Stratified Pruning自适应终止推理分支。 -
cs.CV7.4KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration · 💡 提出 KVPO,将 GRPO 对齐到 ODE-native 视频生成;通过随机路由历史 KV cache 做语义级探索与奖励对比学习。 -
cs.CV7.0Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation · 💡 Causal Forcing++ 用 causal consistency distillation 初始化 1-2 步帧级 AR diffusion student,避免预计算完整 PF-ODE 轨迹。 -
cs.CV6.7PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation · 💡 PhyMotion 从视频恢复 SMPL 动作并在 MuJoCo 中评估运动学、接触和平衡,构造 3D 物理奖励训练人类视频生成。 -
cs.CV6.7SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer · 💡 SANA-WM 用 Hybrid Linear Attention 将 Gated DeltaNet 与 softmax 注意力结合,支持 720p、60 秒视频世界模型与 6-DoF 相机控制。 -
cs.CV6.7InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation · 💡 提出 InsightTok 离散视觉 tokenizer,用局部内容感知感知损失提升文本字形与人脸细节,并开源代码权重。 -
cs.CV6.7CreFlow: Corrective Reflow for Sparse-Reward Embodied Video Diffusion RL · 💡 CreFlow 用 LTL 约束奖励、credit-aware NFT loss 与 corrective reflow,对 embodied video diffusion 做稀疏奖励 RL 后训练。 -
cs.CV6.5RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO · 💡 RAVEN 用 training-time test 重排自 rollout 历史,并以 CM-GRPO 在 consistency sampling kernel 上做在线 RL 优化视频外推。 -
cs.CL6.9Remember Your Trace: Memory-Guided Long-Horizon Agentic Framework for Consistent and Hierarchical Repository-Level Code Documentation · 💡 提出 MemDocAgent,以依赖感知遍历和 RepoMemory 的 read/write/verify 机制生成仓库级层次化文档。 -
cs.CV7.0Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning · 💡 提出闭环视觉推理 CLVR,用 step-level visual verification、PPRL 和 DSWM 联合优化复杂文生图的规划、训练与采样延迟。 -
cs.CV6.9Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners · 💡 统一多模态模型按任务复杂度在 direct generation、自反思与 multi-step planning 间切换,并用两阶段 SFT+RL 学习执行路径。 -
cs.CL6.2Holistic Evaluation and Failure Diagnosis of AI Agents · 💡 提出 agent 评测框架,将长轨迹拆成 span 级诊断与定位,在 GAIA、SWE-Bench 上提升错误定位精度。 -
cs.AI6.5OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation · 💡 OpenDeepThink对并行推理候选做成对比较,用Bradley-Terry聚合排序并以自然语言批评驱动population mutation。 -
cs.CL6.1Nexus : An Agentic Framework for Time Series Forecasting · 💡 Nexus将时序预测拆成宏观波动、微观波动与文本上下文整合三类agent,再汇总生成最终forecast。 -
cs.CV6.0EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration · 💡 针对长时人像动画分块漂移,引入 Persistent Latent Propagation 与 Restorative Flow Matching,并用 LoRA 后训练。 -
cs.CV6.2DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models · 💡 将 Online Policy Distillation 扩展到扩散模型连续状态过程,用逐步 KL 闭式目标统一 SDE/ODE 精炼。 -
cs.CV6.2Representative Attention For Vision Transformers · 💡 提出 RPAttention 线性注意力,以 Gather-Interact-Distribute 在表征空间聚合 representative tokens。 -
cs.CV6.2Probing into Camera Control of Video Models · 💡 将视频模型的相机控制重写为位移场,并在去噪中对 latent feature 做可微重采样,无需训练即可施加几何引导。 -
cs.CV6.0Video-Zero: Self-Evolution Video Understanding · 💡 Video-Zero 构建无标注 Questioner-Solver 共进化框架,围绕 temporally localized evidence 生成问题、对齐证据并迭代训练。
数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考