05-14 · LLM 最新论文速览今日候选池 255 篇，硬过滤 + LLM 打分后通过评估 47 篇，精选 Top-

今日候选池 255 篇，硬过滤 + LLM 打分后通过评估 47 篇，精选 Top-10，另列 37 篇速览。

关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs

评分 8.9 · 方向 cs.CL · Computation and Language · arxiv 2605.15077 · PDF

💡 提出 AsyncFC，以 future-based 异步函数调用重叠解码与工具执行，并支持可并行函数的并发调度。

推理加速 工具使用 agentic workflow 系统

摘要：本文提出 AsyncFC，一种无需改模型、微调或修改函数实现的异步 function calling 框架。它将 LLM 解码与函数执行解耦，使模型生成可与工具执行重叠，并在依赖允许时并行调用多个函数，从而缓解同步 tool use 带来的延迟瓶颈。实验在标准函数调用与软件工程基准上表明，AsyncFC 能显著缩短端到端任务时间且基本不损失准确率；同时也揭示 LLM 天然具备基于 symbolic futures 推理未决执行结果的能力。

评分细项：rel 9.3 / nov 8.6 / prac 9.4 / author 7.0

2. Performance-Driven Policy Optimization for Speculative Decoding with Adaptive Windowing

评分 8.9 · 方向 cs.CL · Computation and Language · arxiv 2605.14978 · PDF

💡 提出 PPOW，把 speculative decoding 的 drafter 训练改为窗口级 RL，并用自适应窗口获得 3.39–4.36× 加速。

推理加速 投机解码 强化学习

摘要：论文关注 speculative decoding 中“难草拟位置”导致的窗口早停问题。作者提出 PPOW，用强化学习把 drafter 的优化目标从逐 token 模仿，转为面向整段窗口的性能优化。方法结合成本感知的加速奖励、基于分布接近度的奖励，以及自适应 divergence-aware windowing，优先学习高信息量窗口。统一解码协议下，PPOW 在多类模型和基准上将平均接受长度提升到 6.29–6.52，推理加速达到 3.39–4.36×，说明窗口级优化是提升 speculative decoding 效率的有效路径。

评分细项：rel 9.7 / nov 8.6 / prac 9.0 / author 5.0

3. Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy

评分 8.9 · 方向 cs.CL · Computation and Language · arxiv 2605.14558 · PDF

💡 提出 ActFocus，用 token-level energy 重加权 agentic RL，降低 reasoning token 梯度并强化高不确定 action token。

Agentic RL 后训练 credit assignment

Comments：Preprint

摘要：该工作研究 agentic reinforcement learning 中的 credit assignment 问题，指出 PPO、GRPO 等对所有 token 一视同仁会错配训练信号。作者从能量模型视角发现，真正与奖励方差强相关的信号主要集中在少量 action tokens，而非长 reasoning tokens，并称之为 Action Bottleneck。基于此提出 ActFocus：降低 reasoning token 梯度权重，并通过能量驱动的重分配机制进一步强化高不确定性的 action token。四个环境、不同模型规模实验显示，其相对 PPO 和 GRPO 最终可分别提升 65.2 和 63.7 个百分点，...

评分细项：rel 9.6 / nov 8.7 / prac 8.9 / author 5.5

4. Self-Distilled Agentic Reinforcement Learning

评分 8.8 · 方向 cs.CL · Computation and Language · arxiv 2605.15155 · PDF

💡 提出 SDAR，在 agent RL 中把 OPSD 变为门控辅助目标，用 sigmoid gate 按 token 选择性蒸馏教师信号。

后训练 agent RL 自蒸馏 GRPO

摘要：本文提出 SDAR（Self-Distilled Agentic Reinforcement Learning），用于改进多轮 LLM agent 的后训练。针对传统 RL 只有轨迹级稀疏奖励、OPSD 在多轮场景下又易不稳定的问题，SDAR 将自蒸馏作为带门控的辅助目标，仍以 RL 为主干。其做法是把 detached 的 token 级信号映射为 sigmoid gate：增强教师支持的正向 token 蒸馏，同时对负向拒绝进行柔性抑制。基于 Qwen2.5/Qwen3 在 ALFWorld、WebShop、Search-QA 上，SDAR 相比 GRPO 分别提升 9.4%、10.2% 和 7.0%，且比朴素 GRPO+OPS...

评分细项：rel 9.5 / nov 8.6 / prac 8.7 / author 6.5

5. Factorization-Error-Free Discrete Diffusion Language Model via Speculative Decoding

评分 8.6 · 方向 cs.CL · Computation and Language · arxiv 2605.14305 · PDF

💡 FeF-DLLM以prefix-conditioned精确分解替代独立X0预测消除factorization error，并在扩散去噪中结合speculative decoding。

扩散语言模型 投机解码 推理加速

摘要：论文提出 FeF-DLLM，解决离散 diffusion language model 中标准 X0 预测因独立 token 建模带来的 factorization error。核心思路是用严格的前缀条件分解来建模 clean posterior，更好保留 token 依赖；为缓解前缀条件带来的串行开销，作者进一步把 speculative decoding 融入 diffusion 去噪，在保持并行预测与 re-masking 特性的同时加速推理。理论上证明该方法可从真实联合分布采样，并给出期望加速比。实验在 GSM8K、MATH、HumanEval、MBPP 上平均提升准确率 5.04 个百分点，推理加速达 3.86×。

评分细项：rel 9.5 / nov 8.5 / prac 8.0 / author 5.0

6. Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2605.15012 · PDF

💡 提出 FEST，用 128 条随机 few-shot 示例结合衰减权重 SFT 与 on-policy RLVR，提升难题样本效率。

RLVR 后训练 few-shot SFT

Comments：25 pages, 11 figures

摘要：本文针对 RLVR 在困难任务上样本效率低、难以产生正确 rollout 的问题，提出 FEST：一种基于随机少样本示例引导的 RLVR 方法。与依赖大量 SFT 数据的演示引导方案不同，FEST 仅需从 SFT 数据集中随机选取 128 条 demonstrations，即可显著提升训练效果。作者指出其成功依赖三点：监督信号、on-policy 信号，以及对 few-shot SFT 数据采用递减权重以避免多轮训练过拟合。多个基准上，FEST 用远少于基线的 SFT 数据取得更好结果，甚至可匹配使用全量数据的方法。

评分细项：rel 9.5 / nov 7.8 / prac 8.8 / author 6.0

7. Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2605.14539 · PDF

💡 提出 CIPO，把 RLVR 中失败轨迹转成 correction-oriented supervision，与原始策略优化联合训练。

RLVR 后训练 自我纠错

Comments：Work on progress

摘要：该论文提出 CIPO（Correction-Oriented Policy Optimization），用于缓解 RLVR 中二值稀疏奖励和弱 credit assignment 导致的训练信号模糊问题。核心思想是把 on-policy 失败轨迹转化为面向纠错的监督信号，无需任何外部标注；模型在优化标准 RLVR 目标的同时，也学习如何修正自己先前的错误。作者在数学推理与代码生成共 11 个基准上验证，CIPO 持续且显著优于强基线，不仅提升推理与纠错能力，也带来更强的 pass@K 增益，说明其提升的是模型内在推理能力，而非仅重新分配已有正确答案的概率。

评分细项：rel 9.4 / nov 8.0 / prac 8.6 / author 5.5

8. PreFT: Prefill-only finetuning for efficient inference

评分 8.5 · 方向 cs.CL · Computation and Language · arxiv 2605.14217 · PDF

💡 PreFT仅在prefill阶段应用LoRA或ReFT适配器、decode阶段丢弃适配器，并在vLLM实现多适配器高吞吐服务。

推理加速 PEFT vLLM

摘要：本文提出 PreFT（Prefill-only Finetuning），面向多适配器部署场景提升推理吞吐。作者指出 PEFT 在服务大量用户特定 adapter 时，decode 阶段吞吐显著低于 prefill，因此应按服务吞吐而非参数量优化。PreFT 仅在 prefill token 上应用 adapter，进入 decode 后直接丢弃，从而大幅减少多 adapter 推理开销。基于 vLLM，作者实现并开源了 prefill-only LoRA 和 ReFT；在 Llama 3.1 70B 上服务 512 个 adapter 时，吞吐可达传统 PEFT 的 1.9×。实验还表明，虽然 SFT 场景下损失略高，但可通过增大 ...

评分细项：rel 9.0 / nov 8.0 / prac 9.0 / author 6.0

9. APWA: A Distributed Architecture for Parallelizable Agentic Workflows

评分 8.4 · 方向 cs.MA · Multiagent Systems · arxiv 2605.15132 · PDF

💡 提出 APWA 分布式多智能体架构，将查询分解为可并行的非干扰子问题，并在独立资源上并发执行。

多智能体 agentic workflow 分布式系统

Comments：25 pages, 2 figures, 14 tables

摘要：本文针对基于 LLM 的多智能体系统在任务规模增大时面临的推理、协同与计算扩展瓶颈，提出分布式架构 APWA（Agent-Parallel Workload Architecture）。其核心是将工作流拆解为彼此无干扰的子问题，使其可在独立资源上并行执行、无需跨代理通信。APWA 支持异构数据与多种并行模式，适用于多类 agentic 任务。实验表明，APWA 能动态把复杂查询分解为可并行工作流，并在以往系统失效的大规模任务上实现有效扩展。

评分细项：rel 9.4 / nov 7.9 / prac 8.8 / author 5.0

10. Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

评分 8.2 · 方向 cs.CL · Computation and Language · arxiv 2605.14747 · PDF

💡 提出 Video2GUI，从无标注互联网视频抽取 GUI 交互轨迹，构建 1200 万条 WildGUI 预训练数据。

GUI Agent 数据合成 预训练

Comments：Accepted at ICML 2026

摘要：为缓解 GUI agent 训练数据稀缺、人工标注昂贵且覆盖面有限的问题，本文提出全自动框架 Video2GUI，可直接从无标注互联网视频中提取带 grounding 的 GUI 交互轨迹。方法采用 coarse-to-fine 过滤，先筛选高质量 GUI 教程视频，再转换为结构化 agent 轨迹。基于 5 亿条视频元数据，作者构建了 WildGUI 数据集，包含 1200 万条交互轨迹，覆盖 1500 余个应用与网站。用其预训练 Qwen2.5-VL 和 Mimo-VL 后，在多项 GUI grounding 与动作基准上提升 5%–20%，达到或超过现有最优水平。

评分细项：rel 7.8 / nov 8.4 / prac 9.0 / author 7.5

📚 速览 · 其他通过评估的工作（37 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CL 8.1 ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both · 💡 提出 ATLAS，把单个 functional token 同时作为 agentic 操作与潜在视觉推理单元，并兼容 SFT 与 RL 训练。
cs.CL 8.1 Minimal-Intervention KV Retention: A Design-Space Study and a Diversity-Penalty Survivor · 💡 研究小预算KV压缩设计空间后，提出在TriAttention打分中加入V-space redundancy penalty的贪心保留策略α。
cs.MA 8.0 Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience · 💡 训练轻量 prompter 策略网络，并用含文本 critique 的对比经验缓冲做迭代经验蒸馏，优化黑盒 LLM 推理与工具调用。
cs.CL 8.0 Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use · 💡 提出 CAST，从历史工具执行轨迹提取 complexity 与 failure profile，并把案例信号写入 RL 奖励设计。
cs.CL 8.0 EndPrompt: Efficient Long-Context Extension via Terminal Anchoring · 💡 提出 EndPrompt，用短序列加 terminal anchoring 暴露长距离 RoPE 位置差，实现低成本长上下文扩展。
cs.CL 8.0 Language Generation as Optimal Control: Closed-Loop Diffusion in Latent Control Space · 💡 将文本生成建模为最优控制，在 latent control space 中用 Flow Matching 近似 HJB 闭环策略。
cs.CL 8.0 Diagnosing Training Inference Mismatch in LLM Reinforcement Learning · 💡 用VeXact隔离LLM RL中的Training-Inference Mismatch，证明token级概率偏差可单独触发训练崩溃并分析补救方案。
cs.CL 7.9 Uncertainty Quantification for Large Language Diffusion Models · 💡 系统研究语言扩散模型的不确定性估计，利用去噪轨迹、remasking 动态与 masked diffusion likelihood 构造零样本 UQ。
cs.CV 8.1 Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity · 💡 提出 Head Forcing，按注意力头类型分配 KV cache 与分层记忆，扩展 AR 视频生成到分钟级。
cs.CV 7.9 HASTE: Training-Free Video Diffusion Acceleration via Head-Wise Adaptive Sparse Attention · 💡 提出 HASTE，以 Temporal Mask Reuse 和 Error-guided Budgeted Calibration 做视频扩散稀疏注意力加速。
cs.CL 7.6 Dynamic Latent Routing · 💡 DLR把General Dijkstra Search映射到后训练，联合学习离散latent code、routing policy与模型参数，实现单阶段动态路由。
cs.CV 8.1 CoRDS: Coreset-based Representative and Diverse Selection for Streaming Video Understanding · 💡 把流式视频 VLM 的 KV 压缩建模为 coreset selection，在 key/value 联合空间做覆盖与多样性子集选择。
cs.CL 7.5 Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement · 💡 DiHAL用几何代理分数选择扩散插入层，以diffusion bridge替换Transformer下层前缀，重建hidden state而非token。
cs.CV 8.0 Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models · 💡 针对扩散 VLM 长生成，提出 Mask Prior Suppression 与 Monotonic RoPE Scaling 两种免训练解码修正。
cs.CV 7.9 HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling · 💡 按注意力头跨尺度历史关注度做离线校准与静态剪枝，压缩 VAR 的 KV cache，在 Infinity-2B 上实现 2× 更高压缩率。
cs.CV 7.8 The Velocity Deficit: Initial Energy Injection for Flow Matching · 💡 发现 flow matching 的 Velocity Deficit，并提出训练式 MAFM 与一行代码的 SSC 校正速度幅值，50 步采样超过 250 步基线。
cs.CL 7.2 MeMo: Memory as a Model · 💡 提出 MeMo，用独立训练的 memory model 编码新知识，并以固定推理成本给冻结 LLM 做即插即用更新。
cs.CL 7.0 Improving Multi-turn Dialogue Consistency with Self-Recall Thinking · 💡 提出 Self-Recall Thinking，用 dependency construction 构造 self-recall chains，使对话模型按需回忆关键历史轮次。
cs.AI 7.2 Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling · 💡 DDC用Confidence-Weighted Bayesian protocol评估路径质量，并以Trend-Aware Stratified Pruning自适应终止推理分支。
cs.CV 7.4 KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration · 💡 提出 KVPO，将 GRPO 对齐到 ODE-native 视频生成；通过随机路由历史 KV cache 做语义级探索与奖励对比学习。
cs.CV 7.0 Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation · 💡 Causal Forcing++ 用 causal consistency distillation 初始化 1-2 步帧级 AR diffusion student，避免预计算完整 PF-ODE 轨迹。
cs.CV 6.7 PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation · 💡 PhyMotion 从视频恢复 SMPL 动作并在 MuJoCo 中评估运动学、接触和平衡，构造 3D 物理奖励训练人类视频生成。
cs.CV 6.7 SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer · 💡 SANA-WM 用 Hybrid Linear Attention 将 Gated DeltaNet 与 softmax 注意力结合，支持 720p、60 秒视频世界模型与 6-DoF 相机控制。
cs.CV 6.7 InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation · 💡 提出 InsightTok 离散视觉 tokenizer，用局部内容感知感知损失提升文本字形与人脸细节，并开源代码权重。
cs.CV 6.7 CreFlow: Corrective Reflow for Sparse-Reward Embodied Video Diffusion RL · 💡 CreFlow 用 LTL 约束奖励、credit-aware NFT loss 与 corrective reflow，对 embodied video diffusion 做稀疏奖励 RL 后训练。
cs.CV 6.5 RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO · 💡 RAVEN 用 training-time test 重排自 rollout 历史，并以 CM-GRPO 在 consistency sampling kernel 上做在线 RL 优化视频外推。
cs.CL 6.9 Remember Your Trace: Memory-Guided Long-Horizon Agentic Framework for Consistent and Hierarchical Repository-Level Code Documentation · 💡 提出 MemDocAgent，以依赖感知遍历和 RepoMemory 的 read/write/verify 机制生成仓库级层次化文档。
cs.CV 7.0 Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning · 💡 提出闭环视觉推理 CLVR，用 step-level visual verification、PPRL 和 DSWM 联合优化复杂文生图的规划、训练与采样延迟。
cs.CV 6.9 Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners · 💡 统一多模态模型按任务复杂度在 direct generation、自反思与 multi-step planning 间切换，并用两阶段 SFT+RL 学习执行路径。
cs.CL 6.2 Holistic Evaluation and Failure Diagnosis of AI Agents · 💡 提出 agent 评测框架，将长轨迹拆成 span 级诊断与定位，在 GAIA、SWE-Bench 上提升错误定位精度。
cs.AI 6.5 OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation · 💡 OpenDeepThink对并行推理候选做成对比较，用Bradley-Terry聚合排序并以自然语言批评驱动population mutation。
cs.CL 6.1 Nexus : An Agentic Framework for Time Series Forecasting · 💡 Nexus将时序预测拆成宏观波动、微观波动与文本上下文整合三类agent，再汇总生成最终forecast。
cs.CV 6.0 EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration · 💡 针对长时人像动画分块漂移，引入 Persistent Latent Propagation 与 Restorative Flow Matching，并用 LoRA 后训练。
cs.CV 6.2 DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models · 💡 将 Online Policy Distillation 扩展到扩散模型连续状态过程，用逐步 KL 闭式目标统一 SDE/ODE 精炼。
cs.CV 6.2 Representative Attention For Vision Transformers · 💡 提出 RPAttention 线性注意力，以 Gather-Interact-Distribute 在表征空间聚合 representative tokens。
cs.CV 6.2 Probing into Camera Control of Video Models · 💡 将视频模型的相机控制重写为位移场，并在去噪中对 latent feature 做可微重采样，无需训练即可施加几何引导。
cs.CV 6.0 Video-Zero: Self-Evolution Video Understanding · 💡 Video-Zero 构建无标注 Questioner-Solver 共进化框架，围绕 temporally localized evidence 生成问题、对齐证据并迭代训练。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考