06-26 · LLM 最新论文速览今日候选池 88 篇，硬过滤 + LLM 打分后通过评估 23 篇，精选 Top-1

今日候选池 88 篇，硬过滤 + LLM 打分后通过评估 23 篇，精选 Top-10，另列 13 篇速览。

关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. `AgentX` AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems

评分 9.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.26859 · PDF

💡 AgentX 用 Brainstorm、Developing 等多智能体闭环自动生成、改代码并评估推荐系统 A/B 实验。

多智能体系统 推荐系统 AgenticWorkflow 工业部署

摘要：AgentX 面向工业推荐系统中“想法到上线”依赖人工工程师的瓶颈，提出生产部署的多 agent 自迭代框架。系统闭环整合 Brainstorm、Developing、Evaluation 与 Harness Evolution（SGPO）：自动生成实验方案、改写生产代码、进行可靠性验证与安全 A/B 发布，并将结果沉淀为结构化知识。其贡献在于把推荐算法迭代从人工线性扩展转向由证据、算力和历史实验驱动的持续自进化研发流程。

评分细项：rel 9.5 / nov 8.5 / prac 9.5 / author 7.5

2. `RQGM` The Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators

评分 8.0 · 方向 cs.MA · Multiagent Systems · arxiv 2606.26294 · PDF

💡 提出 RQGM，把自改进智能体的验证器按 epoch 演化，用非平稳 utility 搜索提升编码任务通过率。

agentic workflow 自改进智能体 动态评估

摘要：本文指出现有自改进 agent 通常依赖固定评测器或基准，难以适应目标随系统演化而变化的场景。作者提出 Red Queen Gödel Machine（RQGM），在 epoch 内保持评测准则稳定、在 epoch 边界允许 utility 演化，从而支持非平稳目标下的递归自改进。实验显示，在代码任务中加入 agent-as-a-judge 代码审查信号可超过既有 SOTA，并减少 1.35–1.72 倍 token；在论文写作/评审和奥赛证明生成/评分中，也优于先前自改进方法。

评分细项：rel 8.5 / nov 8.5 / prac 7.5 / author 5.0

3. `PsyCoT` Improving General Role-Playing Agents via Psychology-Grounded Reasoning and Role-Aware Policy Optimization

评分 7.8 · 方向 cs.CL · Computation and Language · arxiv 2606.27025 · PDF

💡 Psy-CoT将角色回复拆成感知、共情和逻辑三步，并用Role-Aware Policy Optimization抑制奖励黑客。

智能体 角色扮演 强化学习 后训练

摘要：面向任意自然语言角色设定构建通用扮演智能体仍困难，传统 SFT 易停留在行为模仿、泛化差。论文提出 Psy-CoT，将回应前推理分为互动感知、心理共情和逻辑构建，使模型基于角色动态思考；并提出 RAPO，用 profile-token 互信息非对称加权梯度，强化角色特异表达、抑制 reward hacking。CoSER、CharacterBench、CharacterEval 实验显示其角色一致性优于现有方法。

评分细项：rel 8.5 / nov 7.0 / prac 7.5 / author 6.0

4. `SemStop` Semantic Early-Stopping for Iterative LLM Agent Loops

评分 7.7 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.27009 · PDF

💡 用 draft embedding 余弦距离和质量 patience 窗口，为 Writer-Critic LLM 循环做语义早停。

多智能体 LLM Agent 推理成本

摘要：多智能体 LLM 循环通常依赖固定 max_iterations，易在简单问题上浪费 token、在难题上过早截断。本文研究语义 early-stopping：当连续草稿 embedding 语义变化和质量提升均趋停时终止。贡献包括给出确定终止与良定义性的形式证明，设计复用完整轨迹与缓存 LLM judge 的低成本配对评估协议，并在 HotpotQA 多跳 RAG 上验证：无 judge 版本在质量持平下节省 38% operational tokens。

评分细项：rel 8.5 / nov 6.5 / prac 8.0 / author 5.0

5. `JERP` Joint Learning of Experiential Rules and Policies for Large Language Model Agents

评分 7.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.27136 · PDF

💡 JERP用同一批交互轨迹同步更新经验规则池和LLM agent策略参数。

LLM Agent 策略学习 经验规则

摘要：针对多步交互环境中 LLM agents 难以有效利用历史经验的问题，本文提出 JERP：从同一批交互轨迹中联合更新长期经验规则库与策略模型。决策时检索任务相关规则并结合交互历史提示 agent；每轮结束后同时优化策略，并通过对比当前 rollout 与成功参考轨迹修正规则。该机制使规则与演化中的策略保持一致，并将稳定行为逐步吸收到模型中。在 AlfWorld 和 WebShop 上，JERP 在复杂交互任务中稳定提升决策表现。

评分细项：rel 8.5 / nov 7.5 / prac 7.5 / author 6.0

6. `CARVE` CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention

评分 7.6 · 方向 cs.CL · Computation and Language · arxiv 2606.27229 · PDF

💡 提出 CARVE 在线性注意力中仅沿 key 轴擦除，保留 WY-form chunk solver 并降低 value 门控参数。

线性注意力 推理架构 长上下文

摘要：本文指出主流 delta-rule recurrent 架构 GDN-2 存在 memory-blind gating、value 轴擦除浪费参数，并阻碍 WY-form chunk solver 等问题。CARVE 采用“仅在 key 轴擦除”的原则，证明其是保持 WY-form solver 有效的充要条件；同时复用 recurrent 输出作为内容感知门控信号，并以每头单标量替代 value 写门投影。在 1.3B、100B tokens 训练下，CARVE 相比 GDN-2 降低 WikiText 困惑度，领先多项常识推理与 RULER 检索基准，且吞吐开销仅 0.4%、峰值内存降 13%、参数少 19%。

评分细项：rel 8.0 / nov 8.0 / prac 7.0 / author 5.0

7. `CUGAFLO` A Process Harness for Uplifting Legacy Workflows to Agentic BPM: Design and Realization in CUGA FLO

评分 7.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.27188 · PDF

💡 CUGA FLO用TDF模型把TaskAgent、DecisionAgent、FlowAgent接入遗留BPM流程。

Agentic Workflow 多Agent 业务流程

摘要：本文提出 process harness，用于在不替换既有工作流引擎的情况下，将传统流程升级为 Agentic BPM。该机制在确定性引擎外加入受策略约束的 agentic 层，在关键控制点提供推理、适应与监督，同时保持引擎对流程结构的控制。作者定义 TDF 模型，包含 TaskAgent、DecisionAgent 与 FlowAgent，并在 CUGA FLO 中实现，借贷款审批案例展示任务执行、路由决策和合规覆盖等能力。

评分细项：rel 8.5 / nov 7.0 / prac 8.0 / author 5.0

8. `TOPS` TOPS: First-Principles Visual Token Pruning via Constructing Token Optimal Preservation Sets for Efficient MLLM Inference

评分 7.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.27161 · PDF

💡 TOPS按任务相关性、信息覆盖和语义多样性做免训练MLLM视觉token剪枝。

推理加速 视觉Token剪枝 MLLM

摘要：针对 MLLM 推理中视觉 token 过多带来的高计算开销，本文从第一性原理重新刻画视觉 token pruning，提出 Token Optimal Preservation Sets。作者基于信息论总结任务相关性、信息覆盖和语义多样性三项原则，并提出无需训练、模型无关的 TOPS 模块。实验覆盖 7 个 MLLM backbone 与 14 个 benchmark；在 LLaVA-NeXT 上可移除 77.8% 视觉 token，同时保持甚至略超原性能，显示其高效且可能缓解幻觉。

评分细项：rel 8.0 / nov 7.5 / prac 8.5 / author 6.0

9. `Kiko` Kiko: Programming Agents to Enact Interaction Protocols

评分 7.4 · 方向 cs.MA · Multiagent Systems · arxiv 2606.26156 · PDF

💡 Kiko 用协议驱动编程模型封装通信服务，让 decision makers 选择兼容消息并保证协议合规。

多智能体系统 Agent编程 协议建模

摘要：多智能体系统需要成员代理按协议交互并去中心化决策，但现有编程模型难以连接内部决策逻辑与公开行为。Kiko提出一种基于协议的代理编程模型，开发者通过一个或多个decision maker在合法决策中选择，并协调待发送消息。其抽象底层通信服务，支持常见决策模式，使开发者专注业务逻辑。论文给出操作语义，并证明Kiko代理满足协议合规性且可实现任意协议执行。

评分细项：rel 8.0 / nov 6.5 / prac 7.5 / author 5.5

10. `SOLAR` SOLAR: AI-Powered Speed-of-Light Performance Analysis

评分 7.4 · 方向 cs.MA · Multiagent Systems · arxiv 2606.26383 · PDF

💡 SOLAR 将 PyTorch/JAX 转成 Affine Loop IR 与 einsum 图，自动计算融合和 cache-aware SOL 性能上界。

推理性能分析 LLM工具链 硬件优化 PyTorch

摘要：深度学习模型在目标硬件上的理论最快速度及当前实现差距，是软硬件和算法优化的核心。SOLAR自动从PyTorch和JAX源码推导并验证Speed-of-Light性能上界：LLM前端将程序转为可执行Affine Loop IR并用输出比对验证，确定性流程生成einsum图，分析后端计算未融合、融合和cache-aware界限。实验覆盖KernelBench、JAX/Flax与机器人负载，展示了优化空间分析、机会定位、跨平台探索和硬件配置等用途。

评分细项：rel 7.5 / nov 7.0 / prac 8.0 / author 6.5

📚 速览 · 其他通过评估的工作（13 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.AI 7.6 When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models · 💡 用共错率β给路由、投票和Mixture-of-Agents建立组合收益上界证书。
cs.AI 7.5 Diagnosing Task Insensitivity in Language Agents · 💡 Task-Perturbed NLL Optimization 用任务扰动对比正则，提升语言 agent 对指令差异的敏感性。
cs.MA 7.1 Instruction Bleed: Cross-Module Interference in Prompt-Composed Agentic Systems · 💡 定义 compositional behavioral leakage，用三通道扰动协议测量同一上下文中 prompt 模块干扰。
cs.AI 7.3 Where Do CoT Training Gains Land in LLM based Agents? · 💡 对比 prompt action 与 CoT action 后，用 action-token 选择性 mask 改善 agent 域外泛化。
q-fin.PM 7.1 Data-Driven Duration Management -- Term Structure Forecasting Using Machine Learning · 💡 用 DNS 因子降维、Autoencoder 提取宏观变量，训练神经网络预测美欧零息曲线并驱动债券组合。
cs.AI 6.6 Einstein World Models · 💡 Einstein World Models 让 LLM 在推理轨迹中调用视觉时序 rollout，生成可检验反事实假设。
cs.CL 6.4 MinGram: A Minimalist Unigram Tokenizer with High Compression and Competitive Morphological Alignment · 💡 MinGram用BPE种子词表、Hard EM最短路径和扁平剪枝简化Unigram tokenizer训练。
cs.CV 6.9 Ask, Solve, Generate: Self-Evolving Unified Multimodal Understanding and Generation via Self-Consistency Rewards · 💡 ASG 用 Proposer-Solver-Generator 自博弈和 STE 难度信号，从无标注图像训练统一多模态模型。
cs.MA 6.3 Scientific discovery as meta-optimization: a combinatorial optimization case study · 💡 用 LLM 生成目标函数并做 correlation-weighted voting，在 3-SAT 算法发现中优化 MemComputing 目标。
cs.CV 6.8 TMP: Tree-structured Mixed-policy Pruning for Large-scale Image Generation and Editing · 💡 TMP用Tree-structured Mixed-policy Pruning压缩MoE与DiT图像生成模型，将HunyuanImage 80B剪到20B。
cs.AI 6.5 Learning to Recover Task Experts from a Multi-Task Merged Model · 💡 ReTeX 从单个多任务合并 checkpoint 预测专家偏移，并用 SVD 子空间残差识别任务。
cs.CV 6.1 DanceOPD: On-Policy Generative Field Distillation · 💡 DanceOPD 用 on-policy generative field distillation 在 flow-matching 模型中组合 T2I 与局部/全局编辑能力。
cs.CV 6.5 Paying More Attention to Visual Tokens in Self-Evolving Large Multimodal Models · 💡 VISE 用几何不变性奖励和语义不变性奖励正则化 LMM 解码器对视觉 token 的依赖。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考

06-26 · LLM 最新论文速览

🌟 精选

1. AgentX AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems

2. RQGM The Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators

3. PsyCoT Improving General Role-Playing Agents via Psychology-Grounded Reasoning and Role-Aware Policy Optimization

4. SemStop Semantic Early-Stopping for Iterative LLM Agent Loops

5. JERP Joint Learning of Experiential Rules and Policies for Large Language Model Agents

6. CARVE CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention

7. CUGAFLO A Process Harness for Uplifting Legacy Workflows to Agentic BPM: Design and Realization in CUGA FLO

8. TOPS TOPS: First-Principles Visual Token Pruning via Constructing Token Optimal Preservation Sets for Efficient MLLM Inference

9. Kiko Kiko: Programming Agents to Enact Interaction Protocols

10. SOLAR SOLAR: AI-Powered Speed-of-Light Performance Analysis