今日候选池 88 篇,硬过滤 + LLM 打分后通过评估 23 篇,精选 Top-10,另列 13 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. AgentX AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems
评分 9.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.26859 · PDF
💡 AgentX 用 Brainstorm、Developing 等多智能体闭环自动生成、改代码并评估推荐系统 A/B 实验。
多智能体系统 推荐系统 AgenticWorkflow 工业部署
摘要:AgentX 面向工业推荐系统中“想法到上线”依赖人工工程师的瓶颈,提出生产部署的多 agent 自迭代框架。系统闭环整合 Brainstorm、Developing、Evaluation 与 Harness Evolution(SGPO):自动生成实验方案、改写生产代码、进行可靠性验证与安全 A/B 发布,并将结果沉淀为结构化知识。其贡献在于把推荐算法迭代从人工线性扩展转向由证据、算力和历史实验驱动的持续自进化研发流程。
评分细项:rel 9.5 / nov 8.5 / prac 9.5 / author 7.5
2. RQGM The Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators
评分 8.0 · 方向 cs.MA · Multiagent Systems · arxiv 2606.26294 · PDF
💡 提出 RQGM,把自改进智能体的验证器按 epoch 演化,用非平稳 utility 搜索提升编码任务通过率。
agentic workflow 自改进智能体 动态评估
摘要:本文指出现有自改进 agent 通常依赖固定评测器或基准,难以适应目标随系统演化而变化的场景。作者提出 Red Queen Gödel Machine(RQGM),在 epoch 内保持评测准则稳定、在 epoch 边界允许 utility 演化,从而支持非平稳目标下的递归自改进。实验显示,在代码任务中加入 agent-as-a-judge 代码审查信号可超过既有 SOTA,并减少 1.35–1.72 倍 token;在论文写作/评审和奥赛证明生成/评分中,也优于先前自改进方法。
评分细项:rel 8.5 / nov 8.5 / prac 7.5 / author 5.0
3. PsyCoT Improving General Role-Playing Agents via Psychology-Grounded Reasoning and Role-Aware Policy Optimization
评分 7.8 · 方向 cs.CL · Computation and Language · arxiv 2606.27025 · PDF
💡 Psy-CoT将角色回复拆成感知、共情和逻辑三步,并用Role-Aware Policy Optimization抑制奖励黑客。
智能体 角色扮演 强化学习 后训练
摘要:面向任意自然语言角色设定构建通用扮演智能体仍困难,传统 SFT 易停留在行为模仿、泛化差。论文提出 Psy-CoT,将回应前推理分为互动感知、心理共情和逻辑构建,使模型基于角色动态思考;并提出 RAPO,用 profile-token 互信息非对称加权梯度,强化角色特异表达、抑制 reward hacking。CoSER、CharacterBench、CharacterEval 实验显示其角色一致性优于现有方法。
评分细项:rel 8.5 / nov 7.0 / prac 7.5 / author 6.0
4. SemStop Semantic Early-Stopping for Iterative LLM Agent Loops
评分 7.7 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.27009 · PDF
💡 用 draft embedding 余弦距离和质量 patience 窗口,为 Writer-Critic LLM 循环做语义早停。
多智能体 LLM Agent 推理成本
摘要:多智能体 LLM 循环通常依赖固定 max_iterations,易在简单问题上浪费 token、在难题上过早截断。本文研究语义 early-stopping:当连续草稿 embedding 语义变化和质量提升均趋停时终止。贡献包括给出确定终止与良定义性的形式证明,设计复用完整轨迹与缓存 LLM judge 的低成本配对评估协议,并在 HotpotQA 多跳 RAG 上验证:无 judge 版本在质量持平下节省 38% operational tokens。
评分细项:rel 8.5 / nov 6.5 / prac 8.0 / author 5.0
5. JERP Joint Learning of Experiential Rules and Policies for Large Language Model Agents
评分 7.9 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.27136 · PDF
💡 JERP用同一批交互轨迹同步更新经验规则池和LLM agent策略参数。
LLM Agent 策略学习 经验规则
摘要:针对多步交互环境中 LLM agents 难以有效利用历史经验的问题,本文提出 JERP:从同一批交互轨迹中联合更新长期经验规则库与策略模型。决策时检索任务相关规则并结合交互历史提示 agent;每轮结束后同时优化策略,并通过对比当前 rollout 与成功参考轨迹修正规则。该机制使规则与演化中的策略保持一致,并将稳定行为逐步吸收到模型中。在 AlfWorld 和 WebShop 上,JERP 在复杂交互任务中稳定提升决策表现。
评分细项:rel 8.5 / nov 7.5 / prac 7.5 / author 6.0
6. CARVE CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention
评分 7.6 · 方向 cs.CL · Computation and Language · arxiv 2606.27229 · PDF
💡 提出 CARVE 在线性注意力中仅沿 key 轴擦除,保留 WY-form chunk solver 并降低 value 门控参数。
线性注意力 推理架构 长上下文
摘要:本文指出主流 delta-rule recurrent 架构 GDN-2 存在 memory-blind gating、value 轴擦除浪费参数,并阻碍 WY-form chunk solver 等问题。CARVE 采用“仅在 key 轴擦除”的原则,证明其是保持 WY-form solver 有效的充要条件;同时复用 recurrent 输出作为内容感知门控信号,并以每头单标量替代 value 写门投影。在 1.3B、100B tokens 训练下,CARVE 相比 GDN-2 降低 WikiText 困惑度,领先多项常识推理与 RULER 检索基准,且吞吐开销仅 0.4%、峰值内存降 13%、参数少 19%。
评分细项:rel 8.0 / nov 8.0 / prac 7.0 / author 5.0
7. CUGAFLO A Process Harness for Uplifting Legacy Workflows to Agentic BPM: Design and Realization in CUGA FLO
评分 7.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.27188 · PDF
💡 CUGA FLO用TDF模型把TaskAgent、DecisionAgent、FlowAgent接入遗留BPM流程。
Agentic Workflow 多Agent 业务流程
摘要:本文提出 process harness,用于在不替换既有工作流引擎的情况下,将传统流程升级为 Agentic BPM。该机制在确定性引擎外加入受策略约束的 agentic 层,在关键控制点提供推理、适应与监督,同时保持引擎对流程结构的控制。作者定义 TDF 模型,包含 TaskAgent、DecisionAgent 与 FlowAgent,并在 CUGA FLO 中实现,借贷款审批案例展示任务执行、路由决策和合规覆盖等能力。
评分细项:rel 8.5 / nov 7.0 / prac 8.0 / author 5.0
8. TOPS TOPS: First-Principles Visual Token Pruning via Constructing Token Optimal Preservation Sets for Efficient MLLM Inference
评分 7.8 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.27161 · PDF
💡 TOPS按任务相关性、信息覆盖和语义多样性做免训练MLLM视觉token剪枝。
推理加速 视觉Token剪枝 MLLM
摘要:针对 MLLM 推理中视觉 token 过多带来的高计算开销,本文从第一性原理重新刻画视觉 token pruning,提出 Token Optimal Preservation Sets。作者基于信息论总结任务相关性、信息覆盖和语义多样性三项原则,并提出无需训练、模型无关的 TOPS 模块。实验覆盖 7 个 MLLM backbone 与 14 个 benchmark;在 LLaVA-NeXT 上可移除 77.8% 视觉 token,同时保持甚至略超原性能,显示其高效且可能缓解幻觉。
评分细项:rel 8.0 / nov 7.5 / prac 8.5 / author 6.0
9. Kiko Kiko: Programming Agents to Enact Interaction Protocols
评分 7.4 · 方向 cs.MA · Multiagent Systems · arxiv 2606.26156 · PDF
💡 Kiko 用协议驱动编程模型封装通信服务,让 decision makers 选择兼容消息并保证协议合规。
多智能体系统 Agent编程 协议建模
摘要:多智能体系统需要成员代理按协议交互并去中心化决策,但现有编程模型难以连接内部决策逻辑与公开行为。Kiko提出一种基于协议的代理编程模型,开发者通过一个或多个decision maker在合法决策中选择,并协调待发送消息。其抽象底层通信服务,支持常见决策模式,使开发者专注业务逻辑。论文给出操作语义,并证明Kiko代理满足协议合规性且可实现任意协议执行。
评分细项:rel 8.0 / nov 6.5 / prac 7.5 / author 5.5
10. SOLAR SOLAR: AI-Powered Speed-of-Light Performance Analysis
评分 7.4 · 方向 cs.MA · Multiagent Systems · arxiv 2606.26383 · PDF
💡 SOLAR 将 PyTorch/JAX 转成 Affine Loop IR 与 einsum 图,自动计算融合和 cache-aware SOL 性能上界。
推理性能分析 LLM工具链 硬件优化 PyTorch
摘要:深度学习模型在目标硬件上的理论最快速度及当前实现差距,是软硬件和算法优化的核心。SOLAR自动从PyTorch和JAX源码推导并验证Speed-of-Light性能上界:LLM前端将程序转为可执行Affine Loop IR并用输出比对验证,确定性流程生成einsum图,分析后端计算未融合、融合和cache-aware界限。实验覆盖KernelBench、JAX/Flax与机器人负载,展示了优化空间分析、机会定位、跨平台探索和硬件配置等用途。
评分细项:rel 7.5 / nov 7.0 / prac 8.0 / author 6.5
📚 速览 · 其他通过评估的工作(13 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
-
cs.AI7.6When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models · 💡 用共错率β给路由、投票和Mixture-of-Agents建立组合收益上界证书。 -
cs.AI7.5Diagnosing Task Insensitivity in Language Agents · 💡 Task-Perturbed NLL Optimization 用任务扰动对比正则,提升语言 agent 对指令差异的敏感性。 -
cs.MA7.1Instruction Bleed: Cross-Module Interference in Prompt-Composed Agentic Systems · 💡 定义 compositional behavioral leakage,用三通道扰动协议测量同一上下文中 prompt 模块干扰。 -
cs.AI7.3Where Do CoT Training Gains Land in LLM based Agents? · 💡 对比 prompt action 与 CoT action 后,用 action-token 选择性 mask 改善 agent 域外泛化。 -
q-fin.PM7.1Data-Driven Duration Management -- Term Structure Forecasting Using Machine Learning · 💡 用 DNS 因子降维、Autoencoder 提取宏观变量,训练神经网络预测美欧零息曲线并驱动债券组合。 -
cs.AI6.6Einstein World Models · 💡 Einstein World Models 让 LLM 在推理轨迹中调用视觉时序 rollout,生成可检验反事实假设。 -
cs.CL6.4MinGram: A Minimalist Unigram Tokenizer with High Compression and Competitive Morphological Alignment · 💡 MinGram用BPE种子词表、Hard EM最短路径和扁平剪枝简化Unigram tokenizer训练。 -
cs.CV6.9Ask, Solve, Generate: Self-Evolving Unified Multimodal Understanding and Generation via Self-Consistency Rewards · 💡 ASG 用 Proposer-Solver-Generator 自博弈和 STE 难度信号,从无标注图像训练统一多模态模型。 -
cs.MA6.3Scientific discovery as meta-optimization: a combinatorial optimization case study · 💡 用 LLM 生成目标函数并做 correlation-weighted voting,在 3-SAT 算法发现中优化 MemComputing 目标。 -
cs.CV6.8TMP: Tree-structured Mixed-policy Pruning for Large-scale Image Generation and Editing · 💡 TMP用Tree-structured Mixed-policy Pruning压缩MoE与DiT图像生成模型,将HunyuanImage 80B剪到20B。 -
cs.AI6.5Learning to Recover Task Experts from a Multi-Task Merged Model · 💡 ReTeX 从单个多任务合并 checkpoint 预测专家偏移,并用 SVD 子空间残差识别任务。 -
cs.CV6.1DanceOPD: On-Policy Generative Field Distillation · 💡 DanceOPD 用 on-policy generative field distillation 在 flow-matching 模型中组合 T2I 与局部/全局编辑能力。 -
cs.CV6.5Paying More Attention to Visual Tokens in Self-Evolving Large Multimodal Models · 💡 VISE 用几何不变性奖励和语义不变性奖励正则化 LMM 解码器对视觉 token 的依赖。
数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考