06-09 · LLM 最新论文速览今日候选池 115 篇，硬过滤 + LLM 打分后通过评估 11 篇，精选 Top-

今日候选池 115 篇，硬过滤 + LLM 打分后通过评估 11 篇，精选 Top-10，另列 1 篇速览。

关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. End-to-End Context Compression at Scale

评分 7.9 · 方向 cs.CL · Computation and Language · arxiv 2606.09659 · PDF

💡 用 encoder-decoder 架构将长上下文压缩为短 latent embedding 序列，在 1:4~1:16 压缩比下逼近全 KV cache 精度，兼容生产推理引擎。

长上下文 KV cache压缩 推理加速

摘要：长上下文推理的主要瓶颈在于 KV cache 随序列长度线性增长带来的内存开销。现有压缩方法要么显著损害模型质量，要么压缩本身耗时过大，且通常受限于模型原始上下文窗口，难以适配生产级推理引擎。编码器-解码器压缩架构（将长 token 序列映射为短潜向量序列）在原理上更具吸引力，但已有方案在精度-效率前沿上并不具竞争力。本文重新审视该路线并弥合差距：通过大规模架构搜索确定最佳设计，随后持续预训练一系列 0.6B 编码器 + 4B 解码器模型（各超 350B token），支持 1:4、1:8、1:16 压缩比。所提出的 Latent Context Language Models (LCLMs) 在通用任务性能、压缩速度和峰值内存三方面刷新了 Pareto 前沿，并可作为长时域智能体的高效骨干，实现对压缩上下文的浏览与按需展开。

评分细项：rel 8.5 / nov 7.0 / prac 7.5 / author 6.5

2. SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

评分 7.7 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.09730 · PDF

💡 为多 agent 委派能力合成 SFT 训练数据，通过 harness 引导生成高质量任务分解与委派轨迹，提升 deep research 场景下的长程 agent 表现。

多agent系统 SFT 长上下文 deep research

摘要：大语言模型面对复杂长时域任务时，上下文需求可无限增长，而模型窗口有限。近期范式让主智能体将任务分解并委派给子智能体，仅回收摘要结果以节省上下文预算。然而，这要求模型具备"委派智能"（delegation intelligence）：合理分解任务、判断何时/何内容需委派、并整合返回结果。此类训练数据在自然文本中极为稀缺，开源社区对其合成与训练方法探索甚少。本文以深度研究（deep research）这一典型长时域任务为切入点，设计引导框架促使模型生成高质量分解与委派轨迹，并约束子智能体规范化返回结果。由此产生的轨迹作为监督微调数据，将委派能力内化至模型权重。最终模型 SearchSwarm-30B-A3B 在 BrowseComp 上达到 68.1、BrowseComp-ZH 上达到 73.3，均为同等规模模型最优。

评分细项：rel 8.5 / nov 7.0 / prac 7.5 / author 5.5

3. Self-Harness: Harnesses That Improve Themselves

评分 7.2 · 方向 cs.CL · Computation and Language · arxiv 2606.09498 · PDF

💡 提出 Self-Harness 范式，让 LLM agent 通过失败模式挖掘→harness 修改提案→回归验证迭代自优化其操作接口，无需人工或更强模型介入。

多agent 自优化 agentic workflow

摘要：基于 LLM 的智能体性能受底座模型和交互 harness 共同影响，而有效的 harness 设计本质上是模型特定的，人工设计难以跟上模型迭代速度。本文提出 Self-Harness 范式：让 LLM 智能体自主改进自身的操作 harness，无需人工工程师或更强外部模型。方法包含三阶段迭代：弱点挖掘（从执行轨迹中识别模型特定失败模式）、Harness 提案（生成针对性的最小修改）、提案验证（通过回归测试筛选）。在 Terminal-Bench-2.0 上对三个不同系列模型的实验表明，Self-Harness 将 held-out 通过率分别从 40.5%→61.9%、23.8%→38.1%、42.9%→57.1% 显著提升，且生成的修改是针对模型弱点的具体可执行变更，而非泛化指令。

评分细项：rel 7.5 / nov 7.0 / prac 7.0 / author 5.5

4. Macro Economists in the Machine: A Multi-Agent LLM Framework for Commodity-Related ETF Portfolio Construction

评分 7.7 · 方向 q-fin.PM · Portfolio Management · arxiv 2606.08283 · PDF

💡 用多 Agent LLM（鹰派/鸽派/辩论）解读 FRED 宏观 z-score 做商品 ETF 组合配置，Sharpe 比规则 Agent 高 0.04

多Agent LLM量化 商品ETF 组合构建

摘要：本文测试大语言模型在商品 ETF 组合构建中能否增值。在信息集和执行规则固定的前提下，设计鹰派、鸽派、辩论三个 LLM Agent 与确定性 z-score 规则 Agent 对比，均接收相同的 FRED 宏观 z-score 信号并通过同一组合引擎执行。在覆盖 2023 年美国加息顶峰及 2024-2025 软着陆的 124 个周度再平衡中，三个 LLM 策略在 Sharpe 比率上均优于规则 Agent；鹰派和辩论 Agent 提升最大（ΔSharpe 分别为 +0.044 和 +0.040，p<0.10）。辩论 Agent 并未超越最优单一 Agent，其贡献在于纠偏而非产生额外收益。结果表明，LLM 作为受约束的宏观解读函数可提供适度但有经济意义的增量价值。

评分细项：rel 9 / nov 6 / prac 7 / author 5

5. Gradient-Guided Reward Optimization for Inference-time Alignment

评分 6.9 · 方向 cs.CL · Computation and Language · arxiv 2606.09635 · PDF

💡 在解码时监测 token 熵识别高不确定区域，用 reward model 梯度信号注入 nudging token 做轻量推理时对齐，减少对采样数量的依赖。

推理时对齐 RLHF 梯度引导

摘要：大语言模型在分布漂移下的可靠性需要推理时自适应。现有推理时对齐方法（如 Best-of-N、拒绝采样）依赖密集采样和奖励模型搜索，受限于基座模型生成质量且易遭受 reward hacking。本文提出梯度引导奖励优化（GGRO），一种轻量推理时方法：通过监控 token 级熵识别高不确定性区域（指示漂移或未对齐），随后利用现成奖励模型的梯度信号生成"nudging tokens"注入解码过程，主动引导生成轨迹而非仅重排样本。实验表明 GGRO 在安全性、有用性和推理基准上持续提升对齐效果，同时提高高质量响应覆盖率和对 reward hacking 的鲁棒性，计算开销极小。

评分细项：rel 7.5 / nov 6.5 / prac 6.0 / author 5.0

6. AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

评分 6.9 · 方向 cs.CL · Computation and Language · arxiv 2606.09613 · PDF

💡 构建硬件感知模拟器 AGENTSERVESIM，支持多轮 agent 调度/KV cache 跨 turn 复用/tool gap 等场景的 serving 策略评估。

多agent serving KV cache管理 模拟器

摘要：多轮 LLM Agent 将模型调用与外部工具交替执行，使服务从无状态请求处理转变为有状态程序执行。服务此类负载需要利用程序级上下文（轮次依赖、工具间隔、可复用 KV 状态）的调度、KV cache 管理和路由策略。在真实系统上评估这些策略代价高昂，而现有模拟器仅面向无状态请求，缺少多轮执行、跨轮缓存局部性等核心动态。本文提出 AGENTSERVESIM，一个硬件感知的多轮 Agent 服务模拟器，通过可组合模块（程序编排器、工具模拟器、会话感知路由器、KV 驻留模型）在程序粒度评估服务策略，支持 HBM/DRAM/CXL 等多层存储。在真实部署配置下关键性能指标误差低于 6%，且完全运行于通用硬件上。

评分细项：rel 7.5 / nov 6.0 / prac 7.0 / author 5.0

7. PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

评分 6.7 · 方向 cs.MA · Multiagent Systems · arxiv 2606.08106 · PDF

💡 用 testing-by-betting e-process 构造 anytime-valid commit gate（PACE），防止自进化 agent 因贪心接受而累积假阳性漂移

自进化agent 统计检验 prompt优化

摘要：自演化智能体通过反复修改自身提示、技能或工作流并保留在小规模验证集上得分更高的版本来持续进化。本文指出其薄弱环节在于接受器（acceptor）——决定是否提交变更的规则。常见的"分数上升即保留"策略在面对噪声评估时本质上是不受控的自适应多重检验，导致智能体对自身进行 p-hacking，积累错误提交并产生漂移。作者将提交决策重新建模为序列假设检验，提出 PACE（Paired Anytime-valid Commit Evaluation），一种无需训练、任意时刻有效的提交门控。PACE 利用 testing-by-betting e-process 在累积足够证据时才提交变更，同时控制每次决策的假提交概率。在 Qwen2.5 智能体于 GSM8K、SVAMP 和 ARC-Challenge 上的实验中，贪心接受策略产生 30-42% 的假提交，而 PACE 几乎只提交真正有效的改进，方差更低且评估成本降低约 18%。

评分细项：rel 7 / nov 7 / prac 7 / author 4

8. Autonomous Incident Resolution at Hyperscale: An Agentic AI Architecture for Network Operations

评分 6.6 · 方向 cs.MA · Multiagent Systems · arxiv 2606.09122 · PDF

💡 多 agent 分层协作架构用于超大规模云网络故障自动检测、诊断与修复，生产环境自动解决率超 90%

多agent系统 网络运维 自动化

摘要：超大规模云网络基础设施中，传统人工事件响应已无法应对故障的规模、速度和复杂性。本文提出一种面向大规模网络运维的自主事件解决 agentic AI 架构，采用多智能体编排框架，由专用 AI agent 协作完成网络事件的检测、诊断和修复，无需人工介入。架构设计原则包括：层级式 agent 分解、基于标准化协议的技能工具调用、运维手册的结构化知识编码、渐进式自主授权与安全边界，以及闭环验证。该系统已在某大型云服务商生产环境部署，对常见事件类别的自主解决率超过 90%，同时通过分层授权和回滚机制保障安全性。文中还讨论了设计权衡、失败模式及规模化运营中的经验教训。

评分细项：rel 7 / nov 5 / prac 8 / author 5

9. Addressing Market Regime Changes and Heavy-Tailed Returns in Portfolio Optimization via Bayesian VAR and Elliptical Black-Litterman

评分 6.6 · 方向 q-fin.PM · Portfolio Management · arxiv 2606.09104 · PDF

💡 在 TD3 框架中融合贝叶斯 VAR 多尺度 regime 感知与 Student-t 椭圆 Black-Litterman，提升组合对厚尾和 regime 切换的鲁棒性

深度强化学习 组合优化 Black-Litterman regime变化

摘要：深度强化学习（DRL）在投资组合优化中展现潜力，但现有模型未能处理实际市场中的厚尾收益分布，且对历史数据的同质化处理导致其在市场regime切换时表现不佳。本文提出BAVAR-BLED算法，将贝叶斯平均向量自回归（BAVAR）与基于椭圆分布的Black-Litterman模型（BLED）结合，嵌入TD3架构。BAVAR捕获多尺度时间特征以实现regime感知的收益预期估计，BLED则采用Student's t分布建模厚尾特性。算法利用Transformer构建观点、CNN估计风险厌恶系数，动态调整配置策略。在道琼斯29只成分股十年回测中，BAVAR-BLED显著优于现有方法，Sharpe比率达1.72，Sortino比率达2.70，总收益57.26%。

评分细项：rel 7 / nov 6 / prac 6 / author 5

10. FASE: Fast Adaptive Semantic Entropy for Code Quality

评分 6.0 · 方向 cs.MA · Multiagent Systems · arxiv 2606.09800 · PDF

💡 用结构/语义不相似图的最小生成树近似语义熵（FASE），以 0.3% 开销替代 LLM entailment 检测代码生成不确定性。

语义熵 代码生成 不确定性量化 多agent

摘要：多智能体代码生成是自主软件开发的有前景范式，但LLM幻觉和智能体间的错误传播制约了系统可靠性。语义熵（semantic entropy）可在无ground-truth情况下量化不确定性，但现有方法依赖昂贵的LLM等价性判断。本文提出快速自适应语义熵（FASE），基于结构与语义不相似度图的最小生成树来近似功能正确性。在HumanEval和BigCodeBench上的实验表明，使用Qwen3-Embedding-8B模型时，FASE相比基于LLM蕴含的语义熵方法，Spearman相关性平均提升25%，ROCAUC提升19%。同时FASE消除了昂贵的LLM等价性评估，计算开销仅为传统方法的约0.3%，为多智能体工作流中的不确定性量化提供了实用且高效的解决方案。

评分细项：rel 6 / nov 6 / prac 7 / author 5

📚 速览 · 其他通过评估的工作（1 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

q-fin.TR 6.4 Volatility Forecasting and Return Prediction under Market Regimes: Evidence from High-Frequency Chinese Equity Data · 💡 用 Markov-switching GJR-GARCH 做 regime 识别后接 XGBoost 预测 CSI 300 收益率，发现可预测性集中在低波动 regime。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考