06-09 · LLM 最新论文速览

2 阅读11分钟

今日候选池 115 篇,硬过滤 + LLM 打分后通过评估 11 篇,精选 Top-10,另列 1 篇速览。

关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易


🌟 精选

1. End-to-End Context Compression at Scale

评分 7.9 · 方向 cs.CL · Computation and Language · arxiv 2606.09659 · PDF

💡 用 encoder-decoder 架构将长上下文压缩为短 latent embedding 序列,在 1:4~1:16 压缩比下逼近全 KV cache 精度,兼容生产推理引擎。

长上下文 KV cache压缩 推理加速

摘要:长上下文推理的主要瓶颈在于 KV cache 随序列长度线性增长带来的内存开销。现有压缩方法要么显著损害模型质量,要么压缩本身耗时过大,且通常受限于模型原始上下文窗口,难以适配生产级推理引擎。编码器-解码器压缩架构(将长 token 序列映射为短潜向量序列)在原理上更具吸引力,但已有方案在精度-效率前沿上并不具竞争力。本文重新审视该路线并弥合差距:通过大规模架构搜索确定最佳设计,随后持续预训练一系列 0.6B 编码器 + 4B 解码器模型(各超 350B token),支持 1:4、1:8、1:16 压缩比。所提出的 Latent Context Language Models (LCLMs) 在通用任务性能、压缩速度和峰值内存三方面刷新了 Pareto 前沿,并可作为长时域智能体的高效骨干,实现对压缩上下文的浏览与按需展开。

评分细项:rel 8.5 / nov 7.0 / prac 7.5 / author 6.5

2. SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

评分 7.7 · 方向 cs.AI · Artificial Intelligence · arxiv 2606.09730 · PDF

💡 为多 agent 委派能力合成 SFT 训练数据,通过 harness 引导生成高质量任务分解与委派轨迹,提升 deep research 场景下的长程 agent 表现。

多agent系统 SFT 长上下文 deep research

摘要:大语言模型面对复杂长时域任务时,上下文需求可无限增长,而模型窗口有限。近期范式让主智能体将任务分解并委派给子智能体,仅回收摘要结果以节省上下文预算。然而,这要求模型具备"委派智能"(delegation intelligence):合理分解任务、判断何时/何内容需委派、并整合返回结果。此类训练数据在自然文本中极为稀缺,开源社区对其合成与训练方法探索甚少。本文以深度研究(deep research)这一典型长时域任务为切入点,设计引导框架促使模型生成高质量分解与委派轨迹,并约束子智能体规范化返回结果。由此产生的轨迹作为监督微调数据,将委派能力内化至模型权重。最终模型 SearchSwarm-30B-A3B 在 BrowseComp 上达到 68.1、BrowseComp-ZH 上达到 73.3,均为同等规模模型最优。

评分细项:rel 8.5 / nov 7.0 / prac 7.5 / author 5.5

3. Self-Harness: Harnesses That Improve Themselves

评分 7.2 · 方向 cs.CL · Computation and Language · arxiv 2606.09498 · PDF

💡 提出 Self-Harness 范式,让 LLM agent 通过失败模式挖掘→harness 修改提案→回归验证迭代自优化其操作接口,无需人工或更强模型介入。

多agent 自优化 agentic workflow

摘要:基于 LLM 的智能体性能受底座模型和交互 harness 共同影响,而有效的 harness 设计本质上是模型特定的,人工设计难以跟上模型迭代速度。本文提出 Self-Harness 范式:让 LLM 智能体自主改进自身的操作 harness,无需人工工程师或更强外部模型。方法包含三阶段迭代:弱点挖掘(从执行轨迹中识别模型特定失败模式)、Harness 提案(生成针对性的最小修改)、提案验证(通过回归测试筛选)。在 Terminal-Bench-2.0 上对三个不同系列模型的实验表明,Self-Harness 将 held-out 通过率分别从 40.5%→61.9%、23.8%→38.1%、42.9%→57.1% 显著提升,且生成的修改是针对模型弱点的具体可执行变更,而非泛化指令。

评分细项:rel 7.5 / nov 7.0 / prac 7.0 / author 5.5

4. Macro Economists in the Machine: A Multi-Agent LLM Framework for Commodity-Related ETF Portfolio Construction

评分 7.7 · 方向 q-fin.PM · Portfolio Management · arxiv 2606.08283 · PDF

💡 用多 Agent LLM(鹰派/鸽派/辩论)解读 FRED 宏观 z-score 做商品 ETF 组合配置,Sharpe 比规则 Agent 高 0.04

多Agent LLM量化 商品ETF 组合构建

摘要:本文测试大语言模型在商品 ETF 组合构建中能否增值。在信息集和执行规则固定的前提下,设计鹰派、鸽派、辩论三个 LLM Agent 与确定性 z-score 规则 Agent 对比,均接收相同的 FRED 宏观 z-score 信号并通过同一组合引擎执行。在覆盖 2023 年美国加息顶峰及 2024-2025 软着陆的 124 个周度再平衡中,三个 LLM 策略在 Sharpe 比率上均优于规则 Agent;鹰派和辩论 Agent 提升最大(ΔSharpe 分别为 +0.044 和 +0.040,p<0.10)。辩论 Agent 并未超越最优单一 Agent,其贡献在于纠偏而非产生额外收益。结果表明,LLM 作为受约束的宏观解读函数可提供适度但有经济意义的增量价值。

评分细项:rel 9 / nov 6 / prac 7 / author 5

5. Gradient-Guided Reward Optimization for Inference-time Alignment

评分 6.9 · 方向 cs.CL · Computation and Language · arxiv 2606.09635 · PDF

💡 在解码时监测 token 熵识别高不确定区域,用 reward model 梯度信号注入 nudging token 做轻量推理时对齐,减少对采样数量的依赖。

推理时对齐 RLHF 梯度引导

摘要:大语言模型在分布漂移下的可靠性需要推理时自适应。现有推理时对齐方法(如 Best-of-N、拒绝采样)依赖密集采样和奖励模型搜索,受限于基座模型生成质量且易遭受 reward hacking。本文提出梯度引导奖励优化(GGRO),一种轻量推理时方法:通过监控 token 级熵识别高不确定性区域(指示漂移或未对齐),随后利用现成奖励模型的梯度信号生成"nudging tokens"注入解码过程,主动引导生成轨迹而非仅重排样本。实验表明 GGRO 在安全性、有用性和推理基准上持续提升对齐效果,同时提高高质量响应覆盖率和对 reward hacking 的鲁棒性,计算开销极小。

评分细项:rel 7.5 / nov 6.5 / prac 6.0 / author 5.0

6. AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

评分 6.9 · 方向 cs.CL · Computation and Language · arxiv 2606.09613 · PDF

💡 构建硬件感知模拟器 AGENTSERVESIM,支持多轮 agent 调度/KV cache 跨 turn 复用/tool gap 等场景的 serving 策略评估。

多agent serving KV cache管理 模拟器

摘要:多轮 LLM Agent 将模型调用与外部工具交替执行,使服务从无状态请求处理转变为有状态程序执行。服务此类负载需要利用程序级上下文(轮次依赖、工具间隔、可复用 KV 状态)的调度、KV cache 管理和路由策略。在真实系统上评估这些策略代价高昂,而现有模拟器仅面向无状态请求,缺少多轮执行、跨轮缓存局部性等核心动态。本文提出 AGENTSERVESIM,一个硬件感知的多轮 Agent 服务模拟器,通过可组合模块(程序编排器、工具模拟器、会话感知路由器、KV 驻留模型)在程序粒度评估服务策略,支持 HBM/DRAM/CXL 等多层存储。在真实部署配置下关键性能指标误差低于 6%,且完全运行于通用硬件上。

评分细项:rel 7.5 / nov 6.0 / prac 7.0 / author 5.0

7. PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

评分 6.7 · 方向 cs.MA · Multiagent Systems · arxiv 2606.08106 · PDF

💡 用 testing-by-betting e-process 构造 anytime-valid commit gate(PACE),防止自进化 agent 因贪心接受而累积假阳性漂移

自进化agent 统计检验 prompt优化

摘要:自演化智能体通过反复修改自身提示、技能或工作流并保留在小规模验证集上得分更高的版本来持续进化。本文指出其薄弱环节在于接受器(acceptor)——决定是否提交变更的规则。常见的"分数上升即保留"策略在面对噪声评估时本质上是不受控的自适应多重检验,导致智能体对自身进行 p-hacking,积累错误提交并产生漂移。作者将提交决策重新建模为序列假设检验,提出 PACE(Paired Anytime-valid Commit Evaluation),一种无需训练、任意时刻有效的提交门控。PACE 利用 testing-by-betting e-process 在累积足够证据时才提交变更,同时控制每次决策的假提交概率。在 Qwen2.5 智能体于 GSM8K、SVAMP 和 ARC-Challenge 上的实验中,贪心接受策略产生 30-42% 的假提交,而 PACE 几乎只提交真正有效的改进,方差更低且评估成本降低约 18%。

评分细项:rel 7 / nov 7 / prac 7 / author 4

8. Autonomous Incident Resolution at Hyperscale: An Agentic AI Architecture for Network Operations

评分 6.6 · 方向 cs.MA · Multiagent Systems · arxiv 2606.09122 · PDF

💡 多 agent 分层协作架构用于超大规模云网络故障自动检测、诊断与修复,生产环境自动解决率超 90%

多agent系统 网络运维 自动化

摘要:超大规模云网络基础设施中,传统人工事件响应已无法应对故障的规模、速度和复杂性。本文提出一种面向大规模网络运维的自主事件解决 agentic AI 架构,采用多智能体编排框架,由专用 AI agent 协作完成网络事件的检测、诊断和修复,无需人工介入。架构设计原则包括:层级式 agent 分解、基于标准化协议的技能工具调用、运维手册的结构化知识编码、渐进式自主授权与安全边界,以及闭环验证。该系统已在某大型云服务商生产环境部署,对常见事件类别的自主解决率超过 90%,同时通过分层授权和回滚机制保障安全性。文中还讨论了设计权衡、失败模式及规模化运营中的经验教训。

评分细项:rel 7 / nov 5 / prac 8 / author 5

9. Addressing Market Regime Changes and Heavy-Tailed Returns in Portfolio Optimization via Bayesian VAR and Elliptical Black-Litterman

评分 6.6 · 方向 q-fin.PM · Portfolio Management · arxiv 2606.09104 · PDF

💡 在 TD3 框架中融合贝叶斯 VAR 多尺度 regime 感知与 Student-t 椭圆 Black-Litterman,提升组合对厚尾和 regime 切换的鲁棒性

深度强化学习 组合优化 Black-Litterman regime变化

摘要:深度强化学习(DRL)在投资组合优化中展现潜力,但现有模型未能处理实际市场中的厚尾收益分布,且对历史数据的同质化处理导致其在市场regime切换时表现不佳。本文提出BAVAR-BLED算法,将贝叶斯平均向量自回归(BAVAR)与基于椭圆分布的Black-Litterman模型(BLED)结合,嵌入TD3架构。BAVAR捕获多尺度时间特征以实现regime感知的收益预期估计,BLED则采用Student's t分布建模厚尾特性。算法利用Transformer构建观点、CNN估计风险厌恶系数,动态调整配置策略。在道琼斯29只成分股十年回测中,BAVAR-BLED显著优于现有方法,Sharpe比率达1.72,Sortino比率达2.70,总收益57.26%。

评分细项:rel 7 / nov 6 / prac 6 / author 5

10. FASE: Fast Adaptive Semantic Entropy for Code Quality

评分 6.0 · 方向 cs.MA · Multiagent Systems · arxiv 2606.09800 · PDF

💡 用结构/语义不相似图的最小生成树近似语义熵(FASE),以 0.3% 开销替代 LLM entailment 检测代码生成不确定性。

语义熵 代码生成 不确定性量化 多agent

摘要:多智能体代码生成是自主软件开发的有前景范式,但LLM幻觉和智能体间的错误传播制约了系统可靠性。语义熵(semantic entropy)可在无ground-truth情况下量化不确定性,但现有方法依赖昂贵的LLM等价性判断。本文提出快速自适应语义熵(FASE),基于结构与语义不相似度图的最小生成树来近似功能正确性。在HumanEval和BigCodeBench上的实验表明,使用Qwen3-Embedding-8B模型时,FASE相比基于LLM蕴含的语义熵方法,Spearman相关性平均提升25%,ROCAUC提升19%。同时FASE消除了昂贵的LLM等价性评估,计算开销仅为传统方法的约0.3%,为多智能体工作流中的不确定性量化提供了实用且高效的解决方案。

评分细项:rel 6 / nov 6 / prac 7 / author 5


📚 速览 · 其他通过评估的工作(1 篇)

一句话扫读,按评分从高到低;点击标题跳转 arxiv。

  1. q-fin.TR 6.4 Volatility Forecasting and Return Prediction under Market Regimes: Evidence from High-Frequency Chinese Equity Data · 💡 用 Markov-switching GJR-GARCH 做 regime 识别后接 XGBoost 预测 CSI 300 收益率,发现可预测性集中在低波动 regime。

数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考