每周AI论文速递(260112-260116)

63 阅读31分钟

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

观看、推理与搜索:面向智能体视频推理的开放网络视频深度研究基准

在现实世界的视频问答场景中,视频本身通常仅提供局部视觉线索,而可验证的答案广泛分布于开放网络。因此,模型需要协同完成跨帧线索提取、迭代式检索以及基于多跳推理的验证。为弥补这一差距,我们构建了首个视频深度研究基准 VideoDR。VideoDR 的核心是视频条件化的开放域视频问答,要求模型执行跨帧视觉锚点提取、交互式网络检索,并对视频与网络联合证据进行多跳推理。通过严格的人工标注与质量控制,我们构建了涵盖六个语义领域的高质量视频深度研究样本集。我们评估了在流程式 (Workflow) 与智能体式 (Agentic) 两种范式下的多个闭源及开源多模态大语言模型。结果表明,智能体式 (Agentic) 范式并非总是优于流程式 (Workflow) 范式:其性能提升取决于模型在长链检索过程中维持初始视频锚点的能力。进一步分析指出,目标漂移 (goal drift) 和长程一致性 (long-horizon consistency) 是核心瓶颈。总之,VideoDR 为研究开放网络环境下的视频智能体提供了一个系统性基准,并揭示了下一代视频深度研究智能体所面临的关键挑战。

BabyVision: Visual Reasoning Beyond Language

BabyVision: 超越语言的视觉推理

人类在掌握语言能力之前很久便已发展出核心视觉技能,然而,当代的多模态大语言模型 (Multimodal LLMs, MLLMs) 仍严重依赖语言先验来弥补其薄弱的视觉理解能力。我们发现了一个关键事实:最先进的多模态大语言模型在人类(即使是3岁儿童)都能轻松解决的基本视觉任务上持续表现不佳。为了系统地探究这一差距,我们提出了 BabyVision 基准,旨在评估多模态大语言模型独立于语言知识的核心视觉能力。BabyVision 涵盖广泛的任务,包含388个测试项,划分为四个关键类别下的22个子类。实证结果与人工评估表明,领先的多模态大语言模型性能显著低于人类基线。Gemini3-Pro-Preview 的得分为49.7,落后于6岁儿童的表现,且远低于成人平均分94.1。这些结果表明,尽管当前的多模态大语言模型在知识密集型评估中表现出色,但它们仍然缺乏基本的视觉原语。BabyVision 的进展是迈向人类水平视觉感知与推理能力的一步。我们还通过提出 BabyVision-Gen 和自动评估工具包,探索了利用生成模型解决视觉推理问题。我们的代码和基准数据已在 github.com/UniPat-AI/B… 发布,以供复现。

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

基于地图思考:用于地理定位的强化并行地图增强智能体

图像地理定位任务旨在利用视觉线索,预测图像在地球上的拍摄位置。现有的大型视觉语言模型 (LVLM) 方法利用了世界知识、思维链 (Chain-of-Thought) 推理和智能体 (Agent) 能力,但忽略了人类常用的一种策略——使用地图。在本工作中,我们首先赋予模型 基于地图思考 的能力,并将其形式化为一个地图中的智能体循环。我们为此开发了一个两阶段优化方案:首先是智能体强化学习 (RL),随后是并行测试时缩放 (TTS)。RL 阶段旨在增强模型的智能体能力,以提高其采样效率;而并行 TTS 阶段则允许模型在做出最终预测前并行探索多条候选路径,这对地理定位任务至关重要。为了在最新且真实(非合成)的图像上评估我们的方法,我们进一步提出了 MAPBench,这是一个完全基于真实世界图像的综合性地理定位训练与评估基准。实验结果表明,我们的方法在大多数指标上优于现有的开源和闭源模型。具体而言,与启用 Google 搜索/地图定位模式的 Gemini-3-Pro 相比,我们的方法将 Acc@500m 指标从 8.0% 显著提升至 22.1%。

STEP3-VL-10B Technical Report

STEP3-VL-10B 技术报告

我们推出 STEP3-VL-10B,这是一个轻量级开源基础模型,旨在重新权衡紧凑效率与前沿多模态智能能力。STEP3-VL-10B 通过两项战略转变实现:首先,在 1.2T 多模态 Token 上采用统一且全部参数可训练的预训练策略,将语言对齐的感知编码器与 Qwen3-8B 解码器集成,以建立内在的视觉-语言协同;其次,采用一个大规模后训练流程,包含超过 1000 次强化学习迭代。关键在于,我们实施了并行协调推理 (PaCoRe) 来扩展测试时的计算规模,将资源分配给可扩展的感知推理,以探索并整合多样化的视觉假设。因此,尽管其模型规模紧凑,仅为 10B 参数,STEP3-VL-10B 的性能却媲美甚至超越了规模大 10 到 20 倍的模型(例如 GLM-4.6V-106B、Qwen3-VL-235B)以及顶级的闭源旗舰模型,如 Gemini 2.5 Pro 和 Seed-1.5-VL。它实现了同类最佳的绩效,在 MMBench 上取得 92.2% 的得分,在 MMMU 上取得 80.11% 的得分;同时在复杂推理任务中表现卓越,在 AIME2025 上达到 94.43%,在 MathVision 上达到 75.95%。我们发布了完整的模型套件,旨在为社区提供一个强大、高效且可复现的基准。

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

基于视觉语言推理的城市社会语义分割

城市作为人类活动的中心,其区域包含丰富的语义实体。从卫星影像中分割这些多样的实体,对众多下游应用至关重要。当前先进的分割模型能够可靠地分割由物理属性定义的实体 (例如,建筑物、水体) ,但在处理社会语义类别 (例如,学校、公园) 时仍面临挑战。本研究通过视觉语言模型 (Vision-Language Model) 的推理能力,实现了社会语义分割。为此,我们提出了一个名为 SocioSeg 的城市社会语义分割数据集,该新资源包含卫星影像、数字地图以及按层级结构组织的社会语义实体的像素级标注。此外,我们提出了一种名为 SocioReasoner 的新型视觉语言推理框架,它通过跨模态识别与多阶段推理,模拟人类识别与标注社会语义实体的过程。我们采用强化学习来优化这一不可微的流程,从而有效激发视觉语言模型固有的推理能力。实验结果表明,我们的方法相较于现有最优模型取得了性能提升,并展现出强大的零样本泛化能力。我们的数据集与代码已公开于 github.com/AMAP-ML/Soc…

Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

奖励稀缺性:面向大语言模型创造性问题解决的独特性感知强化学习

强化学习已成为大语言模型后训练,尤其是针对复杂推理任务的核心范式。然而,该方法常面临探索崩溃问题:模型策略过早地收敛于少数几种主导的推理模式。这虽然能提升 pass@1 指标,却限制了推理路径层面的多样性,从而抑制了 pass@k 指标的进一步增益。我们认为,问题的根源在于现有方法侧重于对局部 Token 行为进行正则化,而非鼓励解决方案集合的多样性。为此,我们提出了独特性感知强化学习。该方法定义了一个推理路径层面的优化目标,明确奖励那些采用罕见高级策略的正确解决方案。具体而言,我们利用一个基于大语言模型的评判器,将针对同一问题生成的不同推理路径按其高级解决策略(忽略表面差异)进行聚类,并依据聚类规模反比地重新调整策略优势值。如此一来,正确且新颖的策略将获得比冗余策略更高的奖励。在数学、物理和医学推理等多个基准测试上的实验表明,我们的方法能够在大规模采样预算下持续提升 pass@kk 指标,并增大 pass@kk 曲线下面积,同时不损害 pass@1 性能。该方法有效维持了探索过程,并能在更大规模上发掘出更多样化的解决方案策略。

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

DeepResearchEval:一个用于深度研究任务构建与智能体评估的自动化框架

深度研究系统已广泛应用于多步骤网络研究、分析与多源信息综合,但其评估仍面临挑战。现有基准测试往往需要大量标注来构建任务,依赖静态的评估维度,或在引文缺失时无法可靠地验证事实。为填补这些空白,我们提出了 DeepResearchEval,一个用于深度研究任务构建与智能体 (Agentic) 评估的自动化框架。在任务构建方面,我们设计了一个角色 (Persona) 驱动的流程,能够基于多样化的用户画像生成真实、复杂的研究任务,并应用一个两阶段过滤器(任务资格 (Task Qualification) 与搜索必要性 (Search Necessity))来筛选出仅那些需要整合多源证据并进行外部检索的任务。在评估方面,我们提出了一个智能体流程,包含两个组件:一是自适应点式质量评估 (Adaptive Point-wise Quality Evaluation),它能根据每个生成的任务动态推导出任务特定的评估维度、标准及权重;二是主动事实核查 (Active Fact-Checking),它能通过网页搜索自主提取并验证报告中的陈述,即便在引文缺失的情况下也能进行。

Controlled Self-Evolution for Algorithmic Code Optimization

面向算法代码优化的受控自进化

自进化方法通过迭代式的“生成-验证-精炼”循环来提升代码生成质量。然而,现有方法探索效率低下,难以在有限预算内发现复杂度更优的解决方案。这种低效源于几个瓶颈:初始化偏差会将进化过程限制在较差的解空间区域;随机操作缺乏反馈引导,不可控;且跨任务的经验未能得到充分利用。为应对这些挑战,我们提出了受控自进化 (Controlled Self-Evolution, CSE),其包含三个核心组件。多样化规划初始化通过生成结构各异的算法策略,以实现对解空间的广泛覆盖。遗传进化则采用反馈引导机制替代随机操作,从而支持有针对性的变异与组合式交叉。分层进化记忆能够在任务间与任务内两个层面,同时捕获成功与失败的经验。在EffiBench-X基准上的实验表明,CSE在使用不同大语言模型 (LLM) 骨干时,均稳定优于所有基线方法。此外,CSE在进化早期即展现出更高的效率,并能在此后的整个进化过程中持续改进。我们的代码已公开于 github.com/QuantaAlpha…

MMFormalizer: Multimodal Autoformalization in the Wild

MMFormalizer: 真实场景下的多模态自动形式化

自动形式化 (Autoformalization) 旨在将自然语言描述的数学内容转化为形式化语句,以实现机器推理。然而,在真实物理世界的开放场景下,由于其多模态特性,自动形式化面临着根本性挑战:物理学问题常常需要从视觉元素中推断出隐藏的约束条件 (例如质量或能量)。为此,我们提出了 MMFormalizer,它通过整合来自真实世界数学和物理领域的实体进行自适应基础 (adaptive grounding),从而将自动形式化的范畴从纯文本扩展到了多模态。MMFormalizer 通过递归基础 (recursive grounding) 和公理组合 (axiom composition),从感知基础 (perceptually grounded) 的基元出发,递归地构建形式化命题。其自适应的递归终止机制确保每一个抽象概念都有视觉证据支撑,并基于维度或公理基础 (dimensional or axiomatic grounding)。我们在一个新构建的基准测试 PhyX-AF 上评估了 MMFormalizer。该基准包含从 MathVerse、PhyX、综合几何 (Synthetic Geometry) 和解析几何 (Analytic Geometry) 中精心挑选的 115 个样本,涵盖了多样化的多模态自动形式化任务。结果表明,GPT-5 和 Gemini-3-Pro 等前沿模型在形式化编译和语义准确性方面取得了最高分,其中 GPT-5 在物理推理任务上表现尤为出色,而几何领域仍然是挑战最大的方向。总体而言,MMFormalizer 为统一的多模态自动形式化提供了一个可扩展的框架,有效连接了感知与形式推理。据我们所知,这是首个能够处理经典力学 (基于哈密顿量推导)、相对论、量子力学和热力学的多模态自动形式化方法。更多详细信息请访问我们的项目页面:MMFormalizer.github.io

MAXS: Meta-Adaptive Exploration with LLM Agents

MAXS: 基于大语言模型智能体的元自适应探索

大语言模型 (LLM) 智能体通过多工具协作,具备内在的推理能力。然而,在智能体推理过程中,现有方法通常存在两个问题:(i) 由于缺乏前瞻性,导致局部短视的生成;(ii) 轨迹不稳定,即早期的微小错误可能演变为发散的推理路径。这些问题使得难以在全局有效性与计算效率之间取得平衡。为解决这两个问题,我们提出了 MAXS (Meta-Adaptive Exploration with LLM Agents,项目地址:github.com/exoskeleton…) ,这是一个基于 LLM 智能体的元自适应推理框架,能够灵活集成工具执行与推理规划。MAXS 采用前瞻策略,将推理路径向前推演若干步,以估计工具使用的优势值,并结合步骤一致性方差与步骤间趋势斜率,共同筛选出稳定、一致且高价值的推理步骤。此外,我们引入了轨迹收敛机制,一旦路径一致性达成,便停止进一步推演,从而控制计算成本,实现在多工具推理中平衡资源效率与全局有效性。我们在三个基础模型 (MiMo-VL-7B、Qwen2.5-VL-7B、Qwen2.5-VL-32B) 和五个数据集上进行了大量实验,结果表明 MAXS 在性能与推理效率上均持续优于现有方法。进一步的分析证实了我们前瞻策略与工具使用机制的有效性。

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

A^3-Bench:基于锚点与吸引子激活的记忆驱动科学推理基准

科学推理不仅依赖于逻辑推断,也需要激活先验知识与经验结构。记忆能够有效复用知识,提升推理的一致性与稳定性。然而,现有基准主要评估最终答案或逐步推理的连贯性,忽略了人类推理所依赖的 记忆驱动 机制,该机制通过激活锚点 (Anchor) 和吸引子 (Attractor),并将其整合到多步推理中来实现。为填补这一空白,我们提出了 A³-Bench (a3-bench.github.io),这是一个基于锚点与吸引子激活 (Anchor and Attractor Activation) 理论、旨在通过双尺度记忆驱动激活来评估科学推理的基准。

首先,我们采用 SAPM 流程 (即主题、锚点与吸引子、问题及记忆形成) 对跨领域的 2,198 个科学推理问题进行了标注。其次,我们引入了一个利用锚点和吸引子的双尺度记忆评估框架,并提出了 AAUI (锚点-吸引子利用指数) 指标以量化记忆激活率。最后,通过对多种基础模型及推理范式的实验,我们验证了 A³-Bench 的有效性,分析了记忆激活如何影响推理性能,从而深入理解了记忆驱动的科学推理机制。

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

PaCoRe: 学习通过并行协调推理扩展测试时计算量

我们提出了并行协调推理 (PaCoRe),这是一个旨在克服当代语言模型核心局限性的训练与推理框架:即模型无法在固定上下文窗口下,将测试时计算量 (Test-Time Compute, TTC) 扩展到远超顺序推理的程度。PaCoRe 摒弃了传统的顺序范式,转而通过多轮消息传递架构协调的大规模并行探索来驱动 TTC。在每一轮中,系统启动多个并行推理轨迹,将其发现压缩成受上下文长度限制的消息,然后综合这些消息来指导下一轮推理,并最终生成答案。通过大规模、基于结果的强化学习进行端到端训练,模型掌握了 PaCoRe 所需的信息综合能力,能够将有效 TTC 扩展到数百万 token 的规模,同时不突破上下文长度限制。该方法在多个不同领域都带来了显著提升,尤其在数学推理方面超越了前沿系统:一个 80 亿参数的模型在 HMMT 2025 数据集上达到了 94.5% 的准确率,通过将有效 TTC 扩展至约两百万 token,超越了 GPT-5 的 93.2%。我们开源了模型检查点、训练数据以及完整的推理流水线,以促进后续研究。

MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences

MemGovern: 通过从经过治理的人类经验中学习增强代码智能体

尽管自主软件工程 (SWE) 智能体正在重塑编程范式,但它们目前存在一个“封闭世界”的局限:它们试图从零开始或仅依赖本地上下文来修复缺陷,而忽略了 GitHub 等平台上可用的海量历史人类经验。然而,现实世界中的问题跟踪数据往往是非结构化和碎片化的,这阻碍了智能体有效利用这些开放世界的经验。本文提出了 MemGovern 框架,旨在治理原始 GitHub 数据,并将其转化为智能体可操作的体验记忆。MemGovern 通过经验治理流程,将人类经验转换为便于智能体使用的经验卡片,并引入了一种智能体驱动的经验搜索策略,从而实现基于逻辑的人类专业知识检索。通过生成 13.5 万个经过治理的经验卡片,MemGovern 带来了显著的性能提升,在 SWE-bench Verified 基准测试中将问题解决率提高了 4.65%。作为一种插件式方案,MemGovern 为构建适配智能体的记忆基础设施提供了一种解决方案。

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

面向推理的协作式多智能体测试时强化学习

多智能体系统已发展成为许多实际应用中由大语言模型驱动的实用协作者,其鲁棒性得益于多样性和交叉验证。然而,多智能体强化学习 (MARL) 训练资源密集且不稳定:智能体间的协同适应会导致环境非平稳性,且奖励信号通常稀疏且方差高。为此,我们提出了 多智能体测试时强化学习 (MATTRL) 框架,该框架在推理阶段将结构化的文本经验注入多智能体的决策审议中。MATTRL 组建一个多专家团队进行多轮讨论,检索并整合测试时经验,最终达成共识以做出决策。我们还研究了信用分配机制,用于构建轮级经验池并将其重新注入对话流程。在医学、数学和教育等领域的多个挑战性基准测试上,MATTRL 的平均准确率相较于多智能体基线提升了 3.67%,相较于相应的单智能体基线提升了 8.67%。消融研究分析了不同的信用分配方案,并详细比较了它们对训练结果的影响。MATTRL 为无需额外调优、且能有效应对分布偏移的多智能体推理,提供了一条稳定、高效且有效的路径。

Motion Attribution for Video Generation

视频生成中的运动归因

尽管视频生成模型发展迅速,但数据如何影响运动仍不明确。我们提出了 Motive (MOTIon attribution for Video gEneration),这是一个运动中心、基于梯度的数据归因框架,能够适应现代大规模高质量视频数据集和模型。我们利用该框架研究哪些微调片段会改善或损害时序动态。Motive 通过运动加权损失掩码将时序动态与静态外观分离,实现了高效且可扩展的运动特定影响力计算。在文本到视频模型上,Motive 能够识别出对运动有强烈影响的片段,并以此指导数据筛选工作,从而提升时间一致性与物理合理性。使用 Motive 精选出的高影响力数据进行微调,我们的方法在 VBench 基准上同时提升了运动平滑度与动态程度,相较于预训练基础模型,获得了 74.1% 的人类偏好胜率。据我们所知,这是首个在视频生成模型中归因于运动而非视觉外观的框架,并利用该归因结果来构建微调数据集。

Solar Open Technical Report

Solar Open 技术报告

我们介绍了 Solar Open,这是一个拥有 1020 亿参数、面向低资源语言的双语专家混合 (Mixture-of-Experts, MoE) 大语言模型。Solar Open 展示了一种通过解决三个相互关联的挑战来构建具有竞争力大语言模型的系统性方法。首先,为了应对低资源语言数据稀缺的问题以实现有效训练,我们合成了 4.5 万亿个高质量、领域特定且面向强化学习 (RL) 的 Token。其次,我们通过课程学习 (Curriculum Learning) 来协调这些数据,在总计 20 万亿 Token 的数据上,联合优化其构成、质量阈值和领域覆盖范围。第三,为了通过可扩展的强化学习来获得推理能力,我们应用了我们提出的 SnapPO 框架进行高效优化。在英语和韩语的各项基准测试中,Solar Open 都取得了具有竞争力的性能,这证明了该方法对于推动低资源语言 AI 发展的有效性。

VIBE: Visual Instruction Based Editor

VIBE: 基于视觉指令的编辑器

基于指令的图像编辑是生成式 AI (Generative AI) 中发展最迅速的领域之一。过去一年,该领域迈上了新台阶,涌现出数十个开源模型以及能力强大的商业系统。然而,目前仅有少数开源方法能达到实用级质量。此外,作为这些管线主流选择的扩散主干网络,通常体积庞大且计算成本高昂,难以适配许多部署和研究场景;其广泛使用的版本通常包含 60 亿至 200 亿参数。本文提出了一种紧凑、高吞吐的基于指令的图像编辑管线,它采用一个现代的 20 亿参数 Qwen3-VL 模型来指导编辑过程,并使用一个 16 亿参数的扩散模型 Sana1.5 进行图像生成。我们在架构、数据处理、训练配置和评估等方面的设计决策,均以低成本推理和严格的源一致性为目标,同时确保在此规模可行的主要编辑类别上保持高质量。在 ImgEdit 和 GEdit 基准测试上的评估表明,所提方法的性能匹配甚至超越了参数量大数倍、推理成本显著更高的基线模型,并且在需要保留输入图像的编辑任务上表现尤为突出,例如属性调整、对象移除、背景编辑和针对性替换。该模型可适配 24 GB 的 GPU 显存,在 NVIDIA H100 上以 BF16 精度生成高达 2K 分辨率的编辑图像仅需约 4 秒,且无需任何额外的推理优化或模型蒸馏。

Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning

面向卓越长链思维推理的分布对齐序列蒸馏

在本报告中,我们介绍了 DASD-4B-Thinking,这是一个轻量级但能力强大、完全开源的推理模型。在数学、科学推理和代码生成等具有挑战性的基准测试中,它在同等规模的开源模型中实现了 SOTA 性能,甚至优于一些更大的模型。我们首先批判性地重新审视了社区中广泛采用的一种蒸馏范式:基于教师模型生成回答进行监督微调 (SFT),也称为序列级蒸馏 (Sequence-Level Distillation)。尽管近期一系列遵循此方案的工作展现了显著的效率和强大的实证性能,但它们主要立足于 SFT 的视角。因此,这些方法将重点放在了设计 SFT 数据过滤的启发式规则上,而在很大程度上忽略了蒸馏本身的核心原则——即让学生模型学习教师模型的完整输出分布,从而继承其泛化能力。具体而言,我们指出了当前实践中的三个关键局限:i) 对教师模型序列级分布的表征不足;ii) 教师模型的输出分布与学生模型的学习能力之间存在错配;iii) 教师强制训练 (Teacher-Forced Training) 与自回归推理 (Autoregressive Inference) 之间的差异导致的暴露偏差。总而言之,这些不足反映了在整个蒸馏过程中系统性缺乏明确的师生交互,使得蒸馏的精髓未能得到充分利用。为了解决这些问题,我们提出了几项方法学创新,它们共同构成了一个增强的序列级蒸馏训练流程。值得注意的是,DASD-4B-Thinking 仅使用 44.8 万训练样本就取得了有竞争力的结果——这比大多数现有开源工作所使用的样本量少了一个数量级。为了支持社区研究,我们公开发布了模型和训练数据集。

KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

KnowMe-Bench: 用于终身数字伴侣的人物理解基准测试

现有的长期记忆基准测试大多使用多轮对话或合成的用户历史,这使得检索性能并不能完美地代表模型的人物理解能力。我们提出了 \BenchName,这是一个基于长篇自传叙事构建的可公开发布的基准测试。在这些叙事中,人物的行动、背景和内心思想为推断其稳定的动机和决策原则提供了丰富的证据。\BenchName~将每个叙事重构为一个具有闪回感知和时间锚定的序列,并通过一系列与证据关联的问题来评估模型,这些问题涵盖事实回忆、主观状态归因和原则级推理。在不同来源的叙事上,检索增强系统主要提升了事实准确性,但在需要时间定位的解释和更高层次的推理方面,错误仍然存在,这凸显了对超越检索的记忆机制的需求。我们的数据发布于 \href{KnowMeBench}{github.com/QuantaAlpha…

CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature

CaricatureGS: 基于高斯曲率夸张化3D高斯泼溅人脸

本文提出了一种用于人脸的照片级真实感、可控3D漫画化框架。我们首先采用一种基于内在高斯曲率的表面夸张技术,但当其与纹理结合时,渲染结果往往过于平滑。为解决此问题,我们求助于3D高斯泼溅 (3D Gaussian Splatting, 3DGS),该技术近期已被证明能生成逼真的自由视点化身。给定一个多视角图像序列,我们提取FLAME网格,求解曲率加权的泊松方程,从而得到其夸张形式。然而,直接对3DGS中的高斯泼溅进行变形效果不佳,因此需要通过局部仿射变换将每一帧图像扭曲为其对应的夸张2D表示,以合成伪真值漫画图像。随后,我们设计了一种交替使用真实图像和合成图像进行监督的训练方案,使得单个高斯泼溅集合能够同时表征自然状态和夸张状态的化身。该方案提升了保真度,支持局部编辑,并允许对漫画夸张程度进行连续控制。为实现实时变形,我们引入了原始表面与夸张表面之间的高效插值方法,并进一步分析表明,该方法与闭式解之间的偏差是有界的。在定量与定性评估中,我们的方法均优于现有工作,能够生成几何可控、具有照片级真实感的漫画化身。

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

ArenaRL: 通过基于锦标赛的相对排名实现开放式智能体的强化学习规模化

强化学习已显著提升了大语言模型智能体在结果可验证任务上的性能,但在解空间广阔的开放式智能体任务(例如复杂旅行规划)上仍举步维艰。由于此类任务缺乏客观的真值,当前的强化学习算法主要依赖于为单个响应分配标量分数的奖励模型。我们认为,这种逐点评分法存在固有的区分度崩溃问题:奖励模型难以辨别不同轨迹间的细微优势,导致组内分数被压缩至一个狭窄区间。因此,有效的奖励信号被奖励模型本身的噪声所主导,进而引发优化停滞。为解决此问题,我们提出了 ArenaRL,这是一种将评估方式从逐点标量评分转变为组内相对排名的强化学习范式。ArenaRL 引入了一种感知任务过程的成对评估机制,采用多级评分标准为轨迹分配细粒度的相对分数。此外,我们构建了一个组内对抗竞技场,并设计了一套基于锦标赛的排名方案,以获取稳定的优势信号。实证结果表明,所构建的采用种子排位的单败淘汰制,在仅需 O(N) 复杂度的情况下,其优势估计精度与需要 O(N^2) 复杂度的完全成对比较几乎相当,从而在效率与精度之间达到了最优平衡。再者,为弥补开放式智能体缺乏全流程评测基准的不足,我们构建了 Open-Travel 和 Open-DeepResearch 两个高质量基准,它们具备覆盖监督微调、强化训练及多维评估的完整流程。大量实验表明,ArenaRL 显著优于标准强化学习基线,能够使大语言模型智能体为复杂的现实世界任务生成更为稳健的解决方案。

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

思想的分子结构:映射长链思维推理的拓扑结构

大语言模型 (LLMs) 常常难以通过模仿人类或非长链思维 (Long CoT) 大语言模型来学习有效的长链思维 (Long CoT) 推理。为探究其原因,我们提出,在统一视角下,有效且可学习的长链思维轨迹具有类似分子的稳定结构,这些结构由三种相互作用构成:深度推理 (类共价键) 、自我反思 (类氢键) 和自我探索 (类范德华力) 。对蒸馏轨迹的分析表明,这些结构源自长链思维微调过程,而非对关键词的简单模仿。我们引入了有效语义异构体的概念,并证明只有那些能促进快速熵收敛的化学键才能支持稳定的长链思维学习,而不同结构之间的竞争则会损害训练效果。基于这些发现,我们提出了 Mole-Syn,一种基于分布转移图的方法,用于指导合成有效的长链思维结构,从而在多个基准测试中提升模型性能并增强强化学习的稳定性。

User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale

面向用户的大规模多轮对话生成与工具使用

近期,将大型推理模型 (Large Reasoning Models, LRMs) 作为自主智能体的范式转变,极大地提升了对复杂多轮工具使用能力的需求。然而,现有数据集与数据生成方法受限于静态、预定义的工具集,难以应对开放式人机协作场景的复杂性。为此,我们首先构建了一个框架,用于大规模自动化生成面向任务的多轮对话。该框架利用基于 LRM 的模拟器动态生成高价值、领域特定的工具,以解决指定任务。但我们发现,纯粹面向任务的设计往往导致"仅限任务解决"的轨迹,即智能体以最少的交互完成目标,无法生成现实场景中常见的多轮次对话。为弥补这一不足,我们转向了面向用户的模拟范式。通过将任务生成与一个专用的用户模拟器解耦——该模拟器模仿人类行为规则,如增量式提出请求和逐轮提供反馈——我们能够促成更真实、更扩展的多轮对话,从而反映现实世界问题解决的迭代特性。我们的生成流水线作为一个多功能、即插即用的模块运行,可从任意状态启动生成,确保了在产出扩展工具使用数据时的高可扩展性。此外,通过支持在单条轨迹内完成多个任务,该流程能够生成高密度数据集,以反映现实世界人机交互的多方面需求。

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Fast-ThinkAct: 基于可语言化潜在规划的高效视觉-语言-动作推理

视觉-语言-动作 (Vision-Language-Action, VLA) 任务要求对复杂视觉场景进行推理,并在动态环境中执行自适应的动作。尽管近期关于推理型 VLA 的研究表明,显式的思维链 (Chain-of-Thought, CoT) 能够提升泛化能力,但其冗长的推理轨迹导致了较高的推理延迟。我们提出了 Fast-ThinkAct,一个高效的推理框架,它通过可语言化的潜在推理,实现了紧凑且高性能的规划。Fast-ThinkAct 通过从教师模型进行知识蒸馏,学习利用潜在 CoT 进行高效推理。该方法由一个偏好引导的目标驱动,旨在对齐操作轨迹,从而迁移用于具身控制的语言和视觉规划能力。这实现了推理增强的策略学习,能够有效地将紧凑的推理与动作执行相衔接。在多种具身操作与推理基准上进行的大量实验表明,Fast-ThinkAct 取得了优异的性能,与最先进的推理型 VLA 相比,推理延迟最高可降低 89.3%,同时仍能有效进行长时程规划、少样本适应和故障恢复。