每周AI论文速递（260420-260424）DeepSeek-V4: Towards Highly Efficient

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

本文发布 DeepSeek-V4 系列的预览版本，包含两个强大的混合专家（MoE）语言模型——拥有 1.6T 参数（49B 激活）的 DeepSeek-V4-Pro 和拥有 284B 参数（13B 激活）的 DeepSeek-V4-Flash——两者均支持百万 Token 上下文长度。DeepSeek-V4 系列在架构和优化方面引入了多项关键升级：（1）结合压缩稀疏注意力（CSA）和高度压缩注意力（HCA）的混合注意力架构，提升长上下文效率；（2）流形约束超连接（mHC），增强传统残差连接；（3）Muon 优化器，实现更快收敛和更高训练稳定性。两个模型均在超过 32T 多样化高质量 Token 上进行预训练，随后经过全面的后训练流水线来解锁和进一步增强其能力。DeepSeek-V4-Pro-Max（DeepSeek-V4-Pro 的最大推理努力模式）重新定义了开源模型的 SOTA，在核心任务上超越了前代。同时，DeepSeek-V4 系列在长上下文场景中极为高效——在百万 Token 上下文设定下，DeepSeek-V4-Pro 仅需 DeepSeek-V3.2 的 27% 单 Token 推理 FLOPs 和 10% KV 缓存，使百万 Token 上下文的常规支持成为可能，进一步推动了长时序任务和测试时扩展的可行性。

Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Tstars-Tryon 1.0：面向多样化时尚单品的高鲁棒高保真虚拟试穿系统

一个面向商业规模的虚拟试穿系统，通过集成化的系统设计和多阶段训练实现了高成功率、照片级真实感以及实时性能。图像生成与编辑领域的最新进展为虚拟试穿开辟了新机遇，但现有方法在应对复杂现实需求时仍然力不从心。本文提出 Tstars-Tryon 1.0——一个鲁棒、真实、通用且高效的商业级虚拟试穿系统。首先，该系统在极端姿态、严重光照变化、运动模糊等具有挑战性的野外场景下仍能保持高成功率。其次，系统可生成具有精细细节的高保真结果，忠实还原服装纹理、材质属性和结构特征，同时有效避免常见的 AI 生成伪影。第三，除了服装试穿外，模型还支持跨 8 个时尚品类的灵活多图组合（最多 6 张参考图），并对人物身份和背景进行协同控制。第四，为克服商业部署的延迟瓶颈，系统在推理速度上进行了深度优化，实现接近实时的生成体验。这些能力得益于涵盖端到端模型架构、可扩展数据引擎、鲁棒基础设施和多阶段训练范式的集成化系统设计。大量评估和大规模产品部署表明 Tstars-Tryon 1.0 达到了领先的总体性能。该模型已在淘宝 App 上进行工业级部署，服务数百万用户，处理数千万次请求。

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

LLaDA2.0-Uni：基于离散扩散语言模型的多模态理解与生成统一框架

LLaDA2.0-Uni 是一个统一的离散扩散语言模型，通过语义离散 Tokenizer、基于 MoE 的骨干网络和扩散解码器，将多模态理解与生成整合在同一框架中，在实现高效推理和高保真图像生成的同时，达到了与专用视觉语言模型相媲美的性能。本文提出 LLaDA2.0-Uni，一个统一离散扩散大语言模型（dLLM），可在原生集成框架中支持多模态理解和生成。其架构结合了全语义离散 Tokenizer、基于 MoE 的 dLLM 骨干网络和扩散解码器。通过 SigLIP-VQ 对连续视觉输入进行离散化，模型在骨干网络中对文本和视觉输入进行块级掩码扩散，同时解码器将视觉 Token 重建为高保真图像。除了并行解码外，推理效率还通过骨干网络中的前缀感知优化和解码器中的少步蒸馏进一步提升。在精心策划的大规模数据和定制多阶段训练流水线的支持下，LLaDA2.0-Uni 在多模态理解方面可匹配专用 VLM 的表现，同时在图像生成和编辑方面展现出强劲性能。其对交错生成和推理的原生支持，为下一代统一基础模型建立了一个有前景且可扩展的范式。

AgentSPEX: An Agent SPecification and EXecution Language

AgentSPEX：一种 Agent 规范与执行语言

AgentSPEX 是一种领域特定语言和框架，用于创建具有显式控制流和状态管理的结构化、模块化、可解释的大语言模型 Agent 工作流。语言模型 Agent 系统通常依赖响应式提示（Reactive Prompting），即通过单一指令引导模型完成开放式的推理和工具使用步骤序列，使控制流和中间状态隐式化，从而导致 Agent 行为难以控制。LangGraph、DSPy 和 CrewAI 等编排框架通过显式工作流定义施加了更大的结构约束，但将工作流逻辑与 Python 紧密耦合，使 Agent 难以维护和修改。本文提出 AgentSPEX——一种用于指定 LLM Agent 工作流的 Agent 规范与执行语言，具有显式控制流和模块化结构，并配备可定制的 Agent 运行框架。AgentSPEX 支持类型化步骤、分支与循环、并行执行、可复用子模块和显式状态管理，这些工作流在提供工具访问、沙盒虚拟环境以及检查点、验证和日志支持的 Agent 运行框架中执行。此外，还提供了带有同步图和工作流视图的可视化编辑器，用于创作和检查。该工作包含用于深度研究和科学研究的即用型 Agent，并在 7 个基准上对 AgentSPEX 进行了评估。用户研究表明，AgentSPEX 提供了比流行 Agent 框架更具可解释性和可访问性的工作流创作范式。

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

通过判别性文本表示将单步图像生成从类别标签扩展到文本条件

研究者通过整合强大的基于 LLM 的文本编码器，将 MeanFlow 生成从类别标签扩展到文本输入，通过增强语义特征表示克服了少步精炼的局限性。少步生成一直是一个长期追求的目标，以 MeanFlow 为代表的最新单步生成方法取得了显著成果。现有 MeanFlow 研究主要关注类别到图像的生成。然而，将条件从固定类别标签扩展到灵活文本输入是一个直观但未被探索的方向，可以支持更丰富的内容创作。与有限的类别标签相比，文本条件对模型理解能力提出了更高要求，需要将强大的文本编码器有效整合到 MeanFlow 框架中。研究发现，使用传统训练策略整合基于 LLM 的文本编码器会导致性能不佳。深入分析揭示，由于 MeanFlow 生成的精炼步数极为有限（如仅一步），文本特征表示需要具备足够高的判别性。这也解释了为什么离散且易于区分的类别特征在 MeanFlow 框架中表现良好。基于这些洞察，研究者利用经过验证具有所需语义属性的基于 LLM 的文本编码器，并将 MeanFlow 生成过程适配到该框架中，首次实现了高效的文本条件合成。

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

OneVL：基于视觉语言解释的单步潜在推理与规划

OneVL 提出了一个统一的视觉-语言-动作（VLA）框架，通过整合语言和视觉世界模型监督来改进潜在链式思维（Chain-of-Thought）推理，实现更快速、更准确的自动驾驶轨迹预测。链式思维推理已成为基于 VLA 的自动驾驶中轨迹预测的强大驱动力，但其自回归特性带来了实时部署无法承受的延迟开销。潜在 CoT 方法试图通过将推理压缩到连续隐状态来弥补这一差距，但始终落后于显式方法。本文认为这是由于纯语言的潜在表示压缩了世界的符号抽象，而非实际驱动驾驶的因果动态。OneVL 将推理路由到由双辅助解码器监督的紧凑潜在 Token 中，除了重建文本 CoT 的语言解码器外，还引入了预测未来帧 Token 的视觉世界模型解码器，迫使潜在空间内化道路几何、Agent 运动和环境变化的因果动态。三阶段训练流水线逐步将潜在表示与轨迹、语言和视觉目标对齐。推理时辅助解码器被丢弃，所有潜在 Token 通过单次并行传递预填充，速度与仅输出答案的预测相当。在四个基准上，OneVL 成为首个超越显式 CoT 的潜在 CoT 方法，以仅答案预测的延迟达到了 SOTA 精度。

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

CoInteract：基于空间结构化协同生成的物理一致性人-物交互视频合成

CoInteract 提出了一个端到端的人-物交互视频合成框架，使用 Diffusion Transformer 骨干网络并配备专门的模块以确保结构稳定性和物理合理性。人-物交互（HOI）视频合成在电子商务、数字广告和虚拟营销中具有广泛的实用价值。然而，当前扩散模型尽管具备照片级渲染能力，仍在手部和面部等敏感区域的结构稳定性以及物理合理的接触（如避免手-物穿插）方面频繁失败。CoInteract 引入了两个互补设计嵌入到 DiT 骨干网络中。首先，提出了 Human-Aware Mixture-of-Experts（MoE），通过空间监督路由将 Token 路由到轻量级的区域专业化专家，以最小的参数开销提升精细结构保真度。其次，提出了空间结构化协同生成——一种双流训练范式，联合建模 RGB 外观流和辅助 HOI 结构流，注入交互几何先验。训练时 HOI 流关注 RGB Token，其监督正则化共享骨干权重；推理时 HOI 分支被移除，实现零开销 RGB 生成。

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Agent-World：面向通用 Agent 智能演化的真实世界环境合成规模化框架

Agent-World 引入了一个自演化训练框架，通过自主环境发现和跨多样化真实场景的持续学习来推进通用 Agent 智能。大语言模型越来越多地被期望作为通用 Agent 与外部有状态工具环境交互。模型上下文协议（MCP）和更广泛的 Agent 技能为连接 Agent 与可扩展的真实世界服务提供了统一接口，但训练鲁棒的 Agent 仍受限于缺乏逼真的环境和终身学习的原则性机制。Agent-World 包含两个主要组件：（1）Agent 环境任务发现，从数千个真实世界环境主题中自主探索主题对齐的数据库和可执行工具生态系统，合成具有可控难度的可验证任务；（2）持续自演化 Agent 训练，将多环境强化学习与自演化 Agent 竞技场相结合，通过动态任务合成自动识别能力差距并驱动定向学习，实现 Agent 策略与环境的协同演化。在 23 个挑战性 Agent 基准上，Agent-World-8B 和 14B 一致性地超越了强力专有模型和环境扩展基线。

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

LLaTiSA：面向分层难度的时间序列推理——从视觉感知到语义理解

本文引入了分层时间序列推理数据集和模型，通过可视化模式和数值表格增强 LLM 对时间序列数据的理解。全面理解时间序列对大语言模型（LLM）来说仍然是一个重大挑战。当前研究受到碎片化任务定义和具有固有歧义性的基准测试的阻碍，无法进行严格评估和开发统一的时间序列推理模型（TSRM）。为填补这一空白，本文通过四级递增认知复杂度的分类体系对时间序列推理（TSR）进行了形式化。同时引入 HiTSR——一个分层时间序列推理数据集，包含 83k 样本，具有多样化的任务组合和经过验证的链式思维（CoT）轨迹。基于 HiTSR，提出了 LLaTiSA——一个强大的 TSRM，将可视化模式与精度校准的数值表格相结合，增强视觉语言模型（VLM）的时间感知能力。通过多阶段课程微调策略，LLaTiSA 实现了卓越性能，并在多样化的 TSR 任务和真实场景中展现出鲁棒的分布外泛化能力。

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

揭示扩散概率模型的 SNR-t 偏差

扩散概率模型在推理过程中存在信噪比-时间步（SNR-t）偏差问题，本文提出了一种微分校正方法，通过分别处理各频率分量来解决该问题，以极小的计算代价提升了多种模型的生成质量。扩散概率模型在各种生成任务中展现出卓越性能。然而，这些模型经常受到信噪比-时间步（SNR-t）偏差的困扰。该偏差指去噪样本的 SNR 与其对应时间步在推理阶段的不对齐。具体而言，训练时样本的 SNR 与其时间步严格耦合，但这种对应关系在推理时被打破，导致误差累积并损害生成质量。本文提供了全面的实证证据和理论分析来证实这一现象，并提出了一种简单有效的微分校正方法来缓解 SNR-t 偏差。鉴于扩散模型在逆向去噪过程中通常先重建低频分量再聚焦高频细节，研究者将样本分解为各频率分量并分别施加微分校正。大量实验表明，该方法在可忽略的计算开销下显著提升了多种扩散模型（IDDPM、ADM、DDIM、A-DPM、EA-DPM、EDM、PFGM++ 和 FLUX）在各分辨率数据集上的生成质量。

OpenGame: Open Agentic Coding for Games

OpenGame：面向游戏的开放 Agentic 编程框架

OpenGame 是一个开源的 Agentic 框架，用于端到端 Web 游戏创建，通过专业化代码模型和评估基准来克服交互式应用开发中的挑战。游戏开发位于创意设计与复杂软件工程的交汇处，需要对游戏引擎、实时循环和跨文件紧密耦合状态进行联合编排。虽然 LLM 和代码 Agent 现在可以轻松解决孤立的编程任务，但在被要求根据高层设计生成完整可玩游戏时却屡屡失败——跨文件不一致、场景连线断裂和逻辑不连贯使其崩溃。OpenGame 是首个专门为端到端 Web 游戏创建设计的开源 Agentic 框架。其核心是 Game Skill——一种可复用、可进化的能力，由从经验中积累项目骨架库的 Template Skill 和维护已验证修复活动协议的 Debug Skill 组成，使 Agent 能够搭建稳定架构并系统性地修复集成错误。支撑该框架的是 GameCoder-27B——一个通过持续预训练、监督微调和执行强化学习三阶段流水线专业化于游戏引擎精通的代码 LLM。由于验证交互可玩性比检查静态代码困难得多，还引入了 OpenGame-Bench——通过无头浏览器执行和 VLM 评判沿构建健康度、视觉可用性和意图对齐三个维度评分的评估流水线。在 150 个多样化游戏提示上，OpenGame 建立了新的 SOTA。

Near-Future Policy Optimization

近未来策略优化

一种基于近未来策略优化的混合策略强化学习方法，通过平衡轨迹质量和方差来加速收敛并提升性能。带可验证奖励的强化学习（RLVR）已成为核心的后训练方法。将合适的离策略轨迹引入在线探索可加速 RLVR 收敛并提高性能上限，但寻找此类轨迹的来源仍是关键挑战。现有混合策略方法要么从外部教师导入轨迹（高质量但分布差异大），要么回放过去的训练轨迹（分布接近但质量有限），都无法同时满足"足够强"（更高 Q，更多新知识可学）和"足够近"（更低 V，更易吸收）的条件来最大化有效学习信号 S = Q/V。本文提出近未来策略优化（NPO），一种简单的混合策略方案，从策略自身近未来版本学习：同一训练运行中的后期检查点是辅助轨迹的自然来源，既比当前策略更强又比任何外部来源更近，直接平衡轨迹质量与方差代价。在 Qwen3-VL-8B-Instruct 上使用 GRPO 进行验证，NPO 将平均性能从 57.88 提升至 62.84，AutoNPO 进一步提升至 63.15。

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

DiPO：面向细粒度探索-利用权衡的解耦困惑度策略优化

一种面向大语言模型的新型强化学习方法，通过基于困惑度的样本划分和双向奖励分配机制来解决探索-利用权衡问题。带可验证奖励的强化学习（RLVR）在提升大语言模型推理能力方面取得了显著进展，但有效管理探索与利用的权衡仍是一个关键挑战。本文全面分析了训练过程中极难和极易样本的探索-利用困境，并提出了一种新的细粒度权衡机制。具体而言，引入了困惑度空间解耦策略，将样本空间划分为独立的探索（高困惑度）和利用（低困惑度）子空间，从而挖掘需要探索-利用权衡的细粒度样本。随后提出了对验证奖励影响最小的双向奖励分配机制，实现困惑度引导的探索和利用，使策略优化更加稳定。在数学推理和函数调用两个主流任务上的实验结果验证了该方法的有效性。

Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips

无需数据或优化的最大脑损伤：通过符号位翻转破坏神经网络

深度神经网络在多个领域表现出对极少参数位翻转的灾难性脆弱性，可通过定向保护策略进行识别和缓解。深度神经网络（DNN）可仅通过翻转少量参数位就被灾难性地破坏。本文引入了深度神经损伤（DNL）——一种无需数据和优化的方法，用于定位关键参数，以及增强的单次遍历变体 1P-DNL，通过在随机输入上一次前向和后向传递来精炼选择。该脆弱性跨越多个领域，包括图像分类、目标检测、实例分割和推理型大语言模型。在图像分类中，仅翻转 ResNet-50 在 ImageNet 上的两个符号位就将精度降低 99.8%。在目标检测和实例分割中，骨干网络中的一两个符号翻转就使 Mask R-CNN 和 YOLOv8-seg 模型的 COCO 检测和掩码 AP 崩溃。在语言建模中，对不同专家的两个符号翻转将 Qwen3-30B-A3B-Thinking 的准确率从 78% 降至 0%。研究还表明，选择性保护小部分脆弱符号位可提供针对此类攻击的实用防御。

Qwen3.5-Omni Technical Report

Qwen3.5-Omni 技术报告

Qwen3.5-Omni 是一个千亿级参数的大规模多模态模型，在音视频理解和生成方面表现卓越，采用了先进的架构并具备 Audio-Visual Vibe Coding 等新颖能力。本文提出 Qwen3.5-Omni——Qwen-Omni 模型家族的最新进展。相比前代，Qwen3.5-Omni 扩展至数千亿参数，支持 256k 上下文长度。通过利用包含异构文本-视觉对和超过 1 亿小时音视频内容的大规模数据集，模型展现出强大的全模态能力。Qwen3.5-Omni-plus 在 215 个音视频理解、推理和交互子任务与基准上达到 SOTA，在关键音频任务上超越 Gemini-3.1 Pro，在综合音视频理解上与之持平。架构上采用 Thinker 和 Talker 的混合注意力 MoE 框架，支持超 10 小时音频理解和 400 秒 720P 视频（1 FPS）的复杂交互。为解决流式语音合成中的不稳定性和不自然性，引入了 ARIA——动态对齐文本和语音单元，显著提升对话语音的稳定性和韵律。此外，Qwen3.5-Omni 支持 10 种语言的多语言理解和语音生成，具有类人情感细微差别。值得关注的是，观察到了全模态模型的一种新兴能力：直接基于音视频指令进行编程，称之为 Audio-Visual Vibe Coding。

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

DR-Venus：仅用 1 万条开放数据迈向前沿端侧深度研究 Agent

DR-Venus-4B 是一个 40 亿参数的深度研究 Agent，完全基于开放数据训练，采用 Agentic 监督微调和基于回合级奖励的强化学习，在研究基准上实现卓越性能的同时保持端侧部署优势。基于小语言模型的端侧深度研究 Agent 在成本、延迟和隐私方面的优势使其在实际部署中极具吸引力。本文研究如何在有限开放数据下训练一个强大的小型深度研究 Agent，通过提升数据质量和数据利用率来实现。DR-Venus 的训练配方包含两个阶段：第一阶段使用 Agentic 监督微调（SFT）建立基本 Agentic 能力，结合严格数据清洗和长时序轨迹重采样来提升数据质量和利用率；第二阶段应用 Agentic 强化学习（RL）进一步提升长时序深度研究任务的执行可靠性。为使 RL 在此设定下对小 Agent 有效，基于 IGPO 设计了基于信息增益和格式感知正则化的回合级奖励，增强了监督密度和回合级信用分配。完全基于约 1 万条开放数据构建的 DR-Venus-4B 在多个深度研究基准上显著优于 9B 参数以下的先前 Agentic 模型，同时缩小了与 30B 级系统的差距。

PersonaVLM: Long-Term Personalized Multimodal LLMs

PersonaVLM：长期个性化多模态大语言模型

本文引入了 PersonaVLM——一种新颖的个性化多模态语言模型框架，通过记忆保留、多轮推理和响应对齐能力实现长期个性化。多模态大语言模型（MLLM）已成为数百万人的日常助手，但其生成与个人偏好一致响应的能力仍然有限。先前方法仅通过输入增强或输出对齐实现静态的单轮个性化，无法捕捉用户随时间演变的偏好和个性。PersonaVLM 通过整合三项关键能力将通用 MLLM 转化为个性化助手：（a）记忆：主动从交互中提取和总结按时间排列的多模态记忆，整合到个性化数据库中；（b）推理：通过从数据库检索和整合相关记忆进行多轮推理；（c）响应对齐：在长期交互中推断用户不断演变的个性，确保输出与其独特特征保持一致。评估方面，建立了 Persona-MME——一个包含超过 2000 个精选交互案例的综合基准，用于从 7 个关键方面和 14 个细粒度任务评估长期 MLLM 个性化。大量实验验证了该方法的有效性，在 128k 上下文下将基线提升了 22.4%（Persona-MME）和 9.8%（PERSONAMEM），同时分别超越 GPT-4o 5.2% 和 2.0%。