兰大&港科大团队揭秘视频推理瓶颈论文名称：Watching, Reasoning, and Searching: A V

论文名称：Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning 作者团队：兰州大学、香港科技大学 Github地址：github.com/QuantaAlpha… 论文链接：arxiv.org/pdf/2601.06… Lab4AI链接：www.lab4ai.cn/paper/detai…

论文简介

该论文聚焦于开放网络环境下的视频深度推理任务，针对现有多模态评估中视频推理能力薄弱、深度研究基准多以文本为核心、缺乏对视频线索与开放网络证据联合推理评估的研究缺口，提出了首个视频深度研究基准VideoDR。 VideoDR以视频条件下的开放域事实性问答为核心，要求模型完成跨帧视觉锚点提取、交互式网络检索及视频-网络联合证据的多跳推理，通过严格的人工标注与质量控制（含视频-网络依赖测试、人工盲测等），构建了涵盖日常生活、经济、技术、文化、历史、地理六大语义领域的100个高质量样本，样本在视频时长、问题难度上呈现多样化分布。研究选取主流闭源（如GPT-4o、Gemini-3-pro-preview）与开源（如MiniCPM-V 4.5、InternVL3.5-14B）多模态大语言模型，在Workflow（两阶段：视频线索提取为文本+后续推理检索）和Agentic（端到端：原始视频+问题直接输入，自主完成全流程）两种范式下开展评估，从难度、视频时长、语义领域三个维度进行分层分析。该研究首次定义了视频深度研究任务，构建的VideoDR基准为开放网络视频推理代理的研究提供了系统评估工具，揭示的关键挑战为下一代模型优化指明了方向。

论文核心内容总结

1. 研究背景

现有多模态评估中，视频推理仍是薄弱环节，既需跨时间线索跟踪与时空建模，又受限于封闭证据设置，模型无需结合开放网络证据进行推理。
深度研究代理已推动问答向开放网络主动证据探索发展，但相关基准多以文本查询为起点，视觉内容仅被视为静态辅助信息，未作为需精准跟踪的关键证据。
现实场景中，视频常承载决定性线索，用户针对视频的开放域事实性问题需结合跨帧视觉线索与开放网络证据解答，而现有基准无法覆盖该需求。

2. 研究目的

定义视频深度研究任务，将视频理解从封闭语境感知转向以视频线索为锚点的开放网络主动多跳搜索与推理。
构建高质量视频深度研究基准VideoDR，系统评估模型结合视频跨帧视觉线索与开放网络证据进行多跳推理的能力。
明确Workflow和Agentic两种范式下主流多模态大语言模型的能力边界，揭示下一代视频深度研究代理的核心瓶颈。

3. 本文核心贡献

首次定义视频深度研究任务，实现从封闭视频理解到开放网络视频线索驱动推理的范式转变。
构建首个视频深度研究基准VideoDR，通过严格人工标注与质量控制，确保样本对视频跨帧线索和网络证据的双重依赖。
系统评估两种范式下的主流模型，明确Goal Drift（目标偏移）和Long-horizon Consistency（长时一致性）是核心瓶颈，为模型优化提供方向。

4. 研究方法

数据构建：通过候选视频池构建、初步筛选、问题设计三步标注流程，结合视频-网络依赖测试和人工测试双重质量控制，最终形成100个覆盖6个语义领域的样本。
实验设计：选取封闭源（如GPT-4o、Gemini-3-pro-preview）和开源（如MiniCPM-V 4.5、InternVL3.5-14B）主流多模态模型，在Workflow和Agentic两种范式下开展实验。
评估维度：从难度、视频时长、语义领域三个维度进行分层分析，采用LLM-as-judge协议（DeepSeek-V3-0324）评估答案语义一致性。

5. 研究结果

模型性能呈现明显分层，Gemini-3-pro-preview在两种范式下均表现最优（Agentic范式下平均准确率76%），开源模型整体表现较弱。
Agentic范式并非始终优于Workflow，其效果依赖模型在多轮搜索推理中维持初始视频线索的能力，强模型在中高难度、中长时长视频任务中更易体现优势，弱模型则易出现目标偏移。
不同语义领域中两种范式各有优劣，数值可靠性是当前所有模型的共性薄弱点。

6. 总结与展望

总结

视频深度研究基准VideoDR有效填补了现有评估空白，明确了主流多模态模型在视频线索与开放网络结合推理任务中的能力边界，证实目标偏移和长时一致性是核心制约因素。

局限性

样本的中间搜索查询和推理路径源于专家标注者的主观搜索行为，未覆盖现实中多样化的用户搜索策略。

未来方向

收集更多样化的人类搜索日志，更好地建模用户-代理交互的多样性，进一步优化基准的泛化性。
针对目标偏移和长时一致性瓶颈，探索更有效的模型架构设计或训练策略，提升视频线索的持续利用能力。