LLM arxiv每日论文

46 阅读8分钟

MDG: Masked Denoising Generation for Multi-Agent Behavior Modeling in Traffic Environments

论文链接arxiv.org/pdf/2511.17…

核心问题:现有多智能体行为建模的扩散和自回归方法存在迭代采样、顺序解码或任务特定设计的限制,影响效率和复用性。

主要方法:提出Masked Denoising Generation (MDG),将多智能体行为建模重构为独立加噪的时空张量重建,使用连续的、按智能体和时间步的噪声掩码,实现局部去噪和可控轨迹生成,支持单步或少量前向传递。

关键结果:在Waymo Sim Agents和nuPlan Planning基准测试中实现了有竞争力的闭环性能,同时提供高效、一致和可控的开环多智能体轨迹生成。

研究意义:MDG作为简单但通用的范式,可应用于开环预测、闭环仿真、运动规划和条件生成等多个任务,提升了多智能体行为建模的效率和复用性。

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

论文链接arxiv.org/pdf/2511.17…

核心问题:现有视频QA模型依赖固定帧的单次感知,难以处理文本丰富视频中的小、瞬态文本线索,导致幻觉和细粒度证据失效。

主要方法:提出Video-R4,一个视频推理LMM,通过视觉反刍(迭代选择帧、放大信息区域、重新编码像素、更新推理状态)增强推理。构建两个数据集(Video-R4-CoT-17k和Video-R4-RL-30k),采用多阶段学习框架,通过SFT和GRPO-based RL微调7B LMM学习视觉操作。

关键结果:在M4-ViteVQA上取得最先进结果,并推广到多页文档QA、幻灯片QA和通用视频QA。

研究意义:证明了迭代视觉反刍是像素接地多模态推理的有效范式,提升了文本丰富视频的推理能力。

PersonaAgent with GraphRAG: Community-Aware Knowledge Graphs for Personalized LLM

论文链接arxiv.org/pdf/2511.17…

核心问题:需要个性化AI代理适应用户偏好,但现有方法难以结合用户上下文和集体知识。

主要方法:提出PersonaAgent with GraphRAG框架,使用Graph RAG机制构建LLM衍生的知识图索引,总结相关信息社区。结合用户历史行为摘要和图社区检测的全局模式生成个性化提示。

关键结果:在LaMP基准上,新闻分类F1提升11.1%,电影标签F1提升56.1%,产品评分MAE降低10.4%。

研究意义:通过Graph RAG结合用户persona和集体知识,提升了个性化LLM的性能,为个性化AI代理提供了有效框架。

REMSA: An LLM Agent for Foundation Model Selection in Remote Sensing

论文链接arxiv.org/pdf/2511.17…

核心问题:遥感基础模型(RSFM)选择困难,因文档分散、格式异构和部署约束多样。

主要方法:构建RSFM数据库(RS-FMD)覆盖150+ RSFMs,提出REMSA,第一个基于LLM的代理,从自然语言查询自动选择RSFM。REMSA解释用户需求、解决缺失约束、用上下文学习排序模型并提供透明理由。

关键结果:在75个专家验证的RS查询场景中,REMSA优于naive agents、密集检索和非结构化RAG-based LLMs。

研究意义:通过LLM代理自动化RSFM选择,解决了遥感基础模型选择的痛点,提升了效率和准确性。

SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation

论文链接arxiv.org/pdf/2511.17…

核心问题:现有QA评估指标要么侧重词汇相似性(如ROUGE、EM)忽略语义,要么侧重上下文嵌入(如BERTScore)缺乏灵活性,LLM-based评估器成本高、有偏差。

主要方法:提出SMILE,结合句子级语义理解、关键词级语义理解和简单关键词匹配,平衡词汇精度和语义相关性。

关键结果:在文本、图像、视频QA任务中,SMILE与人类判断高度相关,且计算轻量。

研究意义:桥接了词汇和语义评估的 gap,提供了全面且高效的QA评估指标。

That's not natural: The Impact of Off-Policy Training Data on Probe Performance

论文链接arxiv.org/pdf/2511.17…

核心问题:LLM探针训练依赖合成或off-policy数据,但其对探针泛化的影响未被系统评估。

主要方法:系统评估合成和off-policy数据对8种LLM行为的探针泛化影响,测试线性和注意力探针。

关键结果:off-policy数据的泛化成功可预测on-policy泛化;同域off-policy数据比异域on-policy数据更可靠;领域转移导致更大性能下降。

研究意义:揭示了off-policy数据对LLM探针的影响,为LLM监控中的数据选择提供了指导。

Beyond Multiple Choice: A Hybrid Framework for Unifying Robust Evaluation and Verifiable Reasoning Training

论文链接arxiv.org/pdf/2511.17…

核心问题:MCQA格式存在选项泄漏信号,导致accuracy指标不可靠,RFT中鼓励猜答案。

主要方法:提出ReVeL框架,将MCQA重写为开放问题,保持答案可验证。根据答案类型分类,应用不同的重写和验证方案。用GRPO微调Qwen2.5-VL模型。

关键结果:ReVeL-OpenQA训练的模型在MCQA基准上匹配accuracy,OpenQA accuracy提升约6个百分点;评估时揭示MCQA分数膨胀达20个百分点,提高判断准确性,降低成本和延迟。

研究意义:解决了MCQA的局限性,提供了更可靠的评估和训练框架,提升了多模态语言模型的推理能力。

Selective Rotary Position Embedding

论文链接arxiv.org/pdf/2511.17…

核心问题:RoPE在softmax transformers中用固定角度旋转编码位置,线性transformers用输入依赖的门控处理顺序,但RoPE缺乏输入依赖性。

主要方法:提出Selective RoPE,输入依赖的旋转嵌入机制,generalizes RoPE,支持线性和softmax transformers的任意角度旋转。

关键结果:在门控transformers中使用Selective RoPE,提升了语言建模和困难序列任务(如复制、状态跟踪、检索)的性能。

研究意义:通过输入依赖的旋转嵌入,提升了transformers的位置编码能力,改善了语言相关任务的性能。

IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation

论文链接arxiv.org/pdf/2511.17…

核心问题:现有embodied benchmarks集中在静态家庭环境,无法捕捉动态真实世界的整体性能,VLLMs在空间推理中存在挑战。

主要方法:提出IndustryNav,第一个动态工业导航基准,包含12个高保真Unity仓库场景,动态物体和人类移动。用PointGoal导航 pipeline评估局部-全局规划,引入碰撞率和警告率metrics。

关键结果:9个SOTA VLLMs中,闭源模型有优势,但所有代理在鲁棒路径规划、避障和主动探索中存在不足。

研究意义:揭示了VLLMs在动态工业环境中的空间推理局限性,为embodied research提供了新基准和方向。

Don't Learn, Ground: A Case for Natural Language Inference with Visual Grounding

论文链接arxiv.org/pdf/2511.17…

核心问题:现有NLI方法依赖文本,易受文本偏差和表面启发式影响。

主要方法:提出零样本NLI方法,用text-to-image模型生成前提的视觉表示,与文本假设比较进行推理。评估余弦相似性和VQA两种推理技术。

关键结果:无任务微调下达到高accuracy,对文本偏差和表面启发式鲁棒。

研究意义:通过视觉接地提升NLI的鲁棒性,为自然语言理解提供了新方向。

ReBaPL: Repulsive Bayesian Prompt Learning

论文链接arxiv.org/pdf/2511.17…

核心问题:传统prompt tuning易过拟合,分布外泛化差;现有Bayesian prompt learning难以探索多模态posterior。

主要方法:提出ReBaPL,整合循环步长调度和SGHMC,交替探索和利用;引入基于表示空间的排斥力,防止过早收敛到单一模式。

关键结果:在多个基准数据集上优于SOTA prompt learning方法。

研究意义:通过Bayesian inference和排斥力,有效探索prompt的posterior分布,提升了泛化能力,为prompt learning提供了更鲁棒的方法。

MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models

论文链接arxiv.org/pdf/2511.17…

核心问题:传统单教师对抗蒸馏存在知识多样性有限、收敛慢、难以平衡鲁棒性和准确性的问题。

主要方法:提出MMT-ARD,多模态多教师对抗鲁棒蒸馏框架。双教师知识融合架构优化清洁特征保留和鲁棒特征增强;动态权重分配基于教师置信度;自适应sigmoid加权函数平衡跨模态知识转移。

关键结果:ViT-B-32模型上,鲁棒accuracy提升+4.32%,零样本accuracy提升+3.5%,训练效率提升2.3x。

研究意义:通过多教师蒸馏提升了VLM的对抗鲁棒性和训练效率,为安全关键应用中的VLM提供了更鲁棒的方法。

Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards

论文链接arxiv.org/pdf/2511.17…

核心问题:RLVR在定理证明等任务中scalability有限,中间推理关键但最终答案难验证;token-level SFT沦为死记硬背。

主要方法:提出MR-RLVR,通过“masked-then-fill”和“step reordering”构建过程级自监督奖励,从中间推理中提取可学习信号。两阶段训练:先在数学计算和证明数据上自监督训练,再在仅结果可验证的数据集上RLVR微调。

关键结果:Qwen2.5-3B和DeepSeek-R1-Distill-Qwen-1.5B上,Pass@1提升+9.86%,Pass@5提升+5.27%,Pass@8提升+4.00%。

研究意义:通过过程级自监督信号提升了RLVR的scalability和性能,解决了仅结果可验证场景中的推理问题。