每日Arxiv热文

每日Arxiv热文

每日Arxiv热文

每日推送最新Arxiv热文，Lab4ai.cn平台提供最新最全论文复现体验！

暂无订阅共10篇文章创建于2025-10-17

NeurIPS 2025|南开大学提出 VidEmo 实现更精准的情感解读

论文标题：VidEmo: AffectiveTree Reasoning for EmotionCentric Video Foundation Models 作者团队：南开大学、鹏城实验室、快手科技

5月前
222
点赞
评论

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

- 创新方法：提出三阶段方法（Track, Inpaint, Resplat），分别用于识别需要填充的区域、逐步填充未观察到的区域以及将2D填充观察结果重新投影回3D空间。

5月前
50
点赞
评论

# CVPR 2025| 基于扩散变换器的自适应图像融合框架| 计算机视觉 | 图像编辑

论文名称：DreamFuse: Adaptive Image Fusion with Diffusion Transformer —— 基于扩散变换器的自适应图像融合框架

5月前
133
点赞
评论

VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉

VideoLLaMA 3是基于Llama 3的前沿多模态基础模型，深度融合视觉、听觉与语言理解能力，支持高分辨率图像和长视频的端到端分析。其核心技术包括统一的视听语言架构、高效长视频词元化和万亿级多

6月前
103
点赞
评论

VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉

AAAI2025！北理工团队提出FBRT-YOLO：面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

论文《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》提出了一种针对航拍图像目标检测的优化方法。

6月前
93
点赞
评论

AAAI2025！北理工团队提出FBRT-YOLO：面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

7M参数，干翻巨无霸LLM！这款超小递归模型（TRM），在ARC-AGI上证明了“少即是多”

该论文提出了一种“少即是多”的更简单、更高效的递归推理模型—Tiny Recursive Model（TRM）。

6月前
79
点赞
评论

7M参数，干翻巨无霸LLM！这款超小递归模型（TRM），在ARC-AGI上证明了“少即是多”

ICLR2026 ！SAM3重磅来袭：能“听懂人话”的分割模型，性能狂飙2倍

SAM3（SegmentAnythingModel3）代表了图像和视频分割领域的重大突破，这是一个基于概念提示的统一模型，能够检测、分割和跟踪图像视频中的对象。

6月前
182
点赞
评论

ICLR2026 ！SAM3重磅来袭：能“听懂人话”的分割模型，性能狂飙2倍

无需人工奖励！Meta FAIR华人团队提出「早期经验学习范式」，AI智能体像人类一样“从错误中成长”

Meta 提出的「早期经验」（Early Experience）范式，在模仿学习与强化学习之间架起桥梁，让智能体通过「行动 - 观察 - 反思」自主学习，无需外部奖励。

6月前
91
点赞
评论

无需人工奖励！Meta FAIR华人团队提出「早期经验学习范式」，AI智能体像人类一样“从错误中成长”

【每日Arxiv热文】北大新框架 Edit-R1 炸场！破解图像编辑 3 大难题，双榜刷 SOTA

当前基于指令的图像编辑虽借助扩散模型取得进展，但仍面临挑战，本研究突破SFT范式的泛化性与可控性限制，解决扩散模型结合 RL 时的策略优化偏差问题。

6月前
93
点赞
评论

【每日Arxiv热文】北大新框架 Edit-R1 炸场！破解图像编辑 3 大难题，双榜刷 SOTA

【每日Arxiv热文】还在为视频编辑发愁？港科大&蚂蚁集团提出Ditto框架刷新SOTA！

还在为视频编辑发愁？港科大&蚂蚁集团提出Ditto框架刷新SOTA！构建一套可扩展、低成本、高质量的指令驱动视频编辑数据生成框架，解决数据稀缺这一核心瓶颈。

6月前
115
点赞
评论

【每日Arxiv热文】还在为视频编辑发愁？港科大&蚂蚁集团提出Ditto框架刷新SOTA！