首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
每日Arxiv热文
Lab4AI大模型实验室
创建于2025-10-17
订阅专栏
每日推送最新Arxiv热文,Lab4ai.cn平台提供最新最全论文复现体验!
暂无订阅
共10篇文章
创建于2025-10-17
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
NeurIPS 2025|南开大学提出 VidEmo 实现更精准的情感解读
论文标题:VidEmo: AffectiveTree Reasoning for EmotionCentric Video Foundation Models 作者团队:南开大学、鹏城实验室、快手科技
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
- 创新方法:提出三阶段方法(Track, Inpaint, Resplat),分别用于识别需要填充的区域、逐步填充未观察到的区域以及将2D填充观察结果重新投影回3D空间。
# CVPR 2025| 基于扩散变换器的自适应图像融合框架| 计算机视觉 | 图像编辑
论文名称:DreamFuse: Adaptive Image Fusion with Diffusion Transformer —— 基于扩散变换器的自适应图像融合框架
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
VideoLLaMA 3是基于Llama 3的前沿多模态基础模型,深度融合视觉、听觉与语言理解能力,支持高分辨率图像和长视频的端到端分析。其核心技术包括统一的视听语言架构、高效长视频词元化和万亿级多
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
论文《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》提出了一种针对航拍图像目标检测的优化方法。
7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”
该论文提出了一种“少即是多”的更简单、更高效的递归推理模型—Tiny Recursive Model(TRM)。
ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍
SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。
无需人工奖励!Meta FAIR华人团队提出「早期经验学习范式」,AI智能体像人类一样“从错误中成长”
Meta 提出的 「早期经验」(Early Experience)范式,在模仿学习与强化学习之间架起桥梁,让智能体通过 「行动 - 观察 - 反思」自主学习,无需外部奖励。
【每日Arxiv热文】北大新框架 Edit-R1 炸场!破解图像编辑 3 大难题,双榜刷 SOTA
当前基于指令的图像编辑虽借助扩散模型取得进展,但仍面临挑战,本研究突破SFT范式的泛化性与可控性限制,解决扩散模型结合 RL 时的策略优化偏差问题。
【每日Arxiv热文】还在为视频编辑发愁?港科大&蚂蚁集团提出Ditto框架刷新SOTA!
还在为视频编辑发愁?港科大&蚂蚁集团提出Ditto框架刷新SOTA!构建一套可扩展、低成本、高质量的指令驱动视频编辑数据生成框架,解决数据稀缺这一核心瓶颈。