CoovallyAIHub

赞

0

|

搜索文章

模糊、噪声、压缩……让检测器学会主动评估画质

想象一下这样的场景：自动驾驶汽车行驶在暴雨中，挡风玻璃上的雨刷疯狂摆动，摄像头捕捉到的画面已经模糊不清。但车辆的检测系统依然信心满满地告诉你——前方道路“一切正常”。这听起来有些科幻，却是在真实世界中

2月前
145
点赞
评论

模糊、噪声、压缩……让检测器学会主动评估画质

当 Agent 成为主角，视觉研究者该怎么办？

有一个变化，正在悄悄发生。它没有体现在排行榜上，也没有写在 SOTA 的红字里，但你一旦意识到，就很难再忽视。在越来越多系统里，计算机视觉不再是“核心模型”，而是一个被调用的感知模块。你会发现论

2月前
140
点赞
评论

当 Agent 成为主角，视觉研究者该怎么办？

突破认知边界！中科院等提出MIRROR框架：AI鉴伪从此有了“真实之镜”

当AI画作已能以假乱真，人类如何守住现实边界？新一代检测框架通过建模“真实本身”实现超人级鉴别能力。近日，中国科学院自动化研究所、清华大学、华中科技大学及腾讯优图实验室等团队联合提出了一项突破性的A

2月前
260
点赞
评论

突破认知边界！中科院等提出MIRROR框架：AI鉴伪从此有了“真实之镜”

让本地知识引导AI追踪社区变迁，让AI真正理解社会现象

最近有一项研究让我十分好奇，它似乎在尝试翻转我们熟悉的剧本——不是用人工智能去“分析”社区，而是让社区来“教会”人工智能如何看世界。这听起来像是一种充满温度的技术民主化实验。通常，当我们谈论机器学习

2月前
93
点赞
评论

让本地知识引导AI追踪社区变迁，让AI真正理解社会现象

AAAI 2026这篇杰出论文说了什么？用LLM给CLIP换了个“聪明大脑”

在多模态大模型飞速发展的今天，CLIP作为连接视觉与语言的“基石”依然发挥着重要作用。然而，随着应用场景的深入，研究人员逐渐发现CLIP的文本编码器已经成为整个系统的瓶颈：不仅受限于77个Toke

2月前
203
点赞
评论

AAAI 2026这篇杰出论文说了什么？用LLM给CLIP换了个“聪明大脑”

为什么 2026 年，3D 工业视觉成为视觉算法分化的一年？

这几年，3D 工业视觉走得很快，也走得有点累。参数一路狂飙：像素更高、帧率更快、功率更猛、视角更广、体积更小。单看规格表，很难不让人兴奋。但真正把设备装上产线的人，往往会在几周后露出一种复杂的表情—

2月前
122
点赞
评论

为什么 2026 年，3D 工业视觉成为视觉算法分化的一年？

YOLOE-26发布：能听懂人话的实时开放词汇分割模型来了！

在计算机视觉领域，YOLO系列一直是速度和精度的代名词。但长期以来，所有YOLO模型都存在一个根本性限制：它们只能识别训练时见过的类别。当面对新的物体类型——比如特殊的工业零件、罕见的植物病害或是特

2月前
268
点赞
评论

YOLOE-26发布：能听懂人话的实时开放词汇分割模型来了！

红外小目标检测新突破！浙大团队提出DQAligner：大位移场景下依然稳定跟踪

红外成像领域的小目标检测一直是个技术难题——目标可能只是几个像素点，还常常淹没在复杂的云层、海面背景或者传感器噪声里。为了解决这个难题，研究者们开始利用多帧时空信息，但新的问题随之而来：当摄像机或目

2月前
160
点赞
评论

红外小目标检测新突破！浙大团队提出DQAligner：大位移场景下依然稳定跟踪

参数仅6.31亿反超7B模型，NVIDIA用「多教师蒸馏」融合三大模型绝学

在追求模型规模的竞赛中，一个反直觉的事实正在发生：NVIDIA 的 C-RADIOv4 仅用 6.31 亿个参数就达到了 DINOv3 的 70 亿参数模型的性能。多教师蒸馏技术，正在彻底改变我们构建

2月前
182
点赞
评论

参数仅6.31亿反超7B模型，NVIDIA用「多教师蒸馏」融合三大模型绝学

为视觉建模注入物理灵魂：WaveFormer证明，下一站是“物理启发模型”

近年来，Transformer 席卷了计算机视觉领域，从图像分类到目标检测，表现亮眼。然而，当任务从静态图像扩展到视频理解、动态场景分析时，Transformer 的“硬扛”模式开始显露出明显局限。最

2月前
112
点赞
评论

为视觉建模注入物理灵魂：WaveFormer证明，下一站是“物理启发模型”

个人成就

优秀创作者

文章被点赞 189

文章被阅读 145,812

掘力值 9,975

加入于

2025-01-02