CoovallyAIHub

赞

0

|

搜索文章

“看起来像世界”≠“真世界”！WorldLens全维度解构自动驾驶世界模型

近年来，随着生成式AI技术的突破，世界模型（World Models）已成为自动驾驶与具身智能领域的核心研究方向。从文本直接生成驾驶视频，到可控的4D动态场景合成，当前模型已经能够产出视觉上足以“以

2月前
134
点赞
评论

“看起来像世界”≠“真世界”！WorldLens全维度解构自动驾驶世界模型

一步生成，像素空间，何恺明让 pMF 做到了

何恺明团队最近抛出的这篇工作，多少有点“把老问题直接掀桌子重来”的味道。他们提出的 **Pixel MeanFlow（pMF） **，在不借助潜在空间、不依赖多步采样的前提下，只用一次前向传播，就生成

2月前
98
点赞
评论

一步生成，像素空间，何恺明让 pMF 做到了

CVPR 2025 Oral | 港大提出OverLoCK：模仿人类视觉机制，让模型“先见森林，再见树木”

人类在观察复杂场景时，通常会先快速扫视整体轮廓，形成初步认知，再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力（Top-down Attentio

2月前
195
点赞
评论

CVPR 2025 Oral | 港大提出OverLoCK：模仿人类视觉机制，让模型“先见森林，再见树木”

告别CLIP局限！SSVP框架实现零样本异常检测，刷新7大数据集SOTA

工业视觉检测一直是智能制造领域的关键技术，而零样本异常检测（ZSAD）更是被视为行业的“圣杯”——无需针对特定产线进行训练，即可直接投入使用的理想解决方案。然而，现有基于视觉语言模型（如CLIP）的

2月前
187
点赞
评论

告别CLIP局限！SSVP框架实现零样本异常检测，刷新7大数据集SOTA

测试里“无所不能”，一上线就“ bug 频出”，你的CV模型到底缺了什么？

那个在象牙塔里从未失手的“学霸”，理论知识门门满分，实验操作无可挑剔。可当他第一次踏入纷繁复杂、充满意外的真实社会，却步步维艰，处处碰壁——这画面，是不是像极了如今许多计算机视觉领域那些光彩夺目的“高

2月前
145
点赞
评论

测试里“无所不能”，一上线就“ bug 频出”，你的CV模型到底缺了什么？

96%准确率！中科院提出ACLNet，攻克骨架动作识别最难问题：相似动作区分

在计算机视觉领域，基于骨架的人体动作识别一直备受关注。相比传统视频流，骨架数据不仅计算高效，还对环境光照、背景干扰有着天然的免疫力。然而，骨架模型也有自己的“心病”：由于缺乏物体信息和精细的体型特征，

3月前
142
点赞
评论

96%准确率！中科院提出ACLNet，攻克骨架动作识别最难问题：相似动作区分

模型太大跑不动？工业视觉轻量化，降低延迟、减少功耗、提升稳定性

车间里的景象总是带着某种永恒的韵律：传送带不知疲倦地滚动，机械臂精准地起落，金属部件泛着冷冽的光泽。就在这井然有序的乐章里，一个视觉检测工位却像是卡了壳的齿轮——那台装着最新AI模型的工控机，机箱风扇

3月前
82
点赞
评论

模型太大跑不动？工业视觉轻量化，降低延迟、减少功耗、提升稳定性

什么是图像计算？解析AI视觉背后的科学，快速入门指南

当你走过购物中心或繁忙的公共街道时，安装在入口和走道上方的摄像头记录着人们的一举一动。它们每秒都在产生视觉数据，而大多数时候我们甚至毫无察觉。这股持续不断的数据流，为现代人工智能系统提供着养分——从

3月前
76
点赞
评论

什么是图像计算？解析AI视觉背后的科学，快速入门指南

字节跳动开源HUVR：一个视觉模型同时搞定识别与生成，96倍压缩令牌性能不减！

统一视觉表征的“次元壁”被打破了，这项研究让AI既能看懂世界又能创造世界。近日，字节跳动旗下研究团队发布了一项颠覆性研究，提出了名为 “用于统一视觉表征的超网络”（Hyper-networks fo

3月前
139
点赞
评论

字节跳动开源HUVR：一个视觉模型同时搞定识别与生成，96倍压缩令牌性能不减！

10亿参数刷新OCR记录：LightOnOCR-2如何以小博大？

最近，法国AI公司LightOn在文档理解领域投下了一枚重磅炸弹——他们推出的LightOnOCR-2-1B模型仅凭10亿参数，就在权威OCR评测基准OlmOCR-Bench上击败了参数量大它9倍的竞

3月前
127
点赞
评论

10亿参数刷新OCR记录：LightOnOCR-2如何以小博大？

个人成就

优秀创作者

文章被点赞 189

文章被阅读 145,875

掘力值 9,975

加入于

2025-01-02