首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
CoovallyAIHub
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
“看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型
近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。从文本直接生成驾驶视频,到可控的4D动态场景合成,当前模型已经能够产出视觉上足以“以
一步生成,像素空间,何恺明让 pMF 做到了
何恺明团队最近抛出的这篇工作,多少有点“把老问题直接掀桌子重来”的味道。他们提出的 **Pixel MeanFlow(pMF) **,在不借助潜在空间、不依赖多步采样的前提下,只用一次前向传播,就生成
CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”
人类在观察复杂场景时,通常会先快速扫视整体轮廓,形成初步认知,再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力(Top-down Attentio
告别CLIP局限!SSVP框架实现零样本异常检测,刷新7大数据集SOTA
工业视觉检测一直是智能制造领域的关键技术,而零样本异常检测(ZSAD) 更是被视为行业的“圣杯”——无需针对特定产线进行训练,即可直接投入使用的理想解决方案。然而,现有基于视觉语言模型(如CLIP)的
测试里“无所不能”,一上线就“ bug 频出”,你的CV模型到底缺了什么?
那个在象牙塔里从未失手的“学霸”,理论知识门门满分,实验操作无可挑剔。可当他第一次踏入纷繁复杂、充满意外的真实社会,却步步维艰,处处碰壁——这画面,是不是像极了如今许多计算机视觉领域那些光彩夺目的“高
96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分
在计算机视觉领域,基于骨架的人体动作识别一直备受关注。相比传统视频流,骨架数据不仅计算高效,还对环境光照、背景干扰有着天然的免疫力。然而,骨架模型也有自己的“心病”:由于缺乏物体信息和精细的体型特征,
模型太大跑不动?工业视觉轻量化,降低延迟、减少功耗、提升稳定性
车间里的景象总是带着某种永恒的韵律:传送带不知疲倦地滚动,机械臂精准地起落,金属部件泛着冷冽的光泽。就在这井然有序的乐章里,一个视觉检测工位却像是卡了壳的齿轮——那台装着最新AI模型的工控机,机箱风扇
什么是图像计算?解析AI视觉背后的科学,快速入门指南
当你走过购物中心或繁忙的公共街道时,安装在入口和走道上方的摄像头记录着人们的一举一动。它们每秒都在产生视觉数据,而大多数时候我们甚至毫无察觉。 这股持续不断的数据流,为现代人工智能系统提供着养分——从
字节跳动开源HUVR:一个视觉模型同时搞定识别与生成,96倍压缩令牌性能不减!
统一视觉表征的“次元壁”被打破了,这项研究让AI既能看懂世界又能创造世界。 近日,字节跳动旗下研究团队发布了一项颠覆性研究,提出了名为 “用于统一视觉表征的超网络”(Hyper-networks fo
10亿参数刷新OCR记录:LightOnOCR-2如何以小博大?
最近,法国AI公司LightOn在文档理解领域投下了一枚重磅炸弹——他们推出的LightOnOCR-2-1B模型仅凭10亿参数,就在权威OCR评测基准OlmOCR-Bench上击败了参数量大它9倍的竞
下一页
个人成就
优秀创作者
文章被点赞
189
文章被阅读
145,875
掘力值
9,975
关注了
0
关注者
101
收藏集
0
关注标签
0
加入于
2025-01-02