首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
CVHub
CVHub
创建于2023-03-05
订阅专栏
专注计算机视觉领域,提供全面、多领域、有深度的前沿AI论文解读与产业级成熟解决方案!
等 64 人订阅
共252篇文章
创建于2023-03-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
关于目标检测和语义分割该如何走下去的一点思考。
YOLOE(ye) ,一种高效 、 统一 、 开放的物体检测和分割模型,类似于人眼,在文本 、 视觉输入和无提示范式等不同的提示机制下,与封闭式 YOLO 相比,具有零推理和传输开销 。
图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级,交互式视觉-文本提示功能全面上线!
X-AnyLabeling 是一款集众多主流深度学习算法模型和丰富功能特性于一体的强大图像标注软件,其专注于解决实际应用。
NeurIPS 2024 | TextHarmony: 基于统一架构的视觉文本理解与生成模型
在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。
上海AI实验室推出DocLayout-YOLO: 速度精度绝佳的文档布局分析模型
ocLayout-YOLO 不仅在速度上与单模态方法YOLOv10相匹配,而且在准确性上超越了所有现有方法,包括单模态和多模态方法。
深度探讨视觉表征学习中骨干网络与优化器的耦合偏好
本文探讨了计算机视觉中骨干网络设计和优化器选择之间的相互作用。我们揭示了骨干-优化器耦合偏差(BOCB)现象及其对视觉骨干网络潜在的限制,例如在下游任务中额外的微调时间和努力。
微信团队发布全新多模态大模型 POINTS: 简单高效又不失性能
POINTS 是微信团队开发的先进视觉语言模型,融合了多项创新技术。它采用保持纵横比的高分辨率动态显示(CATTY)、CapFusion 技术整合图像描述、双视觉编码器架构。
仅需一行代码!上交大联合腾讯优图提出 SaRA: 让'懒惰'参数重获新生的微调魔法
本文提出了 SaRA,一种新颖的参数高效微调方法,该方法充分利用了预训练模型中绝对值最小的无效参数。
Ultrylytics 官宣: YOLO11 全新发布!
YOLO(You Only Look Once)是一个著名的物体检测和图像分割模型,由Joseph Redmon和Ali Farhadi在华盛顿大学开发。
Segment Anything 2 (SAM2) in X-AnyLabeling: 构建快速精准的图像和视频标注对象分割工具
Segment Anything 的初次发布受到了广泛赞誉,在 ICCV 2023 上获得了荣誉提名,并吸引了行业领袖和学术界的关注。
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling 是一款基于AI推理引擎和丰富功能特性于一体的强大辅助标注工具,其专注于实际应用,致力于为图像数据工程师提供工业级的一站式解决方案,可自动快速进行数据标定。
无关技术细节,聊聊这两年从事大语言模型的工作感悟
本文作者深刻反思了自己在这两年来从事大语言模型(LLM)工作中的感悟,由衷地分享了技术由于变革带来的冲击,同时也充分肯定了 LLM 在提升个人生产力和改变工作方式方面的巨大潜力。
大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式
作者被ICML 2024收录的Spider模型,首次提出对于CD概念的统一(训练、结构、参数)分割架构。文章分析了面向多CD概念统一理解时存在的多种挑战问题。
深度剖析现阶段的多模态大模型做不了医疗
今天的文章将为大家揭示多模态大模型在辅助诊断、异常检测等方面的潜力与局限,不仅分享了对当前技术的深刻见解,还提出了关于数据质量和模型训练的重要思考。
YOLOv10 正式发布!原理、部署、应用一站式齐全
YOLOv10 作为一款实时端到端目标检测模型,其通过创新的双标签分配策略和架构改进,在保持高速检测的同时显著提升了准确性和效率,提供了多个模型规模以适应不同应用场景。
TextCoT:多模态思维链提升文字密集图像理解
TextCoT 是一种零样本思维链方法,无需精心设计提示样例,并且可以在参数量较小的7B模型上也展现出对多模态理解能力的提升,展现了广泛的适用性和强大的性能提升效果。
CVPR 24-UG2 无人机多模态检测与追踪挑战赛正式开启!
我们希望通过这个比赛,群策群力,一起解决这个困难的问题,名列前茅的队伍不但能获得荣誉,在比赛结束后我们会和参与者们一起总结各种solution的优劣,一起发表一篇该领域milestone的文章。
具身智能之RT-H
RT-H模型不仅可以响应人类的纠正,还可以从这些纠正中学习,以改进其未来的行为。当人类提供纠正时,这些纠正被视为额外的训练数据。
具身智能之RT2
RT-2将预训练的视觉-语言模型(VLMs)进一步训练,使其能够直接控制机器人的动作。这个过程的目标是让模型学会将视觉输入和语言指令映射到具体的机器人动作上,从而实现对机器人的闭环控制。
具身智能之RT1
机器人学习领域的泛化问题是指机器人模型能够将在特定任务、环境或条件下学到的知识和技能应用到新的、未见过的任务、环境或条件的能力。
具身智能开篇
随着大模型技术的持续升温,具身智能这一前沿领域也日益受到广泛关注与热议。为此,CVHub紧跟行业步伐,特别邀请到来自企业实践一线、深谙具身智能算法的算法工程师,倾力打造“具身智能论文精读”专栏。
下一页