首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
CV技术指南
掘友等级
微信公众号--CV技术指南
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
即插即用!上交提出Long-CLIP:解锁CLIP的长文本功能
本文介绍的工作在CLIP的基础上,提出了具有长文本能力的Long-CLIP,弥补了CLIP在长文本建模上的重大短板,并可以即插即用地利用在各种多模态任务中。
讨论下一个token预测时,我们可能正在走进陷阱
自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
具身基础模型突破2D,全新生成式视觉-语言-行动模型3D-VLA,在多项任务中显著提高了推理、多模态生成和规划的能力。
复刻Sora的通用视频生成能力,开源多智能体框架Mora来了
来自理海大学、微软研究院的研究者提出了一种多智能体框架 Mora,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成能力。
佐治亚大学Intelligent Vision and Sensing实验室招收计算机视觉/深度学习/机器人/自动驾驶方向博士生
佐治亚大学Intelligent Vision and Sensing实验室招收计算机视觉/深度学习/机器人/自动驾驶方向博士生
CVPR2024 | Point Transformer V3: 更简单、更快、更强!
本文提出了Point TransformerV3(PTv3),它将简单性和效率置于某些机制的准确性之上。
LLM 加速技巧:Muti Query Attention
MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。
ICLR 2024|图像匹配新突破!GIM:首个从互联网视频中学习通用图像匹配器的框架
为了解决基于深度学习方法泛化性的问题 ,来自厦门大学、Intel 、大疆的研究者们提出了 GIM 。
Pytorch中张量的高级选择操作
在某些情况下,我们需要用Pytorch做一些高级的索引/选择,所以在这篇文章中,将介绍这类任务的三种最常见的方法。
CVPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
Meta 研究者提出了一种改进思路,利用 SAM 的掩码图像预训练 (SAMI)。这是通过利用 MAE 预训练方法和 SAM 模型实现的,以获得高质量的预训练 ViT 编码器。
下一页
个人成就
文章被点赞
840
文章被阅读
326,179
掘力值
12,763
关注了
0
关注者
298
收藏集
0
关注标签
10
加入于
2021-05-30