首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
JoyRider
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
38
文章 38
沸点 0
赞
38
返回
|
搜索文章
最新
热门
中国AI开源里程碑!百度文心4.5系列震撼开源,全球AI格局迎来关键转折
当CNBC以“巩固中国无可争议的AI领导者地位”为题报道这场开源事件时,Hugging Face平台正同步上架23个文心4.5系列模型——从0.3B参数的轻量级版本到总参数量达424B的混合专家(Mo
NLPrompt:提升视觉 - 语言模型应对噪声标签的性能
研究背景 视觉 - 语言模型的兴起 :随着 CLIP 等视觉 - 语言基础模型的出现,图像 - 文本表示得到了变革,可通过提示学习高效处理各种任务。提示学习作为一种轻量级的模型微调方法,因参数少、适应
【ICCV2025】MMRL:在图文多模态中的表示学习
文章通过引入共享的多模态表示空间和解耦策略,有效地解决了现有VLMs在适应新任务时的过拟合问题,提高了模型在多种任务和数据集上的泛化能力和适应能力。
Trident:开启开放词汇语义分割中无监督分割的新范式
研究背景 现有研究情况:语义分割是计算机视觉中的基础任务,旨在根据不同的语义对图像进行分割。近期的视觉语言模型(VLMs)如CLIP,通过网页规模的数据训练使模型能够适应开放词汇场景,但由于仅接收图像
突破视觉语言交互边界:RexSeek模型与HumanRef数据集重塑多实例人物引用任务
研究背景 现状 :人类是计算机视觉中最重要的参与者之一,能够基于自然语言描述识别和检测特定个体对于诸多应用至关重要。现有的指代表达理解(REC)任务数据集,如 RefCOCO/+/g 等,大多假设指代
Harmon:基于掩码自回归的多模态理解与生成统一框架,突破视觉表征瓶颈的创新方案
研究背景 目前,将视觉理解与生成整合到单一多模态框架中是一大挑战。早期的研究尝试通过将最先进的扩散模型和多模态LLMs相结合来实现,但这些方法在图像生成和文本序列建模之间缺乏深入的整合,导致在基于指令
【ICCV2025】令牌级文本图像基础模型TokenOCR开启OCR的新征程
研究背景 近年来,通用视觉基础模型(VFMs)如CLIP、DINO和SAM等在多模态大语言模型(MLLMs)中得到了广泛应用,但在处理下游文本图像相关任务时,由于缺乏语义细粒度监督,这些模型在感知、理
【ICCV2025】视觉任务新突破:VSSD模型的非因果探索
#金石焕新程# 一、研究背景与动机 近年来,视觉Transformer(ViT)在计算机视觉领域取得了显著的成果,归功于其强大的全局感受野和信息建模能力。然而,ViT的自注意力机制存在计算复杂度为二次
【CVPR2025】基于零空间投影:多模态大模型物体幻觉的零成本消除方法
#金石焕新程# 背景 随着大型视觉-语言模型(LVLMs)的快速发展,其在图像描述、视觉推理等任务中表现出了强大的能力。然而,这些模型普遍存在物体幻觉(Object Hallucinations, O
解码微生物适应性的关键:基因组序列与栖息地预测的深度关联
文章题目:Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity 原文链接:ht
下一页
个人成就
文章被点赞
105
文章被阅读
31,265
掘力值
2,176
关注了
5
关注者
27
收藏集
0
关注标签
5
加入于
2022-10-22