稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
  • 全部
  • 人工智能
  • LLM
  • AIGC
  • Agent
  • AI编程
  • OpenAI
  • 后端
  • 算法
  • 程序员
  • 展开
  • 全部
  • 人工智能
  • LLM
  • AIGC
  • Agent
  • AI编程
  • OpenAI
  • 后端
  • 算法
  • 程序员
  • 前端
  • Python
  • 深度学习
  • 计算机视觉
  • MCP
  • 面试
  • 暂无数据
    • 推荐
    • 最新
  • 搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在
    人工智能的前沿不再只是数据中心;它在于工厂车间、零售店、公共基础设施以及我们周围的智能设备。推动这一转变的是视觉语言模型(VLM),这是一个革命性的人工智能,可以解释和推理图像和视频。潜力巨大,但任何
    • CoovallyAIHub
    • 53
    • 2
    算法 计算机视觉 深度学习
    搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在
  • 一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
    这篇名为《一致性模型》的论文提出了一类新的生成模型,能够一步到位地生成高质量图像,解决了扩散模型的主要瓶颈——采样过程慢、需要多次迭代。它的核心贡献在于证明了:在保持扩散模型强大表达能力和训练稳定性的
    • CoovallyAIHub
    • 45
    • 点赞
    算法 计算机视觉 深度学习
    一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
  • 超越传统3D生成:OccScene实现感知与生成的跨任务共赢
    无需依赖真实标注,仅凭文字提示即可生成高质量3D场景 在自动驾驶、机器人导航等领域,3D场景的感知与生成一直是研究热点。然而,传统方法通常将这两个过程分离:生成模型仅仅作为数据增强工具,为下游感知任务
    • CoovallyAIHub
    • 37
    • 点赞
    算法 计算机视觉 深度学习
    超越传统3D生成:OccScene实现感知与生成的跨任务共赢
  • 视觉系统的秩序:从滤波、边缘检测到形态学操作
    ​一、滤波:让画面安静下来 ​编辑 滤波,是计算机视觉中最早建立秩序的环节。它回答了一个根本问题:什么是信号,什么是噪声。 从均值、高斯,到中值、双边,再到自适应滤波,这些方法的目标始终一致——在不损
    • 音视频牛哥
    • 32
    • 点赞
    计算机视觉 机器学习 OpenCV
  • 英伟达再出「神作」!黄仁勋华盛顿GTC宣布Vera Rubin超级芯片,联手诺基亚进军6G,市值直逼5万亿美元
    昨夜,黄仁勋又“炸场”了。 在 2025 年 10 月的 GTC 大会上,从量子计算到6G通信,从超级芯片到AI工厂,黄伟达在华盛顿勾勒出美国AI世纪的宏伟蓝图。 在黄仁勋GTC主题演讲结束后,英伟达
    • CoovallyAIHub
    • 40
    • 点赞
    算法 计算机视觉 深度学习
    英伟达再出「神作」!黄仁勋华盛顿GTC宣布Vera Rubin超级芯片,联手诺基亚进军6G,市值直逼5万亿美元
  • 万字详解:多目标跟踪(MOT)终极指南
    如果你看过体育比赛中带球员轨迹回放,或者见过自动驾驶汽车在车流中穿梭,那你已经见识过多目标跟踪(MOT)技术了。这项技术不仅能识别视频中的物体,还能随时间持续追踪它们,为每个目标分配独立ID——比如在
    • CoovallyAIHub
    • 55
    • 点赞
    算法 计算机视觉 深度学习
    万字详解:多目标跟踪(MOT)终极指南
  • 2025目标检测模型全景图:从RF-DETR到YOLOv12,谁主沉浮?
    目标检测技术正以前所未有的速度重塑着我们的世界。从自动驾驶汽车在城市街道上自如穿梭,到智能工厂精准监控生产线,这项技术已成为无数AI应用的核心支柱。 随着Transformer架构和注意力机制的快速发
    • CoovallyAIHub
    • 58
    • 1
    算法 计算机视觉 深度学习
    2025目标检测模型全景图:从RF-DETR到YOLOv12,谁主沉浮?
  • OmniNWM:突破自动驾驶世界模型三大瓶颈,全景多模态仿真新标杆(附代码地址)
    上海交通大学等机构联合提出全能驾驶导航世界模型,在生成质量与控制精度上全面超越现有SOTA! 自动驾驶技术的发展正面临着一个关键瓶颈:如何在虚拟环境中进行高效、安全的训练与测试?传统的仿真平台虽然能够
    • CoovallyAIHub
    • 57
    • 点赞
    算法 计算机视觉 深度学习
    OmniNWM:突破自动驾驶世界模型三大瓶颈,全景多模态仿真新标杆(附代码地址)
  • 华为世界模型来了!30分钟生成272㎡室内场景,虚拟人导航不迷路
    3D场景生成迎来突破,大平层里虚拟人也能自由行走 近日,华为联合上海交通大学、华中科技大学推出了全新的世界模型WorldGrow,该模型能够生成高达1800㎡的超大室内场景(19x39块),且单张A1
    • CoovallyAIHub
    • 48
    • 点赞
    算法 计算机视觉 深度学习
  • 不看异常,怎么学会识别异常?用“异常”指导异常检测!——NAGL方法解析(附代码地址)
    在工业质检、医疗诊断等领域,异常检测技术一直面临着巨大挑战。传统的异常检测模型通常只使用正常样本进行训练,但当遇到全新场景时,检测效果往往大打折扣。更重要的是,在实际应用中,我们通常能够获得少量异常样
    • CoovallyAIHub
    • 43
    • 点赞
    算法 计算机视觉 深度学习
    不看异常,怎么学会识别异常?用“异常”指导异常检测!——NAGL方法解析(附代码地址)
  • 全球OCR新标杆!百度0.9B小模型斩获四项SOTA,读懂复杂文档像人一样自然
    开源16小时就登顶HuggingFace Trending全球第一! 前不久,小编刚刚介绍了PaddleOCR开源最强OCR生态,不靠参数靠实力,56K+ Star见证实力(附开源地址),然而就在17
    • CoovallyAIHub
    • 272
    • 3
    算法 计算机视觉 深度学习
    全球OCR新标杆!百度0.9B小模型斩获四项SOTA,读懂复杂文档像人一样自然
  • Mamba-3震撼登场!Transformer最强挑战者再进化,已进入ICLR 2026盲审
    线性时间推理、超长文本处理、硬件高效利用,这条“算法巨蟒”正在悄然蜕变。 在AI领域,Transformer架构自2017年确立统治地位以来,各类“Transformer杀手”就如雨后春笋般涌现。在众
    • CoovallyAIHub
    • 330
    • 点赞
    算法 计算机视觉 深度学习
    Mamba-3震撼登场!Transformer最强挑战者再进化,已进入ICLR 2026盲审
  • ICCV 2025 最佳论文出炉:CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠!
    今天凌晨,在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿,最终录用2699篇论文,录用率为24%。
    • CoovallyAIHub
    • 125
    • 1
    算法 计算机视觉 深度学习
    ICCV 2025 最佳论文出炉:CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠!
  • 首个自监督微调Stable Diffusion框架!更清晰、更泛化的单目深度估计(附代码地址)
    无需精确标注,照样能get细致入微的深度图 你是否曾经想过,如果AI能像人类一样,仅通过观看视频就理解场景的远近关系,那该有多酷? 最近,一项名为 Jasmine 的研究给出了令人惊喜的答案——它首次
    • CoovallyAIHub
    • 79
    • 点赞
    算法 计算机视觉 深度学习
    首个自监督微调Stable Diffusion框架!更清晰、更泛化的单目深度估计(附代码地址)
  • 一夜之间,大模型处理长文本的难题被DeepSeek新模型彻底颠覆!
    就在百度刚刚发布PaddleOCR-VL,以0.9B参数量重新定义文档解析效率之际,DeepSeek也正式开源了其颠覆性的DeepSeek-OCR模型。不过,它的野心远不止于“识别”,而是直指大模型处
    • CoovallyAIHub
    • 118
    • 点赞
    算法 计算机视觉 深度学习
    一夜之间,大模型处理长文本的难题被DeepSeek新模型彻底颠覆!
  • 计算机视觉遇见手绘图表,如何教会机器理解流程图?
    本文讲解了将原始的手绘图表(比如白板照片、流程图、线框图)转换成结构化的、机器可读的 JSON。这事儿听起来简单,实践起来却复杂得惊人。本文将通过我的技术实践历程,介绍实际遇到的困难以及真正有效的解决
    • CoovallyAIHub
    • 34
    • 点赞
    算法 计算机视觉 深度学习
    计算机视觉遇见手绘图表,如何教会机器理解流程图?
  • 突破性开源模型DepthLM问世:视觉语言模型首次实现精准三维空间理解
    无需改变架构,仅通过创新训练策略,就让视觉语言模型具备了与专业视觉模型相媲美的三维感知能力 在多模态人工智能蓬勃发展的今天,一项突破性研究正悄然改写我们对视觉语言模型的认知边界。Meta公司高级研究员
    • CoovallyAIHub
    • 30
    • 1
    算法 计算机视觉 深度学习
    突破性开源模型DepthLM问世:视觉语言模型首次实现精准三维空间理解
  • IDEA研究院发布Rex-Omni:3B参数MLLM重塑目标检测,零样本性能超越DINO
    把目标检测变成“下一个点预测”,用2200万数据+强化学习解决行业难题 目标检测技术正在迎来一场范式革命!传统方法如YOLO、DETR依赖复杂的坐标回归,而IDEA(粤港澳大湾区数字经济研究院)研究院
    • CoovallyAIHub
    • 59
    • 点赞
    算法 计算机视觉 深度学习
    IDEA研究院发布Rex-Omni:3B参数MLLM重塑目标检测,零样本性能超越DINO
  • 版本号突袭!官方预览:YOLO26正式宣布,10月发布,CPU推理速度提升43%
    伦敦时间9月25日,YOLO Vision 2025(YV25) 混合盛会如期举行。全场观众屏息凝神,等待传闻中的Ultralytics YOLO14登场。然而,当Ultralytics创始人兼首席执
    • CoovallyAIHub
    • 731
    • 1
    算法 计算机视觉 深度学习
    版本号突袭!官方预览:YOLO26正式宣布,10月发布,CPU推理速度提升43%
  • 如何在 2025 年构建强大的实时视频检测?
    还记得你第一次看到无人驾驶汽车在街头“自己开”的震撼吗? 或者监控画面里,AI 自动圈出一个可疑人物? 又或者无人机在空中灵巧地避开障碍? 这些都离不开同一个核心技术——实时视频目标检测(Real-t
    • CoovallyAIHub
    • 180
    • 1
    算法 计算机视觉 深度学习
    如何在 2025 年构建强大的实时视频检测?
  • 晚上好!
    点亮在社区的每一天

    推荐话题 换一换

    #挑战每日一条沸点#
    #挑战每日一条沸点#

    20.9m

    #金石焕新程#

    6.2m

    #每日快讯#

    9.4m

    #MCP 怎么玩#

    790k

    #每天一个知识点#

    43.1m

    #新人报道#

    36.2m

    #工作中做得最正确的一件事#
    #工作中做得最正确的一件事#

    366k

    #金石计划征文活动#
    #金石计划征文活动#

    36.9m

    #掘金一周#

    1.0m

    #我的技术写作成长之路#
    #我的技术写作成长之路#

    8.6m

    查看更多
    • 用户协议
    • 营业执照
    • 隐私政策
    • 关于我们
    • 使用指南
    • 友情链接
    • 更多人工智能文章
    • 举报邮箱: feedback@xitu.io
    • 座机电话: 010-83434395
    • 京ICP备:18012699号-3
    • 京ICP证:京B2-20191272
    • police 京公网安备11010802026719号
    • ©2025 稀土掘金