稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
  • 全部
  • 人工智能
  • LLM
  • Agent
  • AIGC
  • AI编程
  • 后端
  • OpenAI
  • 程序员
  • 前端
  • 展开
  • 全部
  • 人工智能
  • LLM
  • Agent
  • AIGC
  • AI编程
  • 后端
  • OpenAI
  • 程序员
  • 前端
  • 算法
  • Python
  • 深度学习
  • 计算机视觉
  • JavaScript
  • MCP
  • 暂无数据
    • 推荐
    • 最新
  • 量化技术:如何让你的 3D 模型和 AI 模型瘦身又飞快
    本文深入解析量化技术在 3D 渲染和机器学习中的应用,讲解均匀与非均匀量化原理,介绍 Draco 与 MeshOpt 网格压缩库,并扩展到 PyTorch、TensorFlow 等模型量化实践。
    • 站好了
    • 1.7k
    • 6
    人工智能 机器学习 深度学习
    量化技术:如何让你的 3D 模型和 AI 模型瘦身又飞快
  • 效率翻倍!“Deep Research”技术,如何让你从信息海洋中精准淘金?
    信息海洋——为什么你的“研究”效率如此低下? 想象一下一个世纪前的淘金者。他们最大的挑战是找到那条蕴藏黄金的河流。而今天,身为知识工作者的我们,面临着一个截然不同的困境:我们并非找不到河流,而是深陷一
    • 智见AGI
    • 45
    • 点赞
    深度学习
    效率翻倍!“Deep Research”技术,如何让你从信息海洋中精准淘金?
  • 结构化数据迎来“ChatGPT时刻”!LimitX:一个模型统一所有表格任务
    在大语言模型如ChatGPT、GPT-4重塑自然语言处理范式,多模态模型征服图像、视频之后,人工智能的下一个前沿阵地正悄然浮现——结构化数据。 我们日常接触的金融风控、医疗诊断、商业决策,背后都依赖于
    • CoovallyAIHub
    • 35
    • 点赞
    算法 计算机视觉 深度学习
    结构化数据迎来“ChatGPT时刻”!LimitX:一个模型统一所有表格任务
  • 1.2MB超轻量模型实现草莓苗精准分级检测与定位,准确率超96%
    在现代化的草莓育苗工厂中,一排排整齐的穴盘里孕育着成千上万的草莓幼苗。然而,一个长期困扰农户的难题是:如何快速准确地识别出哪些穴孔缺苗、哪些幼苗生长不良? 传统的解决方式主要依赖人工肉眼识别,效率低下
    • CoovallyAIHub
    • 422
    • 3
    算法 计算机视觉 深度学习
    1.2MB超轻量模型实现草莓苗精准分级检测与定位,准确率超96%
  • 突破跨模态识别瓶颈!火箭军工程大学提出MFENet:让AI在白天黑夜都能准确识人
    想象这样一个安防场景:白天,监控摄像头(可见光模式)清晰地捕捉到一个人的影像;到了夜晚,摄像头自动切换到红外模式,画面变成了基于热辐射的黑白图像。对于人类来说,我们很容易判断这是同一个人,但对于AI系
    • CoovallyAIHub
    • 68
    • 点赞
    算法 计算机视觉 深度学习
    突破跨模态识别瓶颈!火箭军工程大学提出MFENet:让AI在白天黑夜都能准确识人
  • 让Qwen-VL的检测能力像YOLO一样强,VLM-FO1如何打通大模型的视觉任督二脉
    在当今多模态大模型(VLMs)飞速发展的时代,一个令人尴尬的问题依然存在:为什么这些能看懂图像、生成描述的模型,却难以精确地定位图像中的物体? 答案在于一个根本性矛盾:让一个为语言生成而设计的模型,去
    • CoovallyAIHub
    • 70
    • 点赞
    算法 计算机视觉 深度学习
    让Qwen-VL的检测能力像YOLO一样强,VLM-FO1如何打通大模型的视觉任督二脉
  • 外科医生离手术世界模型还有多远?首次提出SurgVeo基准,揭示AI生成手术视频的惊人差距
    外科医生离手术世界模型还有多远?首次提出SurgVeo基准,揭示AI生成手术视频的惊人差距 近年来,视频生成领域的基石模型展现出作为潜在“世界模型”模拟物理世界的惊人能力。谷歌的Veo等模型已经能够生
    • CoovallyAIHub
    • 48
    • 点赞
    算法 计算机视觉 深度学习
    外科医生离手术世界模型还有多远?首次提出SurgVeo基准,揭示AI生成手术视频的惊人差距
  • 从图像导数到边缘检测:探索Sobel与Scharr算子的原理与实践
    计算机视觉是一个分析图像和视频的广阔领域。虽然很多人一听到计算机视觉,首先想到的通常是机器学习模型,但实际上,还有很多其他现有算法,在某些情况下,它们表现得比人工智能还要好! 在计算机视觉中,特征检测
    • CoovallyAIHub
    • 62
    • 1
    算法 计算机视觉 深度学习
    从图像导数到边缘检测:探索Sobel与Scharr算子的原理与实践
  • 注意力机制不再计算相似性?清华北大新研究让ViT转向“找差异”,效果出奇制胜
    一篇来自清华大学和北京大学的最新研究,它给热门的Vision Transformer(ViT)带来了一次相当漂亮的“线性提速”。 这篇被NeurIPS 2025录用的论文,标题为 《Linear Di
    • CoovallyAIHub
    • 45
    • 点赞
    算法 计算机视觉 深度学习
    注意力机制不再计算相似性?清华北大新研究让ViT转向“找差异”,效果出奇制胜
  • 终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准
    近年来,人工智能(尤其是计算机视觉)技术快速发展,广泛应用于安防、金融、医疗、自动驾驶等领域。然而,数据偏见问题一直如影随形,制约着AI系统的公平性与可信度。 你是否曾想过,训练AI的图像数据是否真正
    • CoovallyAIHub
    • 50
    • 点赞
    算法 计算机视觉 深度学习
    终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准
  • 搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在
    人工智能的前沿不再只是数据中心;它在于工厂车间、零售店、公共基础设施以及我们周围的智能设备。推动这一转变的是视觉语言模型(VLM),这是一个革命性的人工智能,可以解释和推理图像和视频。潜力巨大,但任何
    • CoovallyAIHub
    • 92
    • 3
    算法 计算机视觉 深度学习
    搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在
  • OCR战场再起风云:LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍?(附演示开源地址)
    就在前不久DeepSeekOCR开源发布,大家在感叹其体积和速度的时候,LightOnOCR又给我们带来全新的效果,这款全新的视觉语言模型正在重新定义机器阅读和理解商业信息的方式。 LightOnOC
    • CoovallyAIHub
    • 133
    • 1
    算法 计算机视觉 深度学习
    OCR战场再起风云:LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍?(附演示开源地址)
  • 一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
    这篇名为《一致性模型》的论文提出了一类新的生成模型,能够一步到位地生成高质量图像,解决了扩散模型的主要瓶颈——采样过程慢、需要多次迭代。它的核心贡献在于证明了:在保持扩散模型强大表达能力和训练稳定性的
    • CoovallyAIHub
    • 74
    • 2
    算法 计算机视觉 深度学习
    一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
  • 估值百亿独角兽创始人硕士论文曝光!宇树科技王兴兴的“性价比”思维10年前就已注定
    “人火了是连毕业论文都要被翻出来的。”这条互联网定律再次应验——宇树科技CEO王兴兴的硕士毕业论文近日被网友们掘地三尺找了出来。 令人惊讶的是,这篇近十年前的论文不仅预示了如今机器人行业的技术路线转变
    • CoovallyAIHub
    • 181
    • 点赞
    算法 计算机视觉 深度学习
    估值百亿独角兽创始人硕士论文曝光!宇树科技王兴兴的“性价比”思维10年前就已注定
  • 突破360°跟踪极限!OmniTrack++:全景MOT新范式,HOTA指标狂飙43%
    全景相机能够捕捉360°完整环境信息,在自动驾驶、机器人导航等领域有着广泛应用。然而,这种超广视野也给多目标跟踪(MOT)带来了前所未有的挑战:严重的图像畸变、分辨率不均匀、目标在画面边缘频繁切换导致
    • CoovallyAIHub
    • 44
    • 点赞
    算法 计算机视觉 深度学习
    突破360°跟踪极限!OmniTrack++:全景MOT新范式,HOTA指标狂飙43%
  • 当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
    多模态AI并非平等处理所有信息,其偏好暗藏玄机 近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛
    • CoovallyAIHub
    • 57
    • 1
    计算机视觉 深度学习 强化学习
    当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
  • 告别碎片化!Dinomaly2:一个极简框架统一所有异常检测任务
    简单,是终极的复杂。——列奥纳多·达·芬奇 在工业质检、医疗诊断、安防监控等领域,异常检测一直扮演着至关重要的角色。然而,这个领域长期以来面临着一个核心痛点:方法碎片化。 想象一下,你的工厂需要检测2
    • CoovallyAIHub
    • 74
    • 点赞
    算法 计算机视觉 深度学习
    告别碎片化!Dinomaly2:一个极简框架统一所有异常检测任务
  • 从 token 到向量:微信 CALM 模型颠覆大语言模型范式
    微信AI联合清华发布了CALM,从预测token转变为预测下一个向量。通过将持续多个token压缩为语义向量,使得生成的步骤变为原来的1/k,再性能相当的前提下,训练的计算量降低了44%,推理减少34
    • 量子基态
    • 38
    • 点赞
    人工智能 深度学习
    从 token 到向量:微信 CALM 模型颠覆大语言模型范式
  • 视觉语言模型(VLM)深度解析:如何用它来处理文档?
    视觉语言模型是一类强大的机器学习模型,能够同时处理视觉(图像)和文本信息。随着最近 Qwen 3 VL 模型的发布,我想带大家深入探讨一下,如何利用这些强大的 VLM 来处理文档。 为什么你需要使用
    • CoovallyAIHub
    • 92
    • 点赞
    算法 计算机视觉 深度学习
    视觉语言模型(VLM)深度解析:如何用它来处理文档?
  • 【论文导读】ORB-SLAM3:An Accurate Open-Source Library for Visual, Visual-Inertial and
    这篇论文主要做的是多传感器融合/视觉-惯性SLAM系统,提出了ORB-SLAM3,一个支持以下配置的开源SLAM系统,而不是基于深度学习的预测模型
    • 惯导马工
    • 1.4k
    • 4
    算法 深度学习
    【论文导读】ORB-SLAM3:An Accurate Open-Source Library for Visual, Visual-Inertial and
  • 上午好!
    点亮在社区的每一天

    推荐话题 换一换

    #挑战每日一条沸点#
    #挑战每日一条沸点#

    21.1m

    #TRAE SOLO#
    #TRAE SOLO#

    4.6k

    #金石焕新程#

    6.6m

    #每日快讯#

    9.4m

    #MCP 怎么玩#

    851k

    #每天一个知识点#

    43.9m

    #工作中做得最正确的一件事#
    #工作中做得最正确的一件事#

    382k

    #新人报道#

    36.6m

    #掘金一周#

    1.1m

    #金石计划征文活动#
    #金石计划征文活动#

    37.2m

    查看更多
    • 用户协议
    • 营业执照
    • 隐私政策
    • 关于我们
    • 使用指南
    • 友情链接
    • 更多人工智能文章
    • 举报邮箱: feedback@xitu.io
    • 座机电话: 010-83434395
    • 京ICP备:18012699号-3
    • 京ICP证:京B2-20191272
    • police 京公网安备11010802026719号
    • ©2025 稀土掘金