稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
  • 全部
  • 人工智能
  • AIGC
  • AI编程
  • 后端
  • Agent
  • 前端
  • 算法
  • LLM
  • OpenAI
  • 展开
  • 全部
  • 人工智能
  • AIGC
  • AI编程
  • 后端
  • Agent
  • 前端
  • 算法
  • LLM
  • OpenAI
  • Python
  • 深度学习
  • LangChain
  • 程序员
  • Claude
  • 计算机视觉
  • 暂无数据
    • 推荐
    • 最新
  • 模型太大跑不动?工业视觉轻量化,降低延迟、减少功耗、提升稳定性
    车间里的景象总是带着某种永恒的韵律:传送带不知疲倦地滚动,机械臂精准地起落,金属部件泛着冷冽的光泽。就在这井然有序的乐章里,一个视觉检测工位却像是卡了壳的齿轮——那台装着最新AI模型的工控机,机箱风扇
    • CoovallyAIHub
    • 27
    • 点赞
    算法 计算机视觉 深度学习
    模型太大跑不动?工业视觉轻量化,降低延迟、减少功耗、提升稳定性
  • 96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分
    在计算机视觉领域,基于骨架的人体动作识别一直备受关注。相比传统视频流,骨架数据不仅计算高效,还对环境光照、背景干扰有着天然的免疫力。然而,骨架模型也有自己的“心病”:由于缺乏物体信息和精细的体型特征,
    • CoovallyAIHub
    • 31
    • 点赞
    算法 计算机视觉 深度学习
    96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分
  • $300/2天:Moltbot(原 Clawdbot) Token 消耗失控的技术根源
    Clawdbot因每次调用都发送完整系统提示、工具定义和全部历史,导致token消耗失控,用户两天花费300美元。优化方案包括启用缓存、压缩网页内容、动态选择工具和成本熔断,可降低成本70-90%。
    • 147API
    • 251
    • 点赞
    AIGC 深度学习
    $300/2天:Moltbot(原 Clawdbot) Token 消耗失控的技术根源
  • AI Agent 框架探秘:拆解 OpenHands(4)--- 服务
    AI Agent 框架探秘:拆解 OpenHands(4)--- 服务 0x00 概述 0x01 服务 1.1 API 模式 1.2 服务器组件 1.3 服务工作流程描述 1.4 listen_soc
    • 罗西的思考
    • 32
    • 点赞
    算法 人工智能 深度学习
  • MedGemma 1.5:支持高维医学影像、解剖定位等多种功能;Patient Churn Prediction:面向医疗保健领域的分类数据集
    公共资源速递 5 个公共数据集: CCTV Incident 跌倒检测数据集 Patient Segmentation 患者分类数据集 Hand Gestures Labbled 手势汽车游戏数据集
    • OpenBayes贝式计算
    • 30
    • 点赞
    深度学习 人工智能 机器学习
    MedGemma 1.5:支持高维医学影像、解剖定位等多种功能;Patient Churn Prediction:面向医疗保健领域的分类数据集
  • 字节跳动开源HUVR:一个视觉模型同时搞定识别与生成,96倍压缩令牌性能不减!
    统一视觉表征的“次元壁”被打破了,这项研究让AI既能看懂世界又能创造世界。 近日,字节跳动旗下研究团队发布了一项颠覆性研究,提出了名为 “用于统一视觉表征的超网络”(Hyper-networks fo
    • CoovallyAIHub
    • 45
    • 点赞
    算法 计算机视觉 深度学习
    字节跳动开源HUVR:一个视觉模型同时搞定识别与生成,96倍压缩令牌性能不减!
  • 什么是图像计算?解析AI视觉背后的科学,快速入门指南
    当你走过购物中心或繁忙的公共街道时,安装在入口和走道上方的摄像头记录着人们的一举一动。它们每秒都在产生视觉数据,而大多数时候我们甚至毫无察觉。 这股持续不断的数据流,为现代人工智能系统提供着养分——从
    • CoovallyAIHub
    • 34
    • 点赞
    算法 计算机视觉 深度学习
    什么是图像计算?解析AI视觉背后的科学,快速入门指南
  • 今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?
    就在今年十月,DeepSeek 放出其全新的 DeepSeek-OCR 模型时,业内还在消化它在文档解析上带来的震动。没想到,短短时间,他们又抛出了一篇重磅论文——DeepSeek-OCR 2。而这次
    • CoovallyAIHub
    • 65
    • 点赞
    算法 计算机视觉 深度学习
    今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?
  • 【深度学习新手踩坑实录】车道线分割模型从“垃圾输出”到“精准识别”,我到底踩了多少坑?(附GitHub+数据集链接)
    车道线分割作为自动驾驶中的关键任务,一直是计算机视觉领域的热门研究方向。本文将详细介绍基于UNet++架构的多标签车道线分割项目,重点分享新手在开发过程中常见的技术坑及其解决方案,帮助初学者快速上手
    • 柠柠酱
    • 24
    • 1
    深度学习
    【深度学习新手踩坑实录】车道线分割模型从“垃圾输出”到“精准识别”,我到底踩了多少坑?(附GitHub+数据集链接)
  • 10亿参数刷新OCR记录:LightOnOCR-2如何以小博大?
    最近,法国AI公司LightOn在文档理解领域投下了一枚重磅炸弹——他们推出的LightOnOCR-2-1B模型仅凭10亿参数,就在权威OCR评测基准OlmOCR-Bench上击败了参数量大它9倍的竞
    • CoovallyAIHub
    • 35
    • 点赞
    算法 计算机视觉 深度学习
    10亿参数刷新OCR记录:LightOnOCR-2如何以小博大?
  • 诊断、分割、解释三位一体:医学AI如何从“工具”进化成“助手”?
    在医学影像的世界里,AI模型大多还停留在“工具”阶段:它们能精准勾画病灶轮廓,却无法告诉你这意味着什么;它们能回答疾病名称,却指不出病灶的具体位置。医生面对的,仍然是碎片化的信息。 一项来自澳门大学的
    • CoovallyAIHub
    • 35
    • 点赞
    算法 计算机视觉 深度学习
    诊断、分割、解释三位一体:医学AI如何从“工具”进化成“助手”?
  • YOLO26技术详解:原生NMS-Free架构设计与实现原理
    最近,计算机视觉领域再掀波澜!YOLO 家族最新成员——YOLO26横空出世,以“彻底移除NMS”为核心变革,开启了真正的端到端目标检测新时代。虽然官方论文尚未正式发布,但来自KIIT大学的深度分析报
    • CoovallyAIHub
    • 34
    • 点赞
    算法 计算机视觉 深度学习
    YOLO26技术详解:原生NMS-Free架构设计与实现原理
  • Meta ShapeR重磅开源:多模态3D生成,从真实杂乱视频中稳健重建
    近年来,3D内容生成领域发展迅猛,但许多令人惊艳的模型演示背后,都隐藏着一个不为人知的秘密:它们大多依赖于“温室数据”。 所谓“温室数据”,指的是那些在理想环境下采集的样本——干净的背景、没有遮挡、完
    • CoovallyAIHub
    • 40
    • 点赞
    算法 计算机视觉 深度学习
    Meta ShapeR重磅开源:多模态3D生成,从真实杂乱视频中稳健重建
  • YOLO26、RF-DETR、D-FINE… 2026模型混战,工程师选择困难症怎么破?
    YOLO26的亮相,与其说是一次升级,不如说是一声宣言:那个拼参数、卷规模的时代,正在悄悄退场。现在轮到“小身材、大智慧、拎包入住”的模型登场了。但有趣的是,擂台另一边也热闹得很——2024到2025
    • CoovallyAIHub
    • 45
    • 点赞
    算法 计算机视觉 深度学习
    YOLO26、RF-DETR、D-FINE… 2026模型混战,工程师选择困难症怎么破?
  • AI Agent 深度解析:原理、架构与未来应用浪潮
    AI Agent(人工智能智能体)是一种能够感知环境、自主规划、调用工具并执行行动,以达成特定目标的智能系统。如果用人来类比,大语言模型(LLM)相当于“大脑”,负责思考与决策;而外部工具则如同“手脚
    • 香草泡芙
    • 544
    • 8
    人工智能 机器学习 深度学习
    AI Agent 深度解析:原理、架构与未来应用浪潮
  • 神经网络基础——Sigmoid函数参数推导原理
    前置知识 由于人工智能方向涉及较多数学知识,限于篇幅原因,作者无法将其列举完全,这里挑选几个较为重要的知识点作简要介绍。有些基础数学知识已经单独在其他文档中描述,这里不再赘述。如有疑问,欢迎评论或私信
    • HXhlx
    • 19
    • 点赞
    神经网络 深度学习
  • YOLO26正式亮相!极致速度优化,为落地而生!
    就在刚刚,Ultralytics 正式发布 YOLO26,这是迄今为止最先进、最易部署的 YOLO 模型。就是那个在 YOLO Vision 2025 大会上首次亮相的新一代视觉模型。不得不说,每次
    • CoovallyAIHub
    • 421
    • 1
    算法 计算机视觉 深度学习
    YOLO26正式亮相!极致速度优化,为落地而生!
  • 使用 LoRA 对 Llama 基础模型进行指令微调 (SFT)
    实验目标: 本实验演示使用 PEFT (Parameter-Efficient Fine-Tunin
    • YukiMori23
    • 107
    • 10
    人工智能 深度学习
  • 【深度学习Day15】ChatGPT的亲爷爷——拆解Transformer核心原理,手撸自注意力机制 (Self-Attention)
    2017年Google《Attention Is All You Need》横空出世,彻底抛弃RNN框架,以‘注意力机制’为核心打造Transformer,凭借并行计算能力和全局依赖捕捉能力,奠定基础
    • 柠柠酱
    • 76
    • 1
    深度学习
    【深度学习Day15】ChatGPT的亲爷爷——拆解Transformer核心原理,手撸自注意力机制 (Self-Attention)
  • 大道至简:腾讯优图只用纯视觉模型,4张图超越全量训练SOTA
    近年来,计算机视觉领域掀起了一股“视觉-语言大模型”的浪潮。从CLIP到各种多模态模型,研究者们似乎默认:解决复杂视觉任务必须依赖语言模型的加持。 但在工业质检、医疗影像分析等高度依赖视觉信息的异常检
    • CoovallyAIHub
    • 66
    • 点赞
    算法 计算机视觉 深度学习
    大道至简:腾讯优图只用纯视觉模型,4张图超越全量训练SOTA
  • 下午好!
    点亮在社区的每一天

    推荐话题 换一换

    #挑战每日一条沸点#
    #挑战每日一条沸点#

    22.8m

    #我的 2026新年 flag#
    #我的 2026新年 flag#

    359k

    #晒晒你的摸鱼日常#
    #晒晒你的摸鱼日常#

    1.2m

    #每日快讯#

    9.8m

    #每日精选文章#

    3.3m

    #日新计划#

    10.6m

    #每天一个知识点#

    47.6m

    #工作中做得最正确的一件事#
    #工作中做得最正确的一件事#

    415k

    #掘金一周#

    1.4m

    #新人报道#

    38.7m

    查看更多
    • 用户协议
    • 营业执照
    • 隐私政策
    • 关于我们
    • 使用指南
    • 友情链接
    • 更多人工智能文章
    • 举报邮箱: feedback@xitu.io
    • 座机电话: 010-83434395
    • 京ICP备:18012699号-3
    • 京ICP证:京B2-20191272
    • police 京公网安备11010802026719号
    • ©2026 稀土掘金