稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
  • 全部
  • 人工智能
  • AIGC
  • AI编程
  • 后端
  • 前端
  • Agent
  • 算法
  • LLM
  • OpenAI
  • 展开
  • 全部
  • 人工智能
  • AIGC
  • AI编程
  • 后端
  • 前端
  • Agent
  • 算法
  • LLM
  • OpenAI
  • Python
  • 深度学习
  • LangChain
  • 计算机视觉
  • Claude
  • 程序员
  • 暂无数据
    • 推荐
    • 最新
  • [大模型实战 03] 拆解 Transformers:从原理图解到 HuggingFace Transformers 实战
    会跑代码还不够,我们要懂原理。本文从 Transformer 的底层视角出发,图解从位置编码到注意力机制的全流程;并基于 Kaggle 平台,深入拆解 HuggingFace Transformers
    • 阿尔的代码屋
    • 28
    • 2
    人工智能 深度学习
    [大模型实战 03] 拆解 Transformers:从原理图解到 HuggingFace Transformers 实战
  • 为什么 2026 年,3D 工业视觉成为视觉算法分化的一年?
    这几年,3D 工业视觉走得很快,也走得有点累。 参数一路狂飙:像素更高、帧率更快、功率更猛、视角更广、体积更小。单看规格表,很难不让人兴奋。但真正把设备装上产线的人,往往会在几周后露出一种复杂的表情—
    • CoovallyAIHub
    • 54
    • 点赞
    算法 计算机视觉 深度学习
    为什么 2026 年,3D 工业视觉成为视觉算法分化的一年?
  • YOLOE-26发布:能听懂人话的实时开放词汇分割模型来了!
    在计算机视觉领域,YOLO系列一直是速度和精度的代名词。但长期以来,所有YOLO模型都存在一个根本性限制:它们只能识别训练时见过的类别。 当面对新的物体类型——比如特殊的工业零件、罕见的植物病害或是特
    • CoovallyAIHub
    • 50
    • 点赞
    算法 计算机视觉 深度学习
    YOLOE-26发布:能听懂人话的实时开放词汇分割模型来了!
  • 红外小目标检测新突破!浙大团队提出DQAligner:大位移场景下依然稳定跟踪
    红外成像领域的小目标检测一直是个技术难题——目标可能只是几个像素点,还常常淹没在复杂的云层、海面背景或者传感器噪声里。 为了解决这个难题,研究者们开始利用多帧时空信息,但新的问题随之而来:当摄像机或目
    • CoovallyAIHub
    • 41
    • 点赞
    算法 计算机视觉 深度学习
    红外小目标检测新突破!浙大团队提出DQAligner:大位移场景下依然稳定跟踪
  • 【深度学习新手踩坑实录】(推荐系统实战)LightGCN搭建企业级推荐系统(附GitHub仓库+数据集链接)
    其实推荐系统落地没那么难,关键是找对方法:用企业级结构管代码,用 PyG 简化图模型实现,再吃透 LightGCN 的 “偷懒哲学”。今天让你轻松写出能放简历上的 “企业级” 推荐系统!
    • 柠柠酱
    • 22
    • 1
    深度学习 GitHub Python
    【深度学习新手踩坑实录】(推荐系统实战)LightGCN搭建企业级推荐系统(附GitHub仓库+数据集链接)
  • 参数仅6.31亿反超7B模型,NVIDIA用「多教师蒸馏」融合三大模型绝学
    在追求模型规模的竞赛中,一个反直觉的事实正在发生:NVIDIA 的 C-RADIOv4 仅用 6.31 亿个参数就达到了 DINOv3 的 70 亿参数模型的性能。多教师蒸馏技术,正在彻底改变我们构建
    • CoovallyAIHub
    • 54
    • 点赞
    算法 计算机视觉 深度学习
    参数仅6.31亿反超7B模型,NVIDIA用「多教师蒸馏」融合三大模型绝学
  • GLM-4.7-Flash:高性能、高吞吐轻量化的 MoE 推理模型;Delhi Pollution AQl:超过二十万条小时环境观测样本
    公共资源速递 6 个公共数据集: Sonar Signal 水下声呐信号数据集 Diabetes Mexico 墨西哥糖尿病数据集 Vehicles OpenImages 车辆图像数据集 LightO
    • OpenBayes贝式计算
    • 52
    • 点赞
    深度学习 机器学习 人工智能
    GLM-4.7-Flash:高性能、高吞吐轻量化的 MoE 推理模型;Delhi Pollution AQl:超过二十万条小时环境观测样本
  • 为视觉建模注入物理灵魂:WaveFormer证明,下一站是“物理启发模型”
    近年来,Transformer 席卷了计算机视觉领域,从图像分类到目标检测,表现亮眼。然而,当任务从静态图像扩展到视频理解、动态场景分析时,Transformer 的“硬扛”模式开始显露出明显局限。最
    • CoovallyAIHub
    • 35
    • 点赞
    算法 计算机视觉 深度学习
    为视觉建模注入物理灵魂:WaveFormer证明,下一站是“物理启发模型”
  • “看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型
    近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。从文本直接生成驾驶视频,到可控的4D动态场景合成,当前模型已经能够产出视觉上足以“以
    • CoovallyAIHub
    • 29
    • 点赞
    算法 计算机视觉 深度学习
    “看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型
  • 一步生成,像素空间,何恺明让 pMF 做到了
    何恺明团队最近抛出的这篇工作,多少有点“把老问题直接掀桌子重来”的味道。他们提出的 **Pixel MeanFlow(pMF) **,在不借助潜在空间、不依赖多步采样的前提下,只用一次前向传播,就生成
    • CoovallyAIHub
    • 49
    • 点赞
    算法 计算机视觉 深度学习
    一步生成,像素空间,何恺明让 pMF 做到了
  • $300/2天:Moltbot(原 Clawdbot) Token 消耗失控的技术根源
    Clawdbot因每次调用都发送完整系统提示、工具定义和全部历史,导致token消耗失控,用户两天花费300美元。优化方案包括启用缓存、压缩网页内容、动态选择工具和成本熔断,可降低成本70-90%。
    • 147API
    • 517
    • 点赞
    AIGC 深度学习
    $300/2天:Moltbot(原 Clawdbot) Token 消耗失控的技术根源
  • AI Agent 框架探秘:拆解 OpenHands(5)--- 交互&会话
    AI Agent 框架探秘:拆解 OpenHands(5)--- 交互&会话 0x00 概述 0x01 背景 1.1 会话的意义 1.2 会话系统的常见功能 1.3 Session 常见内容 1.4
    • 罗西的思考
    • 37
    • 点赞
    人工智能 深度学习
  • CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”
    人类在观察复杂场景时,通常会先快速扫视整体轮廓,形成初步认知,再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力(Top-down Attentio
    • CoovallyAIHub
    • 38
    • 点赞
    算法 计算机视觉 深度学习
    CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”
  • 测试里“无所不能”,一上线就“ bug 频出”,你的CV模型到底缺了什么?
    那个在象牙塔里从未失手的“学霸”,理论知识门门满分,实验操作无可挑剔。可当他第一次踏入纷繁复杂、充满意外的真实社会,却步步维艰,处处碰壁——这画面,是不是像极了如今许多计算机视觉领域那些光彩夺目的“高
    • CoovallyAIHub
    • 43
    • 点赞
    算法 计算机视觉 深度学习
    测试里“无所不能”,一上线就“ bug 频出”,你的CV模型到底缺了什么?
  • 告别CLIP局限!SSVP框架实现零样本异常检测,刷新7大数据集SOTA
    工业视觉检测一直是智能制造领域的关键技术,而零样本异常检测(ZSAD) 更是被视为行业的“圣杯”——无需针对特定产线进行训练,即可直接投入使用的理想解决方案。然而,现有基于视觉语言模型(如CLIP)的
    • CoovallyAIHub
    • 37
    • 点赞
    算法 计算机视觉 深度学习
    告别CLIP局限!SSVP框架实现零样本异常检测,刷新7大数据集SOTA
  • 【深度学习新手踩坑实录】(NLP实战)Word2Vec+Bi-LSTM搭建企业级恶意评论检测系统(附GitHub+数据集链接)
    想给简历加个 NLP 实战项目?本文记录了我从零搭建一个企业级规范的恶意评论检测系统的全过程。欢迎交流~
    • 柠柠酱
    • 37
    • 2
    深度学习 NLP 开源
    【深度学习新手踩坑实录】(NLP实战)Word2Vec+Bi-LSTM搭建企业级恶意评论检测系统(附GitHub+数据集链接)
  • AI Agent 深度解析:原理、架构与未来应用浪潮
    AI Agent(人工智能智能体)是一种能够感知环境、自主规划、调用工具并执行行动,以达成特定目标的智能系统。如果用人来类比,大语言模型(LLM)相当于“大脑”,负责思考与决策;而外部工具则如同“手脚
    • 香草泡芙
    • 558
    • 8
    人工智能 机器学习 深度学习
    AI Agent 深度解析:原理、架构与未来应用浪潮
  • 教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
    在视觉语言模型(VLMs)的发展进程中,文档 OCR 始终面临着布局解析复杂、语义逻辑对齐等核心挑战。传统模型大多采用固定的「左上到右下」栅格扫描顺序处理视觉 token,这种刚性流程与人类视觉系统遵
    • OpenBayes贝式计算
    • 36
    • 点赞
    深度学习 机器学习 人工智能
    教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
  • AI Agent 框架探秘:拆解 OpenHands(4)--- 服务
    AI Agent 框架探秘:拆解 OpenHands(4)--- 服务 0x00 概述 0x01 服务 1.1 API 模式 1.2 服务器组件 1.3 服务工作流程描述 1.4 listen_soc
    • 罗西的思考
    • 44
    • 点赞
    算法 人工智能 深度学习
  • 96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分
    在计算机视觉领域,基于骨架的人体动作识别一直备受关注。相比传统视频流,骨架数据不仅计算高效,还对环境光照、背景干扰有着天然的免疫力。然而,骨架模型也有自己的“心病”:由于缺乏物体信息和精细的体型特征,
    • CoovallyAIHub
    • 55
    • 点赞
    算法 计算机视觉 深度学习
    96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分
  • 下午好!
    点亮在社区的每一天

    推荐话题 换一换

    #挑战每日一条沸点#
    #挑战每日一条沸点#

    22.9m

    #过年啦#

    38k

    #晒晒你的摸鱼日常#
    #晒晒你的摸鱼日常#

    1.2m

    #每日快讯#

    9.8m

    #每日精选文章#

    3.4m

    #日新计划#

    10.7m

    #每天一个知识点#

    47.9m

    #工作中做得最正确的一件事#
    #工作中做得最正确的一件事#

    418k

    #掘金一周#

    1.5m

    #新人报道#

    38.9m

    查看更多
    • 用户协议
    • 营业执照
    • 隐私政策
    • 关于我们
    • 使用指南
    • 友情链接
    • 更多人工智能文章
    • 举报邮箱: feedback@xitu.io
    • 座机电话: 010-83434395
    • 京ICP备:18012699号-3
    • 京ICP证:京B2-20191272
    • police 京公网安备11010802026719号
    • ©2026 稀土掘金