人工智能 - 掘金

YOLO26-Pose 深度解读：端到端架构重新设计，姿态估计凭什么跨代领先？

什么是姿态估计？为什么它越来越重要？姿态估计（Pose Estimation）是一种用于检测和追踪图像或视频帧中特定关键点的技术。这些关键点代表着结构性地标——人体关节、动物肢体、机械部件、甚至场景

CoovallyAIHub
28
点赞

CVPR 2026 | MixerCSeg：仅2.05 GFLOPs刷新四大裂缝分割基准！解耦Mamba隐式注意力，CNN+Transformer+Mamba三

这篇论文为什么值得读？ 695 GFLOPs vs 2 GFLOPs。同一个裂缝分割任务，精度更高，计算量只有别人的 0.3%。如果你做过工业视觉部署，你知道这意味着什么——一个原本只能跑在 A1

CoovallyAIHub
14
点赞

CVPR 2026 | MixerCSeg：仅2.05 GFLOPs刷新四大裂缝分割基准！解耦Mamba隐式注意力，CNN+Transformer+Mamba三

化工厂气体泄漏怎么用AI检测？30张图3D重建气体泄漏场景——美国国家实验室NeRF新研究

数据：DIRSIG合成LWIR HSI，128通道（7.8-13.4µm），SF6气体，231张图像核心指标（30张训练图像）：PSNR 39.6dB，气体检测AUC 0.821，检出率55.7%

CoovallyAIHub
31
点赞

化工厂气体泄漏怎么用AI检测？30张图3D重建气体泄漏场景——美国国家实验室NeRF新研究

OpenClaw 近 2000 个 Skills，为什么没有一个好用的视觉检测工具？

OpenClaw，212K Star，GitHub 历史第一。中国部署量全球第一。字节、阿里、腾讯争着上线云服务。 Skills 社区接近 2000 个技能包，从写代码到发邮件，从浏览器自动化到数据

CoovallyAIHub
103
点赞

OpenClaw 近 2000 个 Skills，为什么没有一个好用的视觉检测工具？

Claude Code 突然变成了 66 个专家？这个 5.8k Star 的开源项目，让我重新理解了什么叫"会用 AI"

前两天在 GitHub 上刷到一个项目，看完之后说实话——沉默了大概三秒钟。不是因为技术多炸裂，而是因为它让我意识到：大多数人用 Claude Code，可能只用了它 5% 的能力。这个项目叫 c

CVPR 2026 | 用一句话告诉 AI 分割什么——MedCLIPSeg 让医学图像分割不再需要海量标注

假设你是一名放射科医生。你面前有一张乳腺超声图像，你需要 AI 帮你标出肿瘤边界。传统方法：你需要先准备几千张标注好的图像来训练模型，换个器官就得从头再来，换个医院的设备可能就不准了。 MedCL

CoovallyAIHub
15
点赞

CVPR 2026 | 用一句话告诉 AI 分割什么——MedCLIPSeg 让医学图像分割不再需要海量标注

181小时视频丢给GPT-5，准确率只有15%——南大联合NVIDIA等五校发布多模态终身理解数据集

南京大学联合NVIDIA、浙江大学、上海交通大学、东京大学发布MM-Lifelong数据集，定义"多模态终身理解"新任务。181.1小时视频横跨三个时间尺度，GPT-5只能采样50帧来处理，准确率14

CoovallyAIHub
52
点赞

181小时视频丢给GPT-5，准确率只有15%——南大联合NVIDIA等五校发布多模态终身理解数据集

CVPR 2026 | GS-CLIP：3D几何先验+双流视觉融合，零样本工业缺陷检测新SOTA，四大3D工业数据集全面领先！

论文标题：GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Represent

CoovallyAIHub
26
点赞

CVPR 2026 | GS-CLIP：3D几何先验+双流视觉融合，零样本工业缺陷检测新SOTA，四大3D工业数据集全面领先！

PyTorch 深度学习——Transformer 是如何工作的

本章涵盖以下内容对文本生成问题的解释对无监督学习的介绍使用注意力机制学习结构从简单概率模型逐步构建到深度学习模型 Transformer 架构及其变体与应用尽管前面几章已经展示了深度学习在回

PyTorch 深度学习——使用神经网络来拟合数据

本章涵盖以下内容激活函数：神经网络与线性模型之间的关键差异使用 PyTorch 的 nn 模块用神经网络求解线性拟合问题到目前为止，我们已经仔细考察了线性模型是如何学习的，以及如何在 PyTo

PyTorch 深度学习——使用张量表示真实世界数据

本章涵盖以下内容将真实世界数据表示为 PyTorch 张量处理多种数据类型从文件中加载数据将数据转换为张量调整张量形状，使其能够作为神经网络模型的输入在上一章中，我们已经学到，张量是 Py

PyTorch 深度学习——它始于一个张量

本章涵盖以下内容理解张量——PyTorch 中的基础数据结构对张量进行索引与运算与 NumPy 多维数组进行互操作将计算迁移到 GPU 上以提升速度在上一章中，我们概览了深度学习所能实现的众

ICLR2026 | 视频虚化新突破！Any-to-Bokeh 一键生成电影感连贯效果

Any-to-Bokeh 一键式视频虚化工具，无需复杂操作无需专业操作即可生成电影感虚化效果。论文已被 ICLR2026 接收。

Moonshine：比 Whisper 快 100 倍的端侧语音识别神器，Star 6.6K！

告别云端 API，语音识别也能跑在树莓派上？还在为语音识别的高延迟、隐私泄露、API 调用费用发愁吗？来自 Moonshine AI 的开源项目 Moonshine Voice 给出了一个令人惊艳的

CoovallyAIHub
171
点赞

Moonshine：比 Whisper 快 100 倍的端侧语音识别神器，Star 6.6K！

语音AI Agent编排框架！Pipecat斩获10K+ Star，60+集成开箱即用，亚秒级对话延迟接近真人反应速度！

一个开源框架，用几行Python代码就能搭出能"听"、能"说"、还能"看"的实时对话AI智能体——这就是 Daily.co 团队开源的 Pipecat。这个项目到底是干嘛的？一句话概括：Pipec

OpenClaw一脚踩碎传统CV？机器终于不再只是看世界

如果你是一名计算机视觉的研究者，过去几年大概已经习惯了这样一种节奏：ImageNet分类准确率又涨了0.1%，某个新Backbone在COCO上刷了新高，某个Transformer变体能更好地理解图片

CoovallyAIHub
105
点赞

速度暴涨10倍、成本暴降6倍！Mercury 2用扩散取代自回归，重新定义LLM推理速度

等AI回消息的间隙，你是切出去刷了个短视频，还是盯着屏幕数它蹦出来的字？现在的GPT、Claude、Gemini，看着聪明，骨子里其实都是老式打字员——一个字接一个字往外敲，前一个不落地，后一个就得干

CoovallyAIHub
51
点赞

速度暴涨10倍、成本暴降6倍！Mercury 2用扩散取代自回归，重新定义LLM推理速度

仅凭单目相机实现3D锥桶定位？UNet-RKNet破解自动驾驶锥桶检测难题

在自动驾驶赛道场景中，锥桶定位是车辆路径规划的基础任务。然而，传统方案面临着成本高昂、Z轴误差大、计算复杂三大痛点。最新提出的UNet-RKNet架构首次将UNet应用于3D锥桶关键点回归任务，仅需单

CoovallyAIHub
40
点赞

从春晚机器人到零样本革命：YOLO26-Pose姿态估计实战指南

春晚舞台上，机器人群体的整齐划一令人惊叹——但如果想让机器人真正理解并模仿人类的复杂动作，我们需要怎样的视觉技术？当16台机器人在春晚舞台上旋转跳跃时，它们的每一个动作都经过工程师数月精心编排。然而

CoovallyAIHub
84
点赞

详解Visual Transformer (ViT)网络模型

1. 简介 ViT是2020年Google团队提出的将Transformer应用在图像分类的模型。 ViT原论文中最核心的结论是，当拥有足够多的数据进行预训练的时候，ViT的表现就会超过CNN

蜗牛不会算法
32
点赞