人工智能 - 掘金

只改一个后缀，环境冲突全消失？这个“.onnx”魔法文件做到了

简化部署，统一标准，AI模型应用从未如此轻松你是否曾在尝试运行某个炫酷的AI模型时，被复杂的环境配置折磨得痛不欲生？ “这个模型需要PyTorch 1.9，但我环境里是2.0…” “什么？另一个模型

CoovallyAIHub
27
点赞

存储风暴下的边缘智能韧性：瑞芯微RK3588如何将供应链挑战转化为市场机遇

近期的全球存储市场波动，为高速发展的边缘AI产业上了一堂生动的“供应链安全”课。DDR4颗粒从短缺到价格暴涨，如同一面镜子，照出了不同技术路线的抗风险能力。在这场考验中，瑞芯微旗舰芯片RK3588及其

CoovallyAIHub
27
点赞

国产芯片“突围战”：从硬件追赶到生态繁荣，应用落地加速

上周，我们拆解了瑞芯微RK3588如何在DDR4短缺的“供应链微战争”中，凭借多内存支持的“技术韧性”化危为机，保障了边缘AI的稳定落地。将视线从这场具体的“战役”上移，我们会发现，一个更为宏大的“

CoovallyAIHub
30
点赞

量化技术：如何让你的 3D 模型和 AI 模型瘦身又飞快

本文深入解析量化技术在 3D 渲染和机器学习中的应用，讲解均匀与非均匀量化原理，介绍 Draco 与 MeshOpt 网格压缩库，并扩展到 PyTorch、TensorFlow 等模型量化实践。

站好了
1.7k
6

LeCun在Meta的最后绝唱？50行代码证明AI的另一种可能

就在AI界为Yann LeCun离职Meta的消息震惊时，一份意外的“告别礼物”悄然出现在arXiv上——这位图灵奖得主与Randall Balestriero合作的新论文《LeJEPA：一种简约且

CoovallyAIHub
61
点赞

去噪扩散模型，根本不去噪？何恺明新论文回归「去噪」本质

导读高质量的图像生成如今几乎都由扩散模型实现。从艺术创作到商业设计，从人脸生成到自然场景合成，基于扩散的生成模型已经成为多模态领域的重要基石。但有没有一种可能，「去噪扩散模型」实际上并没有做到「去

CoovallyAIHub
53
点赞

1.2MB超轻量模型实现草莓苗精准分级检测与定位，准确率超96%

在现代化的草莓育苗工厂中，一排排整齐的穴盘里孕育着成千上万的草莓幼苗。然而，一个长期困扰农户的难题是：如何快速准确地识别出哪些穴孔缺苗、哪些幼苗生长不良？传统的解决方式主要依赖人工肉眼识别，效率低下

智能体与小模型：AI迈向平民化的新浪潮

数百亿参数、庞大算力需求、昂贵的部署成本……当科技巨头们还在追求“更大更强”的AI模型时，一股反向而行的趋势正悄然兴起，并可能彻底改变人工智能的应用格局。过去一年，AI智能体（AI Agent）热度

CoovallyAIHub
84
点赞

超越像素的视觉：亚像素边缘检测原理、方法与实战

在计算机视觉领域，单个像素常常会成为我们测量能力的极限——但这并非无法突破。在计量学和精密机器人等领域，哪怕仅仅一个像素的误差，都可能转化为微米级的实际偏差。为了突破传感器物理极限，工程师们采用了一种

CoovallyAIHub
67
点赞

CV研究告别数据荒？PAN世界模型实现「多步推理与规划」，可自造高质量训练数据

导读你是否曾想象过，如果AI不仅能生成视频，还能像人类一样“想象”世界的演变、预测动作的后果、甚至进行多步推理与规划，会是怎样的情景？来自MBZUAI的PAN团队最新发布的PAN世界模型，正是这样

CoovallyAIHub
26
点赞

中科大西工大提出RSKT-Seg：精度速度双提升，开放词汇分割不再难

近年来，随着视觉-语言模型的快速发展，开放词汇分割（OVS）技术已成为自然图像处理领域的热点。这项技术让模型能够根据文本描述来分割任意类别的物体，打破了传统语义分割模型只能识别预设类别的限制。很自然

CoovallyAIHub
50
点赞

让Qwen-VL的检测能力像YOLO一样强，VLM-FO1如何打通大模型的视觉任督二脉

在当今多模态大模型（VLMs）飞速发展的时代，一个令人尴尬的问题依然存在：为什么这些能看懂图像、生成描述的模型，却难以精确地定位图像中的物体？答案在于一个根本性矛盾：让一个为语言生成而设计的模型，去

CoovallyAIHub
119
点赞

让Qwen-VL的检测能力像YOLO一样强，VLM-FO1如何打通大模型的视觉任督二脉

效率翻倍！“Deep Research”技术，如何让你从信息海洋中精准淘金？

信息海洋——为什么你的“研究”效率如此低下？想象一下一个世纪前的淘金者。他们最大的挑战是找到那条蕴藏黄金的河流。而今天，身为知识工作者的我们，面临着一个截然不同的困境：我们并非找不到河流，而是深陷一

智见AGI
71
点赞

突破跨模态识别瓶颈！火箭军工程大学提出MFENet：让AI在白天黑夜都能准确识人

想象这样一个安防场景：白天，监控摄像头（可见光模式）清晰地捕捉到一个人的影像；到了夜晚，摄像头自动切换到红外模式，画面变成了基于热辐射的黑白图像。对于人类来说，我们很容易判断这是同一个人，但对于AI系

CoovallyAIHub
84
点赞

突破跨模态识别瓶颈！火箭军工程大学提出MFENet：让AI在白天黑夜都能准确识人

结构化数据迎来“ChatGPT时刻”！LimitX：一个模型统一所有表格任务

在大语言模型如ChatGPT、GPT-4重塑自然语言处理范式，多模态模型征服图像、视频之后，人工智能的下一个前沿阵地正悄然浮现——结构化数据。我们日常接触的金融风控、医疗诊断、商业决策，背后都依赖于

CoovallyAIHub
51
点赞

搞定边缘AI部署：开源神器RamaLama，让视觉语言模型无处不在

人工智能的前沿不再只是数据中心；它在于工厂车间、零售店、公共基础设施以及我们周围的智能设备。推动这一转变的是视觉语言模型（VLM），这是一个革命性的人工智能，可以解释和推理图像和视频。潜力巨大，但任何

从图像导数到边缘检测：探索Sobel与Scharr算子的原理与实践

计算机视觉是一个分析图像和视频的广阔领域。虽然很多人一听到计算机视觉，首先想到的通常是机器学习模型，但实际上，还有很多其他现有算法，在某些情况下，它们表现得比人工智能还要好！在计算机视觉中，特征检测

一致性模型：单步生成高质量图像，破解扩散模型速度瓶颈

这篇名为《一致性模型》的论文提出了一类新的生成模型，能够一步到位地生成高质量图像，解决了扩散模型的主要瓶颈——采样过程慢、需要多次迭代。它的核心贡献在于证明了：在保持扩散模型强大表达能力和训练稳定性的

外科医生离手术世界模型还有多远？首次提出SurgVeo基准，揭示AI生成手术视频的惊人差距

外科医生离手术世界模型还有多远？首次提出SurgVeo基准，揭示AI生成手术视频的惊人差距近年来，视频生成领域的基石模型展现出作为潜在“世界模型”模拟物理世界的惊人能力。谷歌的Veo等模型已经能够生

CoovallyAIHub
56
点赞

【论文导读】ORB-SLAM3：An Accurate Open-Source Library for Visual, Visual-Inertial and

这篇论文主要做的是多传感器融合/视觉-惯性SLAM系统，提出了ORB-SLAM3，一个支持以下配置的开源SLAM系统，而不是基于深度学习的预测模型

惯导马工
1.4k
4