9个视觉语言模型工厂实测：Qwen 87.9%碾压全场，你的显卡能跑哪个？同一批图片、同一条prompt、未裁剪的真实工

同一批图片、同一条prompt、未裁剪的真实工厂环境——奥地利克拉根福大学团队在双臂机器人纺织回收系统上硬测了9个VLM。结果：Qwen包揽前四，35b小模型打平235b大模型，Llama全线溃败。

先看结果

223张机器人实拍图，9个模型，5个家族，统一评判标准——排名如下：

截至目前，该项目已经获得了 2200+ Star 和 287 Fork，由前 Arcee AI 机器学习研究工程师 Prince Canuma 独立开发维护，在 Apple Silicon AI 社区具有极高的影响力。同系列项目 mlx-audio 更是拿下了 6100+ Star，形成了完整的 Apple Silicon AI 生态矩阵。

三个最值得记住的数字：87.9%——Qwen家族最高准确率，包揽前四名，最低的8b版本（83.9%）仍碾压所有非Qwen模型35b = 235b——qwen3.5:35b和qwen3-vl:235b准确率相同，但显存需求差6倍（24GB vs 143GB）76.2%—— RTX 3060（12GB）上实测部署的gemma3:12b准确率，同时它是唯一正确识别所有空场景的模型

论文信息

论文：Digital Twin–Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems作者：Serkan Ergun, Tobias Mitterer, Hubert Zangl机构：奥地利克拉根福大学智能系统技术研究所arXiv：2603.05230v1（2026年3月5日）资助：奥地利研究促进署(FFG) AdapTex项目 + 欧盟H2020 Arrowhead fPVN项目部署工具：Ollama（本地运行VLM的开源框架，附完整Python代码示例）数据：论文承诺正式发表后公开所有原始图像和标签下面拆解这些数字背后的细节。

VLM在工业场景到底能不能用？

传统检测模型（YOLO、RT-DETR）只能识别训练过的类别。遇到没见过的东西，要么无视，要么乱分类——绝不会告诉你"这个我不认识"。

VLM（视觉语言模型）不同：你用自然语言告诉它"桌上有没有衣服？是哪类？如果不是衣服，回答other"——它就能处理开放类别。零样本，不需要重新训练。

听起来很美好，但关键问题是：哪个模型最好？工厂里的消费级显卡跑得动吗？

克拉根福大学团队在一套真实的纺织回收机器人系统上回答了这些问题。为什么选纺织回收？因为欧盟将在2027年底前强制执行纺织品数字产品护照（DPP）制度，旧衣物回收分类是法规驱动的确定性需求。而这个场景对AI来说特别难——衣物是柔性物体、类内差异极大、异物混杂、类别不固定——最后一点正是VLM不可替代的地方。

实测条件：同一批图片、同一条prompt、未裁剪

公平性是横评的生命线。先看测试怎么设计的。测试数据：223张图片，全部在真实机器人系统中拍摄。机器人从杂乱的篮子里抓取衣物放到检测台上，Cam2拍照。图像未裁剪——地面上有干扰物，测的是真实环境鲁棒性。类别分布：**统一prompt**（论文公开了完整代码）：`

response = ollama.chat(    
    model='model-name',    
    messages=[        
        {"role": "system", "content":  "You are an intelligent robotic arm."}, 
        {"role": "user", "content":            
        "Do you spot a clothing item on the table? "            
        "If yes: Classify them in the classes: "            
        "shirt, sock, underwear or trousers. "            
        "Do you see something else instead? respond with other. "            
        "Is the table empty? respond with empty. "
        "Your response is a single word - either "           
        "shirt, sock, underwear, trousers, other or empty",        
      "images": [fullPathToImages]}   
        ]
 )

判定标准：模型回答必须是精确的单词匹配。回答"Shirt"算对（忽略大小写），但回答"It appears to be a shirt"算错。这很严格，但反映了工业场景的真实需求——你要的是结构化输出，不是聊天。

硬件：

边缘端：RTX 3060（12GB VRAM）——工厂级硬件

云端：NVIDIA H200（144GB VRAM）——数据中心级

五个残酷的发现

发现一：Qwen全面碾压，没有悬念

Qwen家族的4个模型包揽前四名，最低的qwen3-vl:8b（83.9%）都比非Qwen最高的gemma3:12b（76.2%）高出近8个百分点。更值得关注的是异物检测能力。在纺织回收场景中，检出"不是衣服的东西"比分对衣服类别更重要——一个金属异物混进后续流程可能损坏设备。Qwen系列在Other类上的准确率高达90-95%，这在安全敏感场景中意义重大。发现二：35b小模型 = 235b大模型（准确率相同）

最反常识的结果：qwen3.5:35b 和 qwen3-vl:235b 准确率一样，都是87.9%。但它们的硬件需求天差地别：

这意味着：在这个任务上，你完全不需要数据中心级GPU。 一张高端消费卡就能达到最优准确率。

当然，35b模型的推理时间更长（12.3s vs 2.4s），但论文指出这可能是非稳定版Ollama导致的。实际性能待正式版验证。

发现三：RTX 3060 实测部署的是 Gemma3

如果你的硬件预算更紧——比如工厂里只有RTX 3060（12GB VRAM）——论文团队在实际实验中选择部署的是gemma3:12b。

它是这次测试中唯一在RTX 3060上完成实时部署实验的模型。表现如何？

76.2%的准确率不算惊艳，但有两个亮点：1. 它是唯一正确识别所有空场景的模型——其他模型（包括Qwen系列）在空场景上都有幻觉问题，会"看到"不存在的东西2. 推理速度快且稳定——0.65s/帧，P10到P90的波动很小论文的结论很务实：如果你追求准确率，用Qwen；如果你追求速度和低硬件需求，用Gemma3。甚至可以组合使用——先用Gemma3快速筛选，对不确定的再调Qwen复核。

发现四：Llama系列翻车——参数多不等于效果好

这次测试中最意外的失败者是 llama3.2-vision:90b。90b参数量，结果准确率只有60.1%，倒数第二。它的问题不只是准确率低，而是有一个很致命的行为特征：连续看到同类物品后会产生"惯性幻觉"。具体来说：如果前面连续几张图都是袜子，下一张图放一条裤子上去，它大概率还会说"sock"。它似乎会被之前的上下文"带偏"。在学术评测中这可能只是个统计数字，但在工业场景中这是不可接受的——你不能因为前面分拣了一批袜子，就把后面的裤子也扔进袜子堆里。Llama4（16x17b MoE架构）表现稍好一些（71.3%），但依然远低于Qwen系列。

发现五：指令遵从能力是隐藏的关键指标

论文要求所有模型只回答一个单词（shirt/sock/trousers/underwear/other/empty）。这个要求非常简单，但 llava:34b 经常做不到——它会返回完整的句子描述，比如：

"The image shows a piece of green fabric... industrial machine or equipment."

这在学术角度看可能"语义上是对的"，但在工业系统中完全没法用——你的下游逻辑需要一个确定的分类标签来决定机器人动作，不是一段自由文本。

指令遵从能力（instruction following）在学术benchmark中很少被重点评估，但在工业应用中是一个硬性门槛。 如果模型不能稳定输出结构化结果，后续自动化流程就无法运行。

不只是VLM：这套系统的完整技术链

VLM横评是最有传播价值的部分，但这套系统本身的工程设计也有很多值得学的地方。

系统全貌

两台UR7e机器人（团队给它们起名Alice和Bob），Alice负责抓取和搬运，Bob负责后续分拣。整条链路：

杂乱篮子 → CNN抓取预测(150ms) → Alice抓取 → 触觉传感验证
→ 甩动去夹带 → 拖拽展平 → 放到检测台 → VLM分类(0.4-2.4s)
→ Alice再抓取 → 交给Bob → Bob放入对应容器

全程自动化，没有人工介入。

数字孪生：不是噱头

"数字孪生"在很多项目里是PPT概念。但在这套系统里，它解决了一个非常实际的问题：碰撞避让。

机器人要在检测台上方抓取软趴趴的衣物，如果不知道衣物的3D形状和位置，手臂可能会撞到衣物或桌面。数字孪生的做法是：

这不是"先在仿真里跑一遍再到真实环境"——而是实时同步：真实环境变了，数字孪生立刻跟着变，路径立刻重新规划。

触觉传感：确认"抓没抓到"

机器人抓柔性物体最头疼的问题之一是：你怎么知道它真的抓住了？视觉不一定看得出来——衣物颜色可能和背景接近，或者手指挡住了视线。

团队用了自研的CapTac电容式触觉指尖传感器。原理是通过电容值变化检测法向力和剪切力。抓到东西，电容值变化大；没抓到或滑落，电容值回到基线。

这比纯视觉判断可靠得多。论文中提到，整个实验过程中没有出现"以为抓到了其实没抓到"导致检测台空置的情况。

甩动+拖拽展平："物理世界的数据预处理"

这是我觉得最有意思的设计。

从杂乱篮子里抓出来的衣物往往是团在一起的，而且可能夹带着其他衣物。直接放到检测台上，VLM根本看不清。

团队的解决方案纯靠物理操作：1.甩动：Alice抓着衣物用腕关节甩两下，让夹带的衣物靠惯性落回篮子拖拽2.展平：把衣物拉过检测台边缘，利用重力和桌面摩擦力自然展开这本质上是在物理世界做"数据预处理"——让VLM看到的输入图像质量更高。而且这招对大件衣物效果不好（裤子太大，难以完全展平），论文也指出单机器人操作导致大件衣物无法理想放置，这也解释了为什么大多数模型在裤子上的准确率普遍偏低。

对AI从业者的三个信号

信号一：VLM替代传统CV的拐点正在到来，但还没到

这次测试的最高准确率是87.9%。作为参考，传统YOLO系列在有充足训练数据的固定类别检测任务上，准确率通常可以做到95%+。如果你的任务是类别固定、训练数据充足的标准检测/分类——传统CV模型仍然是更好的选择。更快、更准、更省资源。但如果你的场景有以下特征之一，VLM就值得认真考虑：这篇论文最有价值的启示是：不是用VLM替代传统CV，而是让它们各司其职。论文中CNN负责抓取预测（150ms，高速高精度），VLM负责开放类别分类（0.4-2.4s，语义能力强）。两者协作，而非互相替代。

信号二：边缘部署的显存墙是真实瓶颈

边缘部署的显存墙是真实瓶颈工厂里不会给你H200。甚至4090都不一定有。现实中你可能只有一张RTX 3060或4060。在这个约束下，你的选择非常有限：

76%和88%之间有12个百分点的差距，而这个差距的代价是显存翻倍。 这是边缘部署必须面对的trade-off。

一个可能的工程方案：用Gemma3做实时初筛（快、省），对置信度低的样本再调Qwen做二次确认（准、慢）。 论文也提到了这个思路——用多个VLM组合加权，取长补短。

信号三：欧盟DPP法规创造确定性需求

2027年欧盟纺织品数字产品护照强制执行，旧衣物回收分类是刚需场景。这不是"可能有市场"，而是法规驱动的确定性需求。

对于做AI出海、或者服务有欧洲业务的企业来说，这是一个值得关注的信号：

这正好是"VLM + 边缘部署 + 机器人"的应用场景。

写在最后

这篇论文真正回答的问题是：1. VLM在工业场景能不能用？能，最高87.9%，异物检测>90%2. 哪个模型最好？ Qwen，全面领先
3. 工厂里的普通显卡能跑吗？ 12GB实测部署了Gemma3，24GB能跑Qwen3.5:35b4. 什么时候该用VLM而不是传统CV？需要识别未知类别/零样本/灵活更改规则时5. VLM最大的坑是什么？幻觉、不听指令、大件物体识别差这些答案不只适用于纺织回收，而是适用于每一个正在考虑"要不要在工业场景中引入VLM"的团队。你在项目中用过VLM做分类或检测吗？用的哪个模型？效果如何？欢迎评论区交流。

9个视觉语言模型工厂实测：Qwen 87.9%碾压全场，你的显卡能跑哪个？