从“脸盲”到“火眼金睛”:我用Qwen3.5教会AI看懂春晚同款机器人

0 阅读7分钟

2026年开年,春晚舞台上,一群中国自主研发的人形机器人成为全场焦点。它们灵活起舞、精准互动,不仅引爆了国内社交媒体,更在全球科技圈掀起热议。这背后,正是人工智能的下一站——具身智能

所谓具身智能,本质是让智慧的“大脑”与物理世界的“身体”深度融合,让算法真正具备改造现实的能力。而人形机器人,正是这一理念最直观的载体。

那么问题来了:当一张人形机器人图片摆在面前,大模型能准确识别它的型号、生产商和应用场景吗?

今天,我们通过一次完整实战,展示如何在LlamaFactory Online平台上,微调Qwen3.5-35B-A3B 多模态大模型,让它从“这是机器人”的泛泛而谈,进阶为能准确说出“这是宇树H1”的“机器人识别专家”。

为什么要选Qwen3.5-35B-A3B?

面对人形机器人识别这个任务,我们需要一个既看得懂图像、又理解专业知识的“多面手”。Qwen3.5系列恰好具备这样的基因:

● 视觉语言深度融合:在多模态Token上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际达到与 Qwen3 相当的水平,并超越Qwen3-VL模型。

● 高效架构极速推理:门控Delta 网络结合稀疏混合专家(Mixture-of-Experts)机制,在极低延迟和成本开销下实现高吞吐推理。

● 强化学习泛化适应:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而实现强大的现实世界适应能力。

● 全球语言文化覆盖:支持扩展至201种语言和方言,实现包容性的全球部署,并具备细致入微的文化与区域理解能力。

● 训练设施效率跃升:相比纯文本训练,多模态训练效率接近100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。

这些特性,让它成为微调机器人识别任务的理想基座。

数据准备:让模型认识“真・机器人”

任何微调的第一步,都是准备高质量的“教材”。我们提供了一份机器人多轮对话数据集,每条样本由用户指令和模型回答组成,微调过程中模型不断学习样本中的回答风格,逐步掌握机器人识别的专业能力。

数据样例:

[  {    "messages": [      {        "role": "user",        "content": "<image>请识别并描述图片中的机器人及其特征,特别注意其型号、生产商及应用场景。"      },      {        "role": "assistant",        "content": "图片展示了由宇树科技生产的Unitree G1 (EDU)机器人。这款高性价比人形机器人以其卓越的运动性能和紧凑设计脱颖而出。它不仅支持灵活的折叠存放,极大节省空间,还能完成原地跳跃等复杂动作,展现了其先进的动力学控制能力。G1 (EDU)旨在为科研和教育领域提供一个开放且功能强大的平台,助力机器人技术的发展和创新人才的培养。"      }    ],
    "images": [
      "images/unitree_g1_1.png"
    ]
  }
]

第一步:数据格式转换

LlamaFactory Online平台左侧选择“实例空间”,配置CPU资源即可开始处理。平台提供了VSCode和Jupyter两种工具,将原始数据转换为图文对的ShareGPT格式。

第二步:进行数据上传

LlamaFactory Online提供了JupyterLab上传、SFTP上传下载两种方式:

方式1(大数据量推荐):

使用SFTP工具(如Cyberduck),通过加密连接安全传输。SFTP (SSH File Transfer Protocol) 是一种安全的文件传输协议,通过加密的 SSH 连接传输文件,可以通过“文件管理”的SFTP上传/下载功能,传输数据集、模型或您的其他文件到文件管理中。

方式2(小数据量可选):

直接在JupyterLab中拖拽上传,简单快捷。JupyterLab具有直观的图形化界面,支持并排编辑多个文档和多种文件类型(Notebook(.ipynb)、脚本(.py)、Markdown、CSV 等),可以通过JupyterLab传输模型、数据集或其他文件。

第三步:数据集注册

在/workspace/llamafactory/data/dataset_info.json配置文件中配置如下内容,确保平台能正确识别数据格式和字段映射。

注册数据集alpaca_robot_en1 .json:

 "alpaca_robot_en": {
        "file_name": "/workspace/user-data/datasets/alpaca_robot_en.json",
        "formatting": "sharegpt",
        "columns": {
            "messages": "conversations",
            "images": "images"
        },
        "tags": {
            "role_tag": "from",
            "content_tag": "value",
            "user_tag": "user",
            "assistant_tag": "assistant"
        },
        "customized_status": 8,
        "total_tokens": "57242",
        "num_samples": "405",
        "avg_tokens": "141.34"
    }

注册数据集alpaca_robot_val_en .json:

"alpaca_robot": {
        "file_name": "/workspace/user-data/datasets/alpaca_robot.json",
        "formatting": "sharegpt",
        "columns": {
            "messages": "conversations",
            "images": "images"
        },
        "tags": {
            "role_tag": "from",
            "content_tag": "value",
            "user_tag": "user",
            "assistant_tag": "assistant"
        },
        "customized_status": 8,
        "total_tokens": "49205",
        "num_samples": "367",
        "avg_tokens": "134.07"
    }

在/workspace/llamafactory/data/dataset_info.json中追加数据集。

第四步:数据集检测

返回LlamaFactory Online控制台进入“文件管理”,进行数据集检测,若“数据集格式检测”结果显示“符合”,则表示数据集符合格式要求,检测通过后可在“训练数据-文件管理”选择该数据集进行微调、评估。

💡注意:

alpaca_robot数据集已在LlamaFactory Online平台预置,可在模型微调、模型评估页面“训练数据-公共数据”选择使用该数据集。

模型训练:一键启动,全程可视

LlamaFactory Online平台提供开箱即用的训练环境,在这里微调过程被简化到极致,您只需通过‘三步走’即可完成:选择模型与数据集、配置参数,一键发起微调。

1.  选择模型与数据集:基模型选Qwen3.5-35B-A3B,数据集选预置的alpaca_robot和alpaca_robot_en

2.  配置参数:采用LoRA微调方法,系统将根据所需资源及其相关参数,动态预估任务运行时长及微调费用

3.  一键启动:点击“开始训练”,任务提交成功

通过任务中心,可以实时查看训练进度、超参数和日志。更强大的是,平台集成了 SwanLab训练追踪,可以直观监控Loss曲线、系统资源等关键信息,让整个训练过程“透明可见”。

训练完成后,模型自动保存在文件管理中,路径清晰可查。

成果验收:它能认出机器人吗?

为了验证微调后的效果,我们进行了一场“面对面”测试:

测试点原始 Qwen3.5 模型微调后 Qwen3.5-Robot 专家
识别准确度识别模糊,无法给出具体品牌和型号精准识别出Unitree H1,并详述其运动性能
行业深度描述偏通用(如:这是一个银色机器人)具备行业专业度(如:提及科研教育应用场景)
幻觉控制面对国产新型机器人易产生信息张冠李戴信息准确,与微调数据集高度对齐

微调后模型:准确识别

随机上传一张机器人图片,提问:“请识别并描述图片中的机器人及其特征。”

微调后模型回答:

模型能够正确识别出图片中的机器人图片展示了由宇树科技 (Unitree Robotics) 生产的 Unitree H1 机器人 ,证明了微调的有效性。

原生模型:力不从心

同样的图片,同样的提问,未经过微调的模型表现如何?

原生模型回答:

它只能认出“这是机器人”,却无法给出具体的型号、厂商和应用场景——这正是通用模型与垂直领域专家的差距。

总结:让大模型真正“看懂”具身智能

通过本次实战,我们成功验证了:

1.  LoRA微调的高效性:在LlamaFactory Online平台上,仅需简单几步,即可让通用大模型快速掌握垂直领域知识

2.  Qwen3.5的视觉理解能力:其统一的视觉-语言基础,让人形机器人识别任务表现优异

3.  平台化工具的价值:从数据处理、模型训练到效果验证,全流程可视化、可追踪,大幅降低技术门槛

未来,LlamaFactory Online平台可以进一步利用真实业务数据集对模型进行针对性优化,让它在更复杂的场景中发挥作用——比如识别不同型号机器人的动作意图、理解特定工业场景的操作指令。

当大模型真正“看懂”人形机器人,具身智能的想象空间才刚刚打开。