从“脸盲”到“火眼金睛”：我用Qwen3.5教会AI看懂春晚同款机器人春晚人形机器人刷屏，你的 AI 能认出几个？基于

2026年开年，春晚舞台上，一群中国自主研发的人形机器人成为全场焦点。它们灵活起舞、精准互动，不仅引爆了国内社交媒体，更在全球科技圈掀起热议。这背后，正是人工智能的下一站——具身智能。

所谓具身智能，本质是让智慧的“大脑”与物理世界的“身体”深度融合，让算法真正具备改造现实的能力。而人形机器人，正是这一理念最直观的载体。

那么问题来了：当一张人形机器人图片摆在面前，大模型能准确识别它的型号、生产商和应用场景吗？

今天，我们通过一次完整实战，展示如何在LlamaFactory Online平台上，微调Qwen3.5-35B-A3B 多模态大模型，让它从“这是机器人”的泛泛而谈，进阶为能准确说出“这是宇树H1”的“机器人识别专家”。

为什么要选Qwen3.5-35B-A3B？

面对人形机器人识别这个任务，我们需要一个既看得懂图像、又理解专业知识的“多面手”。Qwen3.5系列恰好具备这样的基因：

● 视觉语言深度融合：在多模态Token上进行早期融合训练，在推理、编码、智能体和视觉理解等基准测试中，跨代际达到与 Qwen3 相当的水平，并超越Qwen3-VL模型。

● 高效架构极速推理：门控Delta 网络结合稀疏混合专家（Mixture-of-Experts）机制，在极低延迟和成本开销下实现高吞吐推理。

● 强化学习泛化适应：在百万级智能体环境中进行强化学习训练，任务分布逐步复杂化，从而实现强大的现实世界适应能力。

● 全球语言文化覆盖：支持扩展至201种语言和方言，实现包容性的全球部署，并具备细致入微的文化与区域理解能力。

● 训练设施效率跃升：相比纯文本训练，多模态训练效率接近100%，并采用异步强化学习框架，支持大规模智能体脚手架和环境编排。

这些特性，让它成为微调机器人识别任务的理想基座。

数据准备：让模型认识“真・机器人”

任何微调的第一步，都是准备高质量的“教材”。我们提供了一份机器人多轮对话数据集，每条样本由用户指令和模型回答组成，微调过程中模型不断学习样本中的回答风格，逐步掌握机器人识别的专业能力。

数据样例：

[  {    "messages": [      {        "role": "user",        "content": "<image>请识别并描述图片中的机器人及其特征，特别注意其型号、生产商及应用场景。"      },      {        "role": "assistant",        "content": "图片展示了由宇树科技生产的Unitree G1 (EDU)机器人。这款高性价比人形机器人以其卓越的运动性能和紧凑设计脱颖而出。它不仅支持灵活的折叠存放，极大节省空间，还能完成原地跳跃等复杂动作，展现了其先进的动力学控制能力。G1 (EDU)旨在为科研和教育领域提供一个开放且功能强大的平台，助力机器人技术的发展和创新人才的培养。"      }    ],
    "images": [
      "images/unitree_g1_1.png"
    ]
  }
]

第一步：数据格式转换

在LlamaFactory Online平台左侧选择“实例空间”，配置CPU资源即可开始处理。平台提供了VSCode和Jupyter两种工具，将原始数据转换为图文对的ShareGPT格式。

第二步：进行数据上传

LlamaFactory Online提供了JupyterLab上传、SFTP上传下载两种方式：

方式1（大数据量推荐）：

使用SFTP工具（如Cyberduck），通过加密连接安全传输。SFTP (SSH File Transfer Protocol) 是一种安全的文件传输协议，通过加密的 SSH 连接传输文件，可以通过“文件管理”的SFTP上传/下载功能，传输数据集、模型或您的其他文件到文件管理中。

方式2（小数据量可选）：

直接在JupyterLab中拖拽上传，简单快捷。JupyterLab具有直观的图形化界面，支持并排编辑多个文档和多种文件类型（Notebook(.ipynb)、脚本(.py)、Markdown、CSV 等），可以通过JupyterLab传输模型、数据集或其他文件。

第三步：数据集注册

在/workspace/llamafactory/data/dataset_info.json配置文件中配置如下内容，确保平台能正确识别数据格式和字段映射。

注册数据集alpaca_robot_en1 .json：

 "alpaca_robot_en": {
        "file_name": "/workspace/user-data/datasets/alpaca_robot_en.json",
        "formatting": "sharegpt",
        "columns": {
            "messages": "conversations",
            "images": "images"
        },
        "tags": {
            "role_tag": "from",
            "content_tag": "value",
            "user_tag": "user",
            "assistant_tag": "assistant"
        },
        "customized_status": 8,
        "total_tokens": "57242",
        "num_samples": "405",
        "avg_tokens": "141.34"
    }

注册数据集alpaca_robot_val_en .json：

"alpaca_robot": {
        "file_name": "/workspace/user-data/datasets/alpaca_robot.json",
        "formatting": "sharegpt",
        "columns": {
            "messages": "conversations",
            "images": "images"
        },
        "tags": {
            "role_tag": "from",
            "content_tag": "value",
            "user_tag": "user",
            "assistant_tag": "assistant"
        },
        "customized_status": 8,
        "total_tokens": "49205",
        "num_samples": "367",
        "avg_tokens": "134.07"
    }

在/workspace/llamafactory/data/dataset_info.json中追加数据集。

第四步：数据集检测

返回LlamaFactory Online控制台进入“文件管理”，进行数据集检测，若“数据集格式检测”结果显示“符合”，则表示数据集符合格式要求，检测通过后可在“训练数据-文件管理”选择该数据集进行微调、评估。

💡注意：

alpaca_robot数据集已在LlamaFactory Online平台预置，可在模型微调、模型评估页面“训练数据-公共数据”选择使用该数据集。

模型训练：一键启动，全程可视

LlamaFactory Online平台提供开箱即用的训练环境，在这里微调过程被简化到极致，您只需通过‘三步走’即可完成：选择模型与数据集、配置参数，一键发起微调。

1. 选择模型与数据集：基模型选Qwen3.5-35B-A3B，数据集选预置的alpaca_robot和alpaca_robot_en

2. 配置参数：采用LoRA微调方法，系统将根据所需资源及其相关参数，动态预估任务运行时长及微调费用

3. 一键启动：点击“开始训练”，任务提交成功

通过任务中心，可以实时查看训练进度、超参数和日志。更强大的是，平台集成了 SwanLab训练追踪，可以直观监控Loss曲线、系统资源等关键信息，让整个训练过程“透明可见”。

训练完成后，模型自动保存在文件管理中，路径清晰可查。

成果验收：它能认出机器人吗？

为了验证微调后的效果，我们进行了一场“面对面”测试：

测试点	原始 Qwen3.5 模型	微调后 Qwen3.5-Robot 专家
识别准确度	识别模糊，无法给出具体品牌和型号	精准识别出Unitree H1，并详述其运动性能
行业深度	描述偏通用（如：这是一个银色机器人）	具备行业专业度（如：提及科研教育应用场景）
幻觉控制	面对国产新型机器人易产生信息张冠李戴	信息准确，与微调数据集高度对齐

微调后模型：准确识别

随机上传一张机器人图片，提问：“请识别并描述图片中的机器人及其特征。”

微调后模型回答：

模型能够正确识别出图片中的机器人图片展示了由宇树科技 (Unitree Robotics) 生产的 Unitree H1 机器人，证明了微调的有效性。

原生模型：力不从心

同样的图片，同样的提问，未经过微调的模型表现如何？

原生模型回答：

它只能认出“这是机器人”，却无法给出具体的型号、厂商和应用场景——这正是通用模型与垂直领域专家的差距。

总结：让大模型真正“看懂”具身智能

通过本次实战，我们成功验证了：

1. LoRA微调的高效性：在LlamaFactory Online平台上，仅需简单几步，即可让通用大模型快速掌握垂直领域知识

2. Qwen3.5的视觉理解能力：其统一的视觉-语言基础，让人形机器人识别任务表现优异

3. 平台化工具的价值：从数据处理、模型训练到效果验证，全流程可视化、可追踪，大幅降低技术门槛

未来，LlamaFactory Online平台可以进一步利用真实业务数据集对模型进行针对性优化，让它在更复杂的场景中发挥作用——比如识别不同型号机器人的动作意图、理解特定工业场景的操作指令。

当大模型真正“看懂”人形机器人，具身智能的想象空间才刚刚打开。