2026年开年,春晚舞台上,一群中国自主研发的人形机器人成为全场焦点。它们灵活起舞、精准互动,不仅引爆了国内社交媒体,更在全球科技圈掀起热议。这背后,正是人工智能的下一站——具身智能。
所谓具身智能,本质是让智慧的“大脑”与物理世界的“身体”深度融合,让算法真正具备改造现实的能力。而人形机器人,正是这一理念最直观的载体。
那么问题来了:当一张人形机器人图片摆在面前,大模型能准确识别它的型号、生产商和应用场景吗?
今天,我们通过一次完整实战,展示如何在LlamaFactory Online平台上,微调Qwen3.5-35B-A3B 多模态大模型,让它从“这是机器人”的泛泛而谈,进阶为能准确说出“这是宇树H1”的“机器人识别专家”。
为什么要选Qwen3.5-35B-A3B?
面对人形机器人识别这个任务,我们需要一个既看得懂图像、又理解专业知识的“多面手”。Qwen3.5系列恰好具备这样的基因:
● 视觉语言深度融合:在多模态Token上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际达到与 Qwen3 相当的水平,并超越Qwen3-VL模型。
● 高效架构极速推理:门控Delta 网络结合稀疏混合专家(Mixture-of-Experts)机制,在极低延迟和成本开销下实现高吞吐推理。
● 强化学习泛化适应:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而实现强大的现实世界适应能力。
● 全球语言文化覆盖:支持扩展至201种语言和方言,实现包容性的全球部署,并具备细致入微的文化与区域理解能力。
● 训练设施效率跃升:相比纯文本训练,多模态训练效率接近100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。
这些特性,让它成为微调机器人识别任务的理想基座。
数据准备:让模型认识“真・机器人”
任何微调的第一步,都是准备高质量的“教材”。我们提供了一份机器人多轮对话数据集,每条样本由用户指令和模型回答组成,微调过程中模型不断学习样本中的回答风格,逐步掌握机器人识别的专业能力。
数据样例:
[ { "messages": [ { "role": "user", "content": "<image>请识别并描述图片中的机器人及其特征,特别注意其型号、生产商及应用场景。" }, { "role": "assistant", "content": "图片展示了由宇树科技生产的Unitree G1 (EDU)机器人。这款高性价比人形机器人以其卓越的运动性能和紧凑设计脱颖而出。它不仅支持灵活的折叠存放,极大节省空间,还能完成原地跳跃等复杂动作,展现了其先进的动力学控制能力。G1 (EDU)旨在为科研和教育领域提供一个开放且功能强大的平台,助力机器人技术的发展和创新人才的培养。" } ],
"images": [
"images/unitree_g1_1.png"
]
}
]
第一步:数据格式转换
在LlamaFactory Online平台左侧选择“实例空间”,配置CPU资源即可开始处理。平台提供了VSCode和Jupyter两种工具,将原始数据转换为图文对的ShareGPT格式。
第二步:进行数据上传
LlamaFactory Online提供了JupyterLab上传、SFTP上传下载两种方式:
方式1(大数据量推荐):
使用SFTP工具(如Cyberduck),通过加密连接安全传输。SFTP (SSH File Transfer Protocol) 是一种安全的文件传输协议,通过加密的 SSH 连接传输文件,可以通过“文件管理”的SFTP上传/下载功能,传输数据集、模型或您的其他文件到文件管理中。
方式2(小数据量可选):
直接在JupyterLab中拖拽上传,简单快捷。JupyterLab具有直观的图形化界面,支持并排编辑多个文档和多种文件类型(Notebook(.ipynb)、脚本(.py)、Markdown、CSV 等),可以通过JupyterLab传输模型、数据集或其他文件。
第三步:数据集注册
在/workspace/llamafactory/data/dataset_info.json配置文件中配置如下内容,确保平台能正确识别数据格式和字段映射。
注册数据集alpaca_robot_en1 .json:
"alpaca_robot_en": {
"file_name": "/workspace/user-data/datasets/alpaca_robot_en.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"images": "images"
},
"tags": {
"role_tag": "from",
"content_tag": "value",
"user_tag": "user",
"assistant_tag": "assistant"
},
"customized_status": 8,
"total_tokens": "57242",
"num_samples": "405",
"avg_tokens": "141.34"
}
注册数据集alpaca_robot_val_en .json:
"alpaca_robot": {
"file_name": "/workspace/user-data/datasets/alpaca_robot.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"images": "images"
},
"tags": {
"role_tag": "from",
"content_tag": "value",
"user_tag": "user",
"assistant_tag": "assistant"
},
"customized_status": 8,
"total_tokens": "49205",
"num_samples": "367",
"avg_tokens": "134.07"
}
在/workspace/llamafactory/data/dataset_info.json中追加数据集。
第四步:数据集检测
返回LlamaFactory Online控制台进入“文件管理”,进行数据集检测,若“数据集格式检测”结果显示“符合”,则表示数据集符合格式要求,检测通过后可在“训练数据-文件管理”选择该数据集进行微调、评估。
💡注意:
alpaca_robot数据集已在LlamaFactory Online平台预置,可在模型微调、模型评估页面“训练数据-公共数据”选择使用该数据集。
模型训练:一键启动,全程可视
LlamaFactory Online平台提供开箱即用的训练环境,在这里微调过程被简化到极致,您只需通过‘三步走’即可完成:选择模型与数据集、配置参数,一键发起微调。
1. 选择模型与数据集:基模型选Qwen3.5-35B-A3B,数据集选预置的alpaca_robot和alpaca_robot_en
2. 配置参数:采用LoRA微调方法,系统将根据所需资源及其相关参数,动态预估任务运行时长及微调费用
3. 一键启动:点击“开始训练”,任务提交成功
通过任务中心,可以实时查看训练进度、超参数和日志。更强大的是,平台集成了 SwanLab训练追踪,可以直观监控Loss曲线、系统资源等关键信息,让整个训练过程“透明可见”。
训练完成后,模型自动保存在文件管理中,路径清晰可查。
成果验收:它能认出机器人吗?
为了验证微调后的效果,我们进行了一场“面对面”测试:
| 测试点 | 原始 Qwen3.5 模型 | 微调后 Qwen3.5-Robot 专家 |
|---|---|---|
| 识别准确度 | 识别模糊,无法给出具体品牌和型号 | 精准识别出Unitree H1,并详述其运动性能 |
| 行业深度 | 描述偏通用(如:这是一个银色机器人) | 具备行业专业度(如:提及科研教育应用场景) |
| 幻觉控制 | 面对国产新型机器人易产生信息张冠李戴 | 信息准确,与微调数据集高度对齐 |
微调后模型:准确识别
随机上传一张机器人图片,提问:“请识别并描述图片中的机器人及其特征。”
微调后模型回答:
模型能够正确识别出图片中的机器人图片展示了由宇树科技 (Unitree Robotics) 生产的 Unitree H1 机器人 ,证明了微调的有效性。
原生模型:力不从心
同样的图片,同样的提问,未经过微调的模型表现如何?
原生模型回答:
它只能认出“这是机器人”,却无法给出具体的型号、厂商和应用场景——这正是通用模型与垂直领域专家的差距。
总结:让大模型真正“看懂”具身智能
通过本次实战,我们成功验证了:
1. LoRA微调的高效性:在LlamaFactory Online平台上,仅需简单几步,即可让通用大模型快速掌握垂直领域知识
2. Qwen3.5的视觉理解能力:其统一的视觉-语言基础,让人形机器人识别任务表现优异
3. 平台化工具的价值:从数据处理、模型训练到效果验证,全流程可视化、可追踪,大幅降低技术门槛
未来,LlamaFactory Online平台可以进一步利用真实业务数据集对模型进行针对性优化,让它在更复杂的场景中发挥作用——比如识别不同型号机器人的动作意图、理解特定工业场景的操作指令。
当大模型真正“看懂”人形机器人,具身智能的想象空间才刚刚打开。