当AI拥有身体：GeekCon 2025上的一拳如何打碎了具身智能的安全幻觉？真正的具身智能，不仅要聪明，还要懂得遵守规

一、机器人被“说服”的那一刻

在今年的 GeekCon 2025上，一场关于具身智能控制的现场演示引发了轰动。研究者面对一台普通的服务机器人，只说了几句看似平常的话，几秒钟后，这台机器人居然停止听从原主人的命令，转而执行陌生人的指令，甚至试图将这些“命令”广播给附近的同型号设备。整个过程没有任何物理接触、没有破解设备，只是一段语音输入。

这不是魔术，而是一场现实中的安全攻防实验。短短几句话，就让机器人“倒戈”，揭示了一个AI时代的新风险：智能体（Agent）在面对复杂输入时，可能在不知不觉中被“说服”，从而失去控制。

二、什么是具身智能？

“具身智能”（Embodied Intelligence）可以理解为——让人工智能不仅能“思考”，还能够“行动”。

不同于纯软件AI（例如ChatGPT），具身智能系统拥有传感器、摄像头、语音接口、机械臂或轮式底盘等执行单元，能真正与现实环境互动。

在我们的生活中，具身智能已经无处不在：扫地机器人、自动驾驶汽车、智能仓储机械臂、家用助理机器人……它们的“大脑”往往是一个融合了语言模型、感知模块和决策逻辑的Agent系统。AI通过理解语音、视觉、环境信号，生成控制指令，从而驱动设备完成动作。但当AI获得了“身体”，风险边界也被重新定义。一个逻辑漏洞，不再只是屏幕上的Bug，而可能变成现实世界里的动作。

三、漏洞的本质：AI的“指令边界”被突破

本次GeekCon展示的核心，是一种新奇的攻击。研究者发现，部分具身智能系统在语音识别或自然语言解析阶段，没有严格区分“指令内容”与“语义上下文”，导致模型在理解过程中被诱导“越权”。

简单来说，机器人无法判断命令是否来自真正的主人，只要语言表达方式合理、语义结构符合它的理解规则，它就可能执行未经授权的高权限指令。这种漏洞并非程序错误，而是逻辑层面的信任缺陷。

更令人担忧的是，许多具身设备为了实现协作或同步更新，会通过蓝牙、Wi-Fi 或局域网自动通信。一旦一台设备被“欺骗”，它可能会将指令同步给周边设备，导致“感染链”式传播。就像计算机病毒那样，只不过这次感染的不是文件，而是物理行为。

四、攻击链：从一句话到完全接管

研究者对攻击过程进行了剖析，整条链路大致可以分为四步：

触发 —— 攻击者设计特定语音或传感数据，让AI误判为有效指令。
利用 —— 利用智能体内部的逻辑缺陷或越权路径，获取控制权限。
执行 —— 由于底层驱动层未进行安全校验，命令被直接执行。
传播 —— 被感染的设备通过协同通信机制，将“异常指令”广播给同型号设备。

整个过程几乎没有传统意义上的“入侵”痕迹，但效果堪比远程控制。它融合了提示注入（Prompt Injection）、逻辑欺骗与物理执行漏洞，是一种典型的“AI层漏洞+控制层漏洞”复合攻击。

五、为什么这类漏洞如此危险？

与传统软件漏洞不同，具身智能漏洞不止是“数据层面”的威胁。

一旦设备被控制，它可以执行物理动作：移动、夹取、投掷、推撞，甚至操控机械臂执行危险操作。更糟糕的是，它还能自动打开摄像头、麦克风，窃取隐私数据，或者修改网络配置、关闭防护机制。

如果这类设备部署在工业、物流、医疗等场景中，后果将远超信息安全事件的范畴。AI不再只是“说错话”，而是“动错手”——这也是具身智能时代安全的最大挑战。

六、漏洞的根源：智能与信任的失衡

问题的根源并不神秘。

一是输入信任边界模糊——系统把所有语音或文本都当成可信命令；

二是权限隔离缺失——智能体可以直接调用底层控制接口，没有二次确认机制；

三是行为缺乏审计——缺少日志和回滚机制，无法追溯“为什么做出这个动作”。

这些设计上的“偷懒”，大多出于提升用户体验或交互自然性的考虑。厂商希望机器人更聪明、更懂人话，却忽视了“听话”不等于“安全”。越能理解复杂指令的系统，也越容易被“语言陷阱”诱导。

七、结语：AI该听谁的命令？

GeekCon 2025 的这场演示，像一面镜子，映照出智能时代的真实风险。

我们正在进入一个AI“能动手”的时代。每一个决策，不再只影响虚拟数据，而是可能改变现实世界的状态。

真正的具身智能，不仅要聪明，还要懂得遵守规则。

安全，不是让AI变笨，而是让它在任何情况下都清楚——谁才是它真正应该听从的人。