96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分

59 阅读7分钟

在计算机视觉领域,基于骨架的人体动作识别一直备受关注。相比传统视频流,骨架数据不仅计算高效,还对环境光照、背景干扰有着天然的免疫力。然而,骨架模型也有自己的“心病”:由于缺乏物体信息和精细的体型特征,它很难分清那些动作极其相似的行为,比如“读书”和“写字”、“喝水”和“擦嘴”。

为了解决这一难题,中国科学院、中国科学院大学、北京邮电大学以及月之暗面等机构的研究者们联合提出了一种名为 ACLNet 的新框架,全称为 亲和对比学习网络。

该研究已被IEEE生物识别、行为与身份科学汇刊(T-BIOM 2026)录用,相关代码已在GitHub开源。

图片1.png

论文地址: arxiv.org/abs/2601.16…

代码仓库: github.com/firework8/A…

传统对比学习的局限

当前的骨架识别方法大多采用通用对比学习范式:让同类样本靠拢,异类样本远离。这种看似完美的方案在实际应用中存在两个关键痛点:

  1. 忽视了类间的结构共性: 有些动作虽然类别不同,但运动模式高度相似。比如“读书”和“喝水”都有手部向头部靠拢的轨迹。如果只是简单地把它们推开,模型很难学到真正细微的判别特征。
  2. 类内异常样本的干扰: 由于拍摄角度、动作幅度差异,同一类动作里可能存在“离群”的正样本。这些样本容易与相似类别的负样本混淆,导致模型在特征空间中产生错误的聚类。

图片2.png

ACLNet:引入“亲和力”的新视角

为了应对上述挑战,ACLNet提出了两套核心策略:类间亲和对比学习 和 类内边缘对比学习。

  • 核心架构与流程

ACLNet的整体流程清晰明了:

输入:包含N帧、V个关节、每关节C维特征的原始骨架序列

处理:利用图卷积网络提取时空特征,通过投影层映射到256维对比特征空间

输出:一方面通过分类头输出动作预测标签,另一方面通过亲和对比学习损失函数优化特征分布

图片3.png

  • 创新点1:寻找“动作家族”

ACLNet的妙招在于引入亲和相似度概念,不再只看两个类别是否直接混淆,还会考察它们是否拥有共同的“朋友圈”。

具体计算分两步:

直接关联:通过混淆矩阵统计易混淆类别

间接关联:如果类别A和B都经常被误判为类别C,则A和B存在隐藏的结构共性

通过这种方式,模型将具有相似运动模式的类别聚合成一个个动作家族。在训练时,模型会针对家族内部成员进行更有针对性的对比优化。

配合这一概念,作者还设计了族群感知温度调度:当家族规模较小时,使用较小温度值放大硬负样本差异;家族规模较大时,适当放宽条件保持聚类稳定性。这种“因材施教”的策略让模型在不同粒度上都能保持敏锐。

  • 创新点2:强力分离硬样本

针对类内异常样本,ACLNet引入类内边缘对比损失。它在正负样本之间强行加入边缘约束,即使某个正样本长得很像负样本,模型也会强制拉开它们之间的距离,实现更稳健的特征分离。

性能表现:刷榜多项主流数据集

ACLNet在六大主流基准数据集上展现出稳健性能:

  • 动作识别任务
  • NTU RGB+D 60:X-Sub准确率93.6%,刷新SOTA记录
  • NTU RGB+D 120:X-Sub准确率90.7%,同样达到SOTA水平
  • Kinetics-Skeleton:Top-1准确率52.1%,相比之前的SOTA方法DS-GCN有明显提升
  • FineGYM:细粒度动作识别准确率达96.0%,证明其在区分极细微动作差异方面的卓越能力

图片4.png

图片5.png

图片6.png

图片7.png

图片8.png

  • 生物特征识别任务
  • CASIA-B步态识别:平均准确率88.5%
  • 行人重识别:N-N设置下达到82.8%

图片9.png

图片10.png

实验中的有趣发现

  • “动作家族”可视化

消融实验中展示了“动作家族”的直观案例。比如“读书”和“穿夹克”这两个动作,模型通过亲和力建模,精准捕捉到了它们在手部和手臂轨迹上的结构共性。

图片11.png

  • 超参数敏感性

模型对边缘约束和损失权重的选择非常讲究。实验表明,当边缘约束设为0.3且权重为0.1时,模型能达到最优平衡。这说明适度的约束比过度惩罚更能引导模型学习到泛化性强的特征。

图片12.png

  • 对噪声数据的鲁棒性

ACLNet对噪声数据表现出极强的鲁棒性。在模拟遮挡的极端情况下(如缺少双臂或双腿),ACLNet的识别准确率依然大幅领先传统模型。

例如在缺少“双手”的情况下,ACLNet仍能保持79.6%的准确率,而经典模型MS-G3D仅剩17.1%。

图片13.png

  • 攻克相似动作“深水区”

类间改进差异分析显示,ACLNet提升最明显的正是传统模型最头疼的“重灾区”,如“打喷嚏/咳嗽”、“读书”和“打字”。这些动作在骨架空间中极其接近,但ACLNet通过亲和力约束,在特征空间中开辟了专属领地。

图片14.png

t-SNE可视化显示,随着训练进行,原本混杂的相似动作在特征空间中逐渐分离,聚类变得更加紧凑清晰。

图片15.png

结论

本文提出ACLNet——一种基于骨架的人类活动理解亲和对比学习网络。具体而言,我们的方法通过两大创新突破了现有技术的局限:首先引入亲和相似性概念,用于建模难分类别的语义关系,并通过跨类亲和学习实现针对性优化; 其次,我们提出边缘对比策略,通过显式控制困难正样本与负样本的分离度,增强了模型对类内变异的鲁棒性。在六个基准数据集上的广泛实验验证了ACLNet在骨架动作识别、步态识别及人脸再识别任务中的有效性。所提出的亲和建模范式为精细化活动分析与行为生物特征识别开辟了新路径,在安全防护、医疗健康及人机交互领域具有广阔应用前景。  

技术实现与开源

该项目已在GitHub开源,使用单张RTX 3090即可复现实验。代码结构清晰,模块化设计便于扩展和修改,为从事行为识别、步态分析或生物特征识别的研究者提供了一个扎实的基准模型。

ACLNet的突破在于告诉我们:对比学习不应只是简单地“拉近”和“推开”。通过引入“亲和力”这一维度,模型能够像人类一样理解动作之间的逻辑关联,从而在细微处见真章。

这一创新不仅提升了骨架动作识别的准确性,更为对比学习在复杂场景下的应用提供了新思路。随着相关代码的开源,我们期待看到更多研究者在此基础上开发出更加强大和智能的动作理解系统。