研一 | 读论文2-基于改进YOLO-Pose轻量模型的多人姿态估计

333 阅读2分钟

摘要:选取Slim-neck模块和Res2Net模块,重新设计其特征融合层,减少其计算量和检测的收敛速度,并提高定位的准确性。

YOLO-Pose引入了object keypoint similarity(OKS)损失函数,可以进行端对端的训练,并优化了OKS的度量。

模型改进:

基于YOLOv5,模型分为输入端(Input)、骨干网络层(Backbone)、特征融合层(Neck)、目标检测层(Head)和输出端(Prediction)。

①将Neck层的一个C3卷积,用Res2Net模块替换。
②将Neck层的Conv和其余的C3卷积网络分别替换成Slim-neck模块的GSConv和VoV-GSCSP卷积网络。
③将CIoU损失函数更换为EIoU损失函数。


基于ResNet模块,Res2Net模块将原有的卷积操作分解为多个子模块。Res2Net模块包含多分支的残差块,这些分支各自拥有独立的卷积层,负责处理不同分辨率的特征。


Mosaic数据增强技术的核心思想是将多张图片进行随机组合,生成新的训练样本。具体而言,在训练时,从训练集中随机选取四张图片,然后对这四张图片进行随机缩放、裁剪和排列,最后将它们拼接在一起形成一个新的训练样本。这样做的好处是丰富了图片的背景,并且提高了‌batch_size,在进行batch normalization的时候也会计算四张图片,从而增强模型的泛化能力和鲁棒性。

应用场景和效果

Mosaic数据增强技术在目标检测任务中得到了广泛应用,特别是在YOLO系列算法中。它能够丰富数据集,提高模型的泛化能力,特别是对小目标的检测能力有显著提升。此外,Mosaic数据增强方法还能增强模型的鲁棒性,使其能够检测超出常规语境的目标。通过拼接四张图片,每张图像会有更大概率包含小目标,从而提高模型对小目标的检测性能。