计算机视觉的风,还是刮到了K-pop圈?SEVENTEEN等韩团跳舞超齐的秘密终于被揭开!

51 阅读8分钟

混过K-pop 圈的人都知道,韩国爱豆团体的舞蹈整齐度在业内相当有名。

以韩国男团SEVENTEEN为例,互联网上一直流传着他们超高舞蹈同步率。

成员们有着一定的身高体型差异,但在舞台上跳舞时,却展现出了惊人的同步性。 就像一键复制粘贴,动作整齐划一,观赏性拉满,无数粉丝们为此疯狂打call,甚至用 “Bita-zoroi(完美同步)” 来形容。

而这也引发了好奇:他们究竟是怎么做到的?SEVENTEEN的跳舞同步率有多高?

最近,一篇有趣的计算机视觉研究揭开了这个秘密,通过2D骨骼检测和 3D 姿态估计技术,解释了韩国偶像团体舞蹈高度同步的原因,为人们了解偶像整齐的舞蹈,提供了科学依据。

这一研究不仅满足了粉丝对偶像舞台表现的好奇心,也为人体工程学和计算机视觉研究,提供了一个新的方向。

01 揭开SEVENTEEN跳舞同步的谜

SEVENTEEN 作为 K-pop 界的超人气男团,成员多达13人,是最大的K-pop组合之一。

在出道之前,他们就以创作歌曲并提供出色的舞蹈而闻名。2015年出道以来,SEVENTEEN更是以精湛统一的舞蹈实力,获得粉丝的追捧。

许多CARAT(SEVENTEEN的粉丝名称)在社交媒体和视频平台上,积极称赞他们的舞蹈表演,尤其是“Kal-gunmu” 式(一种强调整齐度的 K-pop 舞蹈风格)的完美团体编舞。

此前,曾有日本专业舞者在YouTube上分析了他们的表演,甚至使用短语“Bita-zoroi(完美同步)” 表示赞叹。据估测,他们的舞蹈同步率高达90%甚至97% ,不过这一数据,目前还没有科学的支撑。

为了揭开这个谜底,研究人员选择从 YouTube 上收集 SEVENTEEN 的舞蹈视频作为研究素材。

来源:www.aminer.cn/pub/67e4b39…

在技术手段上,研究人员借助了两项强大的技术工具,分别是 YOLOv8 和 MediaPipe。

第一个工具是YOLOv8。这是一种先进的对象检测工具,它能在视频里定位每个人的位置,并精准标记出17个关键部位的坐标(x和y坐标),像眼睛、耳朵、肩膀、膝盖和脚踝这些地方都能被精准识别。

而且,它还具备目标跟踪能力,无论成员们在舞台上如何快速移动、旋转,都能被持续锁定追踪。

2D层面的位置信息

有了这些2D层面的位置信息后,研究人员借助 MediaPipe 进一步深入分析。

MediaPipe 是一个专门用于从2D 骨骼数据估计3D 姿态的框架。它能依据 YOLOv8 提供的2D数据,在3D空间中构建出人体模型, 这样研究人员就能更清楚地看到跳舞时身体姿态的细微变化。

3D空间的人体模型

为了准确评估舞蹈动作的同步性,研究人员还采用了Dynamic Time Warping(DTW)和 Cosine similarity(余弦相似度)等方法。

其中,DTW用于计算时间序列数据之间的相似度。 简单来说,DTW就像是给两个时间序列数据(比如不同人跳舞时,对比他们关节角度差异的数据)找一条最小的距离路线,这条路线就是它们的相似度。

打个比方,两个人跳舞,一个人动作快一点,一个人动作慢一点,但他们动作的样子很像,DTW 就能不管快慢,只看动作像不像,算出他们的相似程度。

时间序列数据

注:每个图的顶行显示左肘、右肘和左膝的三个时间序列数据

底行显示右膝、左肩和右肩的三个时间序列数据

水平轴显示帧数,垂直轴显示关节角度

在计算两个向量相似度的时候,研究人员用了另一种方法 ——Cosine similarity(余弦相似度),来评估身体部位运动方向的同步性。

具体而言,向量是有方向和长度的小箭头,两个向量之间的夹角余弦值越接近于1,就说明这两个向量方向越像。

接着,研究人员精心挑选了多种舞蹈场景,包括20个 “Kal-gunmu”表演片段、5个跳跃场景和5个下蹲场景,重点关注4名前排成员,将视频帧率设定为每秒24帧,一帧一帧地研究。

研究结果令人惊喜。研究人员发现,通过DTW计算得出的各关节同步分数并不高,这表明表演舞蹈时,成员们的关节角度一致程度比较低。

成员们的关节角度得分

在 dance-scene5 中

左膝的同步得分最低约为 3.62%

然而,在身体部位运动方向上,利用余弦相似度计算得到的同步分数,整体都比较高。 尤其是左膝到左脚踝、右膝到右脚踝这两个部位,在多个场景中的同步性得分接近 90%。

此外,在跳跃和下蹲动作中,脚踝和头部高度的同步性也非常突出,大多超过 90%。

左膝到左脚踝得分超过90%

这充分说明,SEVENTEEN 在表演舞蹈时,之所以能实现高度同步,主要是通过保持身体部位运动方向的一致性,以及在跳跃、下蹲时协调脚踝和头部的高度,而不受成员间身高体型差异的影响。

02 从舞台走向工厂:计算机视觉技术的延伸

其实,运用计算机视觉技术来判断运动和动作,早有先例。

研究人员提到,一项关于工人姿势的研究,就为这项关于SEVENTEEN舞蹈同步率的研究提供了思路。

来源:

www.aminer.cn/pub/6353023…

在工人姿势研究中,研究人员发现,在制造业中,由于设计不当,工人经常反复处于不舒服的姿势和动作(如以不自然的角度弯曲、后仰、弯曲肘关节或手腕等),对工人的身体造成伤害。

研究人员因此运用了一种Yolov3与3DMPPE相结合的新方法。简单来说,就是从视频和图像序列中,估计3D人体姿态,分析工人姿势的风险,计算出最可靠的身体弯曲程度,以确保工人的工作角度符合人体工程学的要求。

工人姿势分析

也就是说,这种技术组合和分析SEVENTEEN舞蹈同步率的原理相似,都是先定位人体,再进行姿态分析,实现了从 2D 到 3D 的精准动作分析。

另外一项基于骨骼信息的K-pop舞蹈动作分类研究也十分有趣。研究人员构建了一个包含800 个舞蹈动作数据点、涵盖 200 种舞蹈类型的 K-pop舞蹈数据库,这些数据均来自专业舞者的骨骼关节数据。

来源:www.aminer.cn/pub/599c7a7…

他们从每帧的 25 个标记中提取 6 个核心角度,代表重要运动特征,接着结合主成分分析和 Fisher 线性判别分析进行降维处理,最后设计了极限学习机分类器(ELMC),从而实现了对K-pop舞蹈动作的科学分类。

舞蹈动作示例

03 总结

事实上,这些研究各有侧重,有的聚焦在工厂中的人体姿势,有的关注idol在舞台上的舞蹈表现。

对SEVENTEEN舞蹈同步率的研究,以及对K-pop舞蹈的分类,为粉丝们深入了解偶像成员们的舞台表现,提供了更加科学的依据,而对工人姿势的计算机视觉研究,则有助于我们更好预防工业中的风险。

更为重要的是,这几项研究向我们展示了计算机视觉技术被运用在越来越广泛的场景。

以往,计算机视觉技术只出现在安防、监控这些常见的领域,但现在已经延伸到了舞蹈艺术和人体工程学,可以被用在复杂场景动作的分析。

举个例子,今年春晚,人形机器人扭秧歌表演才刚刚火爆出圈。设想一下,当人体的动作和姿态可以被计算机视觉技术精准解析,我们离看到完美复刻人类、流畅自然的机器人舞蹈,还会远吗?

————————————————————————————————————

这里是AMiner数据平台——全球领先的学术数据挖掘与分析平台,您身边的科研助手,有关学术趋势洞察、学者网络分析问题都可以与我们探讨!

6f48c0029cba024b44724efa47cd5b98.png

或直接关注【AMiner Research】公众号,获取最新的AI前沿研究、行业动态和学者信息!

7cae1dfcce328b78766c784260cd48d7.png