RTMO: 超越YOLO-pose的高性能、单阶段、多人姿态估计

2023-12-14 18:38:56

论文地址:https://arxiv.org/pdf/2312.07526v1.pdf

github:https://github.com/open-mmlab/mmpose/tree/dev-1.x/projects/rtmo

1. 动机

实时多人姿态估计面临着速度与精度平衡的问题。two-stage的方法中,top-down是先检测再估计pose,人一多的时候就会变慢,bottom-up的方法则需要grouping等操作,效果也不理想;已有的one-stage方法虽然速度很快,但精度往往不高。

因此,作者提出了一个one-stage、高性能的多人姿态估计方法——RTMO,其通过双1-D heatmap表示关键点,无缝集成到了YOLO框架中,在保持高推理速度的前提下,提升了one-stage多人姿态估计的性能。

2. 方法

作者主要是将YOLO目标检测框架和坐标分类方法(如RTMPose、SimCC,以及DFL所用的那样)结合了起来,不过和他们不同的是,RTMPose、SimCC是将整个输入图像分成若干个bins,这导致大量bin的浪费且效率低下,DFL在anchor附近设置bin,这会导致召回比较低;而作者提出在bbox内进行bin的分配,这样一来,就可以实现动态分配,既能覆盖每个实例,又能根据每个实例的大小分配bin,同时也避免了在没有实例的地方分配bin造成浪费。

2.1 概述

提出的RTMO框架如下图所示:

?网络框架描述如下:

输入图像经过backbone(CSPDarknet)后,最后三层feature map经过Hybrid Encoder得到16、32倍下采样的空间feature mapP4、P5,送入Heads;每个Head生成一个得分feature、一个坐标姿态feature,其中坐标姿态feature用于预测bbox、关键点坐标、关键点可见性。

****强行插入一段*****:

关于坐标分类,没做过的小伙伴可能有点懵,我们可以从SimCC这篇文章中的方法一窥其貌。在SimCC中,将全图沿着X、Y轴分成多个bins,每个bin的宽度是小于一个像素的,也就可以在feature map中得到亚像素级别的坐标,从而缓解量化误差。SimCC网络结构长这样:

2.2 本文关键技术

2.2.1?Dynamic Coordinate Classifier

以前的方法直接从姿态特征回归关键点的位移,这会导致性能低下。本文提出了动态坐标分类器DCC,见图2中的DCC部分,动态地为两个1-D heatmap中的bin分类范围和形式表示,其先将bbox扩展1.25倍,然后再水平、垂直方向均匀划分bin,对于x轴(水平方向),bin的坐标表示如下:

其中,xl, xr表示bbox的左右边界,共Bx个bin;y轴与之类似。

由于采用了动态的bin分配策略,所以每个bbox中的bin坐标是局部的,为了对应到全局坐标,作者使用sine进行了位置编码(positional encoding):

其中,t表示强度,c是索引,C是总维度。?

如图2中的DCC部分所示,bin经过sine 位置编码后又利用一个FC层来细化其对任务的适应性,然后与经过FC+Reshape+GAU(Gated Attention Unit)后的关键点feature相乘,再经过softmax得到heatmap:

2.2.2??MLE for Coordinate Classification

作者提出了用极大似然估计作为坐标分类的损失函数。在分类任务中,one-hot目标、交叉熵损失比较常用,还有Label平滑以及KLD,都能提升性能。高斯均值及方差可以视为标注坐标和预定义参数,则目标分布定义为:

比较重要的一点是,作者注意到上述目标分布在数学上与带有真值xi的标注ux的似然函数相等,这种对称性的出现是因为高斯分布相对于它的平均值是对称的。将xi的预测概率作为先验,则第k个关键点的似然定义为:

最大化上述似然即可建模标注的分布。

在实际使用中,作者使用了拉普拉斯分布和负对数似然损失:

总的MLE损失为:

与 KLD 不同,我们的 MLE 损失允许可学习的方差,表示不确定性。这种不确定性学习框架自动调整各种样本的难度。对于困难样本,模型预测较大方差以简化优化过程,对于简单样本,预测较小方差来提升准确性。而在KLD中,采用可学习方差是有问题的,因为模型会从简化学习的角度出发从而倾向于学习较大方差。

3. 实验结果

?

?4. 写在后面

RTMO这项工作对YOLO进行了扩展,将坐标分类的方法集成到了YOLO框架中。不同于YOLO-Pose的直接回归,RTMO将bbox范围内的X、Y轴范围分为多个bin,然后对关键点x/y坐标进行分类得到其坐标;也不同于其他one-stage 多人姿态估计方法,如SimCC直接在全图划分bins或者DFL在anchor附近划分bins,RTMO则在bbox范围内进行划分,这避免了全图密集bins的浪费,也保证了每个实例的覆盖。

文章来源:https://blog.csdn.net/oYeZhou/article/details/134995486
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。