本文是一篇来自新加坡国立大学与依图的人体姿态估计论文,已被ICCV 2019接收。
多人姿态估计一般分为自顶向下和自底向上两种策略,而无论使用哪种策略,这些方法大多使用一种两阶段的方式。自顶向下方法中,第一阶段进行对人体的检测,第二阶段对各个人体产生“姿态”进行建模(一般为人体各个关键点位置);自底向上方法中,第一阶段先对图像中所有人体关键点进行检测,第二阶段将关键点进行归类从而合成不同的人体。两阶段的多人姿态估计方法的速度是一个很大的短板,而本文提出的单阶段多人姿态机(SPM)则简化了两阶段方法的流程并极大地提升了速度。
作者提出了“结构化姿态表征”(SPR)的人体姿态表示方式,将人体实例与人体关键点位置的表示统一了起来,使用一个CNN将每个人体中心的位置及该人体关键点位置相对于中心的偏移预测出来。
SPM还可用于3D人体姿态估计。在基于MPII、PASCAL-Person-Part、MSCOCO和CMU Panoptic等数据集上,SPM都达到了极快的速度和出色的准确度。
个人感觉,SPM的思路与今年四月份的CenterNet: Objects as Points如出一辙。二者都是运用了一种“在目标检测特征图的每个目标中心点处预测其他信息”的思路,也都是很优秀的文章。