VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera

2023-05-16

采用了两个CNN
第一个是卷积神经网络(CNN)，在残缺的单目捕捉条件下返回二维和三维关节位置；
这是基于标记的3D人体数据集以及补充的2D人体姿态数据集训练的，提升了捕捉性能；
第二部分结合回归的关节位置与运动学骨骼拟合方法，以产生一个暂时稳定，相机相对，完整的三维骨骼姿态。
核心：第一个CNN同时并且实时预测了2D以及3D关节点位置；在三维关节位置精度方面，新提出的全卷积位姿公式的结果与目前最先进的离线方法相同！！**基于全卷积，可以在物体周围没有紧密作物的情况下工作。**无论场景设置如何，CNN都能够预测各种活动的关节位置，为进一步细化位姿，生成时间上一致的全3d位姿参数提供了坚实的基础。

运动学骨骼拟合:利用CNN的2D和3D预测，加上序列的时间历史，可以获得时间上一致的全3D骨骼姿态，骨骼根(骨盆)定位在摄像机空间中。
运动骨架适宜性角度，优化函数：（1）结合预测的关节位置，以适应最小二乘意义上的运动学骨架。（2）确保时间上的平滑跟踪；通过在不同阶段应用滤波步骤，进一步提高了跟踪姿态的稳定性。
骨架的初始化（可选）：设置了框架；对于更加精确地估计，基本骨架的相对身体比例可以适应的主题，通过平均CNN预测的几个帧在开始。由于单眼重建是不明确的比例参考，预测高度归一化三维关节位置。使用者只需要提供一次高度(从头到脚的距离)，这样我们就可以在真实的度量空间中跟踪3D姿态。

算法描述

估计一个时间一致的3D骨骼运动从单眼RGB输入序列。
输入：假设是连续的RGB图像；
输出：被跟踪的人体完整3D骨架。这个输出在时间上是一致的，并且在全局3D空间中，可以很容易地在人物控制等应用程序中使用。
CNN位姿回归器共同估计二维关节位置以及根相关3D关节点位置，最终预测在相机坐标系下的位置，以及关节角度；

CNN 姿态回归

全局的CNN姿态回归为了获得关节点位置。
对于2D的姿态估计，使用的是神经网络。从x、y体关节坐标的直接回归[Toshev和Szegedy 2014]到基于热图的体关节检测公式[Tompson et al. 2014]的变化是最近2D位姿估计发展背后的关键驱动因素。基于热图的公式通过预测图像平面上每个关节的置信热图Hj,t，自然地将图像证据与姿态估计联系起来。
现有的三维位姿估计方法缺乏这样的图像-预测关联，往往直接回归到根相对关节位置[Ionescu et al. 2014a]，导致预测出的位姿的关节接合程度不能反映图像中人的关节接合程度。将姿态当作关节位置的矢量也会对具有完全连接公式的网络产生自然引力。在实际操作中采用bounding box，增加了时间消耗。
全卷积试图缓解这些问题，：被每一个关节的体积限制，依赖于输入，不具有拓展性（其他更大尺寸的图像）。
本文方法尝试突破这些限制，拓展2D热力图到3D，使用三个额外的增加的x,y,z代表每个关节，。为了使得最后的更加准确得到三维人体关节点位置，对于每个关节点分别进行热力图获取。使用这种全卷积公式的网络不受输入图像大小的限制，并且可以在没有严格裁剪的情况下工作。此外，这个网络没有额外开销，同时后续实时估计。5.2说明了该公式的改进。
误差项：
为了强调我们只关注于x,y,z从各自的热力图中，关节位置图损失在关节二维位置附近加权更强。
网络细节：
我们使用该公式来适应He等人的ResNet50网络体系结构，改造50层，然后产生热力图以及位置图。训练后，批处理归一化[Ioffe和Szegedy 2015]层与之前卷积层的权值合并，以提高正向传递的速度。
中间的监督：
从特征res4d,res5a,随着迭代次数的增加，逐渐减小中间损失的权重。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)